
해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..