
해당 논문은 Fine-tuning Language Models from Human References에서 이어지는 내용을 다루고 있으며, InstructGPT의 근본이 되는 논문이다. 언어 모델의 성능이 강력해지면서, 모델 학습과 평가는 특정 task에서의 데이터와 측정 지표로 인해 병목 현상이 증가하게 되었다. 예를 들어 summarization task에서는 ROUGE 점수를 사용하여 모델의 성능을 평가하지만, 이는 임의의 알고리즘이기 때문에 실제로 요약문의 수준을 측정하기에는 부족할 수 있다. 따라서 본 논문에서는 인간 선호도를 활용하여 모델의 요약 능력을 향상시키고자 한다. 모델은 TL;DR 레딧 데이터셋이 사용되었으며, 이는 모델이 human reference를 능가하는 요약문을 작성할 수 있게..

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google에서 제시한 양방향 pre-trained 모델이다. 논문은 BERT에서 볼 수 있다. BERT는 양방향의 context를 모두 참조함으로써 모델이 deep bidirectional representation 학습이 가능하도록 한 것이 논문의 중요 포인트이다. 또한, pre-trained BERT는 fine-tuning을 통해 output layer를 하나만 추가함으로써 NLI 및 QA와 같은 downstream tasks에 손쉽게 적용할 수 있다. Introduction 기존의 Pre-trained 모델은 많은 NLI, QA, paraphrasing와 같은 sentence..