
Summary 이 모델은 귀여운 친칠라(동물)의 이름을 따서 개발되었다. Chinchilla 논문은 기존의 (모델 사이즈 중심의) scaling law가 잘못되었다는 의견을 제시하며 주어진 컴퓨팅 예산을 모델 사이즈와 학습 토큰에 적절하게 분배할 때 성능이 최적화된다는 의견을 제시한다. 논문의 저자들은 기존의 LLM(Large Language Model)들이 상당히 under-trained 되었다는 것을 발견하고, 그 원인이 모델의 사이즈는 증가시키면서 사용하는 데이터의 사이즈는 그대로이기 때문이라는 것을 알게 되었다. 이에 따라 주어진 컴퓨터 예산을 모델 크기와 학습 데이터 크기에 얼마나 할당해야 하는지에 대한 실험을 진행해보니 모델 사이즈/학습 데이터가 동등하게 scaling되어야 한다는 결과가 도출..

해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..

지금까지의 연구들은 autoencoding models(BERT based), autoregressive models(GPT), 그리고 encoder-decoder models(T5)와 같은 다양한 pre-training architecture를 제안했다. 하지만 아직까지 NLU, unconditional/conditional generation task를 포함한 모든 NLP task에서 가장 좋은 모델을 개발되지 않았다. 이 문제에 도전하기 위해 해당 논문은 autoregressive blank infilling을 사용하는 General Language Model(GLM)을 제안한다. GLM은 2D positional embedding을 사용하여 blank filling pretraining을 개선하며..

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..

SpanBERT는 연속된 텍스트를 예측함으로써 더 나은 representation이 가능해진 모델이다. BERT에서 파생된 모델이며, 기존의 pre-training이 단일 토큰을 마스킹했던 것과 다르게 해당 모델은 랜덤하게 선정된 연속적인 토큰(span)을 마스킹하는 것이 특징이고, 개별 토큰 표현에 의지하지 않으면서 maked span을 더 잘 예측 하기 위해 SBO(Span Boundary Objective)를 제안한다. 이로 인해 SpanBERT는 기존 BERT에 비해 span selection tasks(question answering, coreference resolution)에 대해 월등히 나은 성능을 보이게 된다. BERT-large와 모델 사이즈가 같은 SpanBERT 모델은 SQuAD ..

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

BERT에서 사용되었던 기존의 Masked LM pre-training은 입력 데이터의 일부를 [MASK]로 대체하는 과정을 통해 input corruption을 일으키고, 모델은 original token를 예측하도록 학습된다. BERT 기반의 모델들은 downstream task에서 좋은 성능을 보이지만, 학습하는 과정에서 많은 계산 비용을 필요로 한다. 이 문제를 해결하기 위해 해당 논문은 pre-training을 보다 효율적으로 하기 위해 replaced token detection objective를 사용하여 학습된 ELECTRA(Efficiency Learning an Encoder that Classifies Token Replacements Accurately)를 제안한다. 이 object..

XLM은 기존의 pre-training을 여러 언어에 대해 학습이 가능하도록 확장한 훈련 기법이다. 이를 cross-lingual language model 줄어서 XLM이라고 칭한다. XLM은 다중 언어 학습을 위해 monolingual data와 parallel data를 활용한 두 가지 학습 방법을 제시하여 machine translation task에 대한 성능을 높인다. 또한 aligning distribution of sentences (문장의 분포 균형 조절) 에 대해 굉장히 강조한다. XLM은 여러 언어에 대한 이해를 평가하는 지표인 XNLI와 WMT' 16 German-English 등에서 SOTA를 달성했다. Introduction Pre-training은 NLU 성능 발전에 큰 기여를..