learningAI
article thumbnail
[Paper Review] FLAN: Finetuned Language Models Are Zero-Shot Learners
Paper Review/NLP 2023. 6. 13. 23:27

해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..

article thumbnail
[Short Review] AlexaTM: Pretraining and DistillingMulti-Billion-Parameter Encoders for Natural LanguageUnderstanding Systems
Paper Review/NLP 2023. 6. 13. 21:55

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..