learningAI
article thumbnail
[Short Review] AlexaTM: Pretraining and DistillingMulti-Billion-Parameter Encoders for Natural LanguageUnderstanding Systems
Paper Review/NLP 2023. 6. 13. 21:55

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..

article thumbnail
[Paper Review] GLM: General Language Model Pretraining with Autoregressive Blank Infilling
Paper Review/NLP 2023. 6. 4. 16:04

지금까지의 연구들은 autoencoding models(BERT based), autoregressive models(GPT), 그리고 encoder-decoder models(T5)와 같은 다양한 pre-training architecture를 제안했다. 하지만 아직까지 NLU, unconditional/conditional generation task를 포함한 모든 NLP task에서 가장 좋은 모델을 개발되지 않았다. 이 문제에 도전하기 위해 해당 논문은 autoregressive blank infilling을 사용하는 General Language Model(GLM)을 제안한다. GLM은 2D positional embedding을 사용하여 blank filling pretraining을 개선하며..

article thumbnail
[Paper Review] Learning to summarize from human feedback
Paper Review/NLP 2023. 6. 2. 14:19

해당 논문은 Fine-tuning Language Models from Human References에서 이어지는 내용을 다루고 있으며, InstructGPT의 근본이 되는 논문이다. 언어 모델의 성능이 강력해지면서, 모델 학습과 평가는 특정 task에서의 데이터와 측정 지표로 인해 병목 현상이 증가하게 되었다. 예를 들어 summarization task에서는 ROUGE 점수를 사용하여 모델의 성능을 평가하지만, 이는 임의의 알고리즘이기 때문에 실제로 요약문의 수준을 측정하기에는 부족할 수 있다. 따라서 본 논문에서는 인간 선호도를 활용하여 모델의 요약 능력을 향상시키고자 한다. 모델은 TL;DR 레딧 데이터셋이 사용되었으며, 이는 모델이 human reference를 능가하는 요약문을 작성할 수 있게..

article thumbnail
[Paper Review] Fine-tuning Language Models from Human References
Paper Review/NLP 2023. 5. 29. 19:56

해당 논문은 똑똑한 언어 모델의 근본적인 개념이 되는 RLHF(Reinforcement Learning from Human Feedback)의 내용을 다룬다. RLHF는 강화학습을 NLP에 적용하는 것으로, 인간의 수동적인 라벨링을 통한 fine-tuning을 모델에 적용시킨다. 일반적인 벤치마크 평가와 다르게 실제 task는 "이 글을 사람처럼 요약해줘"와 같이 애매한 조건이 주어질 경우가 많다. 본 논문의 모델은 RL fine-tuning 기법을 사용하여 사람의 정의한 task에 대해 학습이 가능하도록 한다. 본 논문의 실험과정에서는 학습된 모델을 text generation, 그리고 summarization task 각각 두가지, 총 4가지 task에서 평가한다. Methods Reinforceme..

article thumbnail
[Paper Review] UniLM: Unified Language Model Pre-training for Natural Language Understanding and Generation
Paper Review/NLP 2023. 5. 20. 01:41

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..

article thumbnail
[Paper Review] GPT 3: Language Models are Few-Shot Learners
Paper Review/NLP 2023. 5. 18. 22:48

GPT-1, GPT-2 포스팅도 있으니 참고해주세요~ [Paper Review] Improving Language Understanding by Generative Pre-Training [Paper Review] Improving Language Understanding by Generative Pre-Training NLU(Natural Language Understanding) 문제는 다음과 같은 task를 포함하고 있다. NLU tasks - 텍스트 함의(textual entailment) - 질의응답(question answering) - 문서 분류(document classification) - 문장 유사도(semantic similarity) learn-ai.tistory.com [Paper..

article thumbnail
[Paper Review] GPT-2: Language Models are Unsupervised Multitask Learners
Paper Review/NLP 2023. 4. 26. 22:52

이전 GPT-1 논문을 안 읽어보신 분은 아래 포스팅을 참고해주세요! [Paper Review] Improving Language Understanding by Generative Pre-Training Question answering, machine translation, reading comprehension, 그리고 summarization과 같은 NLP task들은 주로 supervised 학습을 통한 접근법이 이뤄졌다. 본 논문은 모델을 WebText라는 데이터에 학습시켜 supervised 학습을 하지 않고 task에 적용시키는 연구를 진행했다. 학습된 모델은 CoQA 데이터셋에 대해 55 F1 성능을 달성했으며 4개 중 3개의 baseline 모델에 비해 더 나은 성능을 보이거나 비슷한 성..

article thumbnail
[Paper Review] SpanBERT: Improving Pre-training by Representing and Predicting Spans
Paper Review/NLP 2023. 4. 20. 22:53

SpanBERT는 연속된 텍스트를 예측함으로써 더 나은 representation이 가능해진 모델이다. BERT에서 파생된 모델이며, 기존의 pre-training이 단일 토큰을 마스킹했던 것과 다르게 해당 모델은 랜덤하게 선정된 연속적인 토큰(span)을 마스킹하는 것이 특징이고, 개별 토큰 표현에 의지하지 않으면서 maked span을 더 잘 예측 하기 위해 SBO(Span Boundary Objective)를 제안한다. 이로 인해 SpanBERT는 기존 BERT에 비해 span selection tasks(question answering, coreference resolution)에 대해 월등히 나은 성능을 보이게 된다. BERT-large와 모델 사이즈가 같은 SpanBERT 모델은 SQuAD ..

article thumbnail
[Paper Review] TinyBERT: Distilling BERT for Natural Language Understanding
Paper Review/NLP 2023. 4. 18. 21:26

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

article thumbnail
[Short Review] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
Paper Review/NLP 2023. 4. 14. 22:59

BERT에서 사용되었던 기존의 Masked LM pre-training은 입력 데이터의 일부를 [MASK]로 대체하는 과정을 통해 input corruption을 일으키고, 모델은 original token를 예측하도록 학습된다. BERT 기반의 모델들은 downstream task에서 좋은 성능을 보이지만, 학습하는 과정에서 많은 계산 비용을 필요로 한다. 이 문제를 해결하기 위해 해당 논문은 pre-training을 보다 효율적으로 하기 위해 replaced token detection objective를 사용하여 학습된 ELECTRA(Efficiency Learning an Encoder that Classifies Token Replacements Accurately)를 제안한다. 이 object..