
해당 논문은 똑똑한 언어 모델의 근본적인 개념이 되는 RLHF(Reinforcement Learning from Human Feedback)의 내용을 다룬다. RLHF는 강화학습을 NLP에 적용하는 것으로, 인간의 수동적인 라벨링을 통한 fine-tuning을 모델에 적용시킨다. 일반적인 벤치마크 평가와 다르게 실제 task는 "이 글을 사람처럼 요약해줘"와 같이 애매한 조건이 주어질 경우가 많다. 본 논문의 모델은 RL fine-tuning 기법을 사용하여 사람의 정의한 task에 대해 학습이 가능하도록 한다. 본 논문의 실험과정에서는 학습된 모델을 text generation, 그리고 summarization task 각각 두가지, 총 4가지 task에서 평가한다. Methods Reinforceme..

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..

GPT-1, GPT-2 포스팅도 있으니 참고해주세요~ [Paper Review] Improving Language Understanding by Generative Pre-Training [Paper Review] Improving Language Understanding by Generative Pre-Training NLU(Natural Language Understanding) 문제는 다음과 같은 task를 포함하고 있다. NLU tasks - 텍스트 함의(textual entailment) - 질의응답(question answering) - 문서 분류(document classification) - 문장 유사도(semantic similarity) learn-ai.tistory.com [Paper..

Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습되기 쉽지 않다. Megatron-LM은 Billions of parameters(몇 십억개의 파라미터)를 학습시키기 위해 모델 병렬화 기법을 소개한다. 논문에서 소개한 병렬화 기법은 새로운 컴파일러를 필요로 하거나 라이브러리를 수정할 필요가 없으며, 간단한 계산 수식을 추가하여 구현할 수 있다. Megatron-LM은 새로 소개한 병렬화 기법을 활용하여 8.3B(83억)개의 파라미터를 가진 transformer 모델을 512개의 GPU로 구현한다. Baseline으로 사용된 모델은 단..

이전 GPT-1 논문을 안 읽어보신 분은 아래 포스팅을 참고해주세요! [Paper Review] Improving Language Understanding by Generative Pre-Training Question answering, machine translation, reading comprehension, 그리고 summarization과 같은 NLP task들은 주로 supervised 학습을 통한 접근법이 이뤄졌다. 본 논문은 모델을 WebText라는 데이터에 학습시켜 supervised 학습을 하지 않고 task에 적용시키는 연구를 진행했다. 학습된 모델은 CoQA 데이터셋에 대해 55 F1 성능을 달성했으며 4개 중 3개의 baseline 모델에 비해 더 나은 성능을 보이거나 비슷한 성..

SpanBERT는 연속된 텍스트를 예측함으로써 더 나은 representation이 가능해진 모델이다. BERT에서 파생된 모델이며, 기존의 pre-training이 단일 토큰을 마스킹했던 것과 다르게 해당 모델은 랜덤하게 선정된 연속적인 토큰(span)을 마스킹하는 것이 특징이고, 개별 토큰 표현에 의지하지 않으면서 maked span을 더 잘 예측 하기 위해 SBO(Span Boundary Objective)를 제안한다. 이로 인해 SpanBERT는 기존 BERT에 비해 span selection tasks(question answering, coreference resolution)에 대해 월등히 나은 성능을 보이게 된다. BERT-large와 모델 사이즈가 같은 SpanBERT 모델은 SQuAD ..

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

BERT에서 사용되었던 기존의 Masked LM pre-training은 입력 데이터의 일부를 [MASK]로 대체하는 과정을 통해 input corruption을 일으키고, 모델은 original token를 예측하도록 학습된다. BERT 기반의 모델들은 downstream task에서 좋은 성능을 보이지만, 학습하는 과정에서 많은 계산 비용을 필요로 한다. 이 문제를 해결하기 위해 해당 논문은 pre-training을 보다 효율적으로 하기 위해 replaced token detection objective를 사용하여 학습된 ELECTRA(Efficiency Learning an Encoder that Classifies Token Replacements Accurately)를 제안한다. 이 object..

BERT에서 제시한 Masked LM 기법을 XLNet에서는 AE(Auto Encoding)이라고 하고, GPT에서 사용하는 모델링 기법을 AR(Auto Regressive)라고 한다. AE는 양방향 문맥에 대한 학습이 가능하다는 이점이 있지만, 마스킹된 토큰에 대한 연관성은 알 수 없다는 단점이 존재한다. AR은 양방향 문맥에 대한 판단이 필요한 문제에는 성능이 떨어진다. 따라서 XLNet은 AR과 AE의 장점만을 추출하여 AR이 양방향 문맥 학습을 가능하게 만든 Permutation Language Modeling을 제시한다. XLNet은 BERT보다 20개의 tasks에서 뛰어난 성능을 보인다. Introduction Unsupervised representation 학습은 자연어 처리 모델의 성능..

Pre-trained 모델 사이즈의 증가는 대체적으로 downstream tasks에서 좋은 성능을 보이지만, 이 학습 방법에는 GPU/TPU의 한계라는 어려움이 존재한다. ALBERT는 이러한 문제점을 해결하기 위한 BERT의 경량화 모델이며, 논문은 parameter reduction을 위한 두 가지 method와 BERT의 모델링 기법인 NSP를 개선한 SOP를 제안한다. Introduction Pre-training 과정에서 large parameter를 가진 모델은 대체적으로 downsteam tasks에서 좋은 성능을 보인다. 따라서 최근 연구들은 큰 사이즈의 모델을 사용하여 SOTA (state-of-the-art)를 달성하는 방법을 보편적으로 사용하고 있다. 논문은 여기서 하나의 의문을 가..