
이전 GPT-1 논문을 안 읽어보신 분은 아래 포스팅을 참고해주세요! [Paper Review] Improving Language Understanding by Generative Pre-Training Question answering, machine translation, reading comprehension, 그리고 summarization과 같은 NLP task들은 주로 supervised 학습을 통한 접근법이 이뤄졌다. 본 논문은 모델을 WebText라는 데이터에 학습시켜 supervised 학습을 하지 않고 task에 적용시키는 연구를 진행했다. 학습된 모델은 CoQA 데이터셋에 대해 55 F1 성능을 달성했으며 4개 중 3개의 baseline 모델에 비해 더 나은 성능을 보이거나 비슷한 성..

SpanBERT는 연속된 텍스트를 예측함으로써 더 나은 representation이 가능해진 모델이다. BERT에서 파생된 모델이며, 기존의 pre-training이 단일 토큰을 마스킹했던 것과 다르게 해당 모델은 랜덤하게 선정된 연속적인 토큰(span)을 마스킹하는 것이 특징이고, 개별 토큰 표현에 의지하지 않으면서 maked span을 더 잘 예측 하기 위해 SBO(Span Boundary Objective)를 제안한다. 이로 인해 SpanBERT는 기존 BERT에 비해 span selection tasks(question answering, coreference resolution)에 대해 월등히 나은 성능을 보이게 된다. BERT-large와 모델 사이즈가 같은 SpanBERT 모델은 SQuAD ..

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

BERT에서 사용되었던 기존의 Masked LM pre-training은 입력 데이터의 일부를 [MASK]로 대체하는 과정을 통해 input corruption을 일으키고, 모델은 original token를 예측하도록 학습된다. BERT 기반의 모델들은 downstream task에서 좋은 성능을 보이지만, 학습하는 과정에서 많은 계산 비용을 필요로 한다. 이 문제를 해결하기 위해 해당 논문은 pre-training을 보다 효율적으로 하기 위해 replaced token detection objective를 사용하여 학습된 ELECTRA(Efficiency Learning an Encoder that Classifies Token Replacements Accurately)를 제안한다. 이 object..

BERT에서 제시한 Masked LM 기법을 XLNet에서는 AE(Auto Encoding)이라고 하고, GPT에서 사용하는 모델링 기법을 AR(Auto Regressive)라고 한다. AE는 양방향 문맥에 대한 학습이 가능하다는 이점이 있지만, 마스킹된 토큰에 대한 연관성은 알 수 없다는 단점이 존재한다. AR은 양방향 문맥에 대한 판단이 필요한 문제에는 성능이 떨어진다. 따라서 XLNet은 AR과 AE의 장점만을 추출하여 AR이 양방향 문맥 학습을 가능하게 만든 Permutation Language Modeling을 제시한다. XLNet은 BERT보다 20개의 tasks에서 뛰어난 성능을 보인다. Introduction Unsupervised representation 학습은 자연어 처리 모델의 성능..

Pre-trained 모델 사이즈의 증가는 대체적으로 downstream tasks에서 좋은 성능을 보이지만, 이 학습 방법에는 GPU/TPU의 한계라는 어려움이 존재한다. ALBERT는 이러한 문제점을 해결하기 위한 BERT의 경량화 모델이며, 논문은 parameter reduction을 위한 두 가지 method와 BERT의 모델링 기법인 NSP를 개선한 SOP를 제안한다. Introduction Pre-training 과정에서 large parameter를 가진 모델은 대체적으로 downsteam tasks에서 좋은 성능을 보인다. 따라서 최근 연구들은 큰 사이즈의 모델을 사용하여 SOTA (state-of-the-art)를 달성하는 방법을 보편적으로 사용하고 있다. 논문은 여기서 하나의 의문을 가..

XLM은 기존의 pre-training을 여러 언어에 대해 학습이 가능하도록 확장한 훈련 기법이다. 이를 cross-lingual language model 줄어서 XLM이라고 칭한다. XLM은 다중 언어 학습을 위해 monolingual data와 parallel data를 활용한 두 가지 학습 방법을 제시하여 machine translation task에 대한 성능을 높인다. 또한 aligning distribution of sentences (문장의 분포 균형 조절) 에 대해 굉장히 강조한다. XLM은 여러 언어에 대한 이해를 평가하는 지표인 XNLI와 WMT' 16 German-English 등에서 SOTA를 달성했다. Introduction Pre-training은 NLU 성능 발전에 큰 기여를..

BERT논문을 읽어보지 않으신 분들은 이전의 다룬 BERT 리뷰 포스팅을 참고해주세요. RoBERTa 논문의 간략한 설명은 다음과 같다. 1) 기존의 BERT에서 간과한 design choice, 학습 전략의 중요성을 강조하며 downstream task 성능을 높이는 새로운 대안을 제시한다. 2) 모델의 학습 데이터로 novel dataset, CC-News를 사용하며, pre-training 과정에서 더 많은 데이터를 사용할수록 모델의 성능은 높아진다. 3) BERT의 MLM 방식을 개선함으로 인해 이후 나온 모델과 비교하여 비슷하거나 더 나은 성능을 보인다. Introduction ELMo, GPT, BERT, XLM, 그리고 XLNet과 같은 Self-training 훈련 방식은 성능 개선에 큰 ..

NLU(Natural Language Understanding) 문제는 다음과 같은 task를 포함하고 있다. NLU tasks - 텍스트 함의(textual entailment) - 질의응답(question answering) - 문서 분류(document classification) - 문장 유사도(semantic similarity) 위와 같은 NLU task는 방대한 양의 unlabeled data와 상대적으로 부족한 양의 labeled data로 인해 학습이 어렵다는 문제가 있다. 해당 논문은 generative pre-training 방식을 제안함으로써 이 문제를 해결하고자 한다. 이전의 접근 방식들과 달리 fine-tuning에서 세부 작업에 맞는 입력 변환을 사용함으로써 효율적인 학습을 진..

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google에서 제시한 양방향 pre-trained 모델이다. 논문은 BERT에서 볼 수 있다. BERT는 양방향의 context를 모두 참조함으로써 모델이 deep bidirectional representation 학습이 가능하도록 한 것이 논문의 중요 포인트이다. 또한, pre-trained BERT는 fine-tuning을 통해 output layer를 하나만 추가함으로써 NLI 및 QA와 같은 downstream tasks에 손쉽게 적용할 수 있다. Introduction 기존의 Pre-trained 모델은 많은 NLI, QA, paraphrasing와 같은 sentence..