
BERT에서 제시한 Masked LM 기법을 XLNet에서는 AE(Auto Encoding)이라고 하고, GPT에서 사용하는 모델링 기법을 AR(Auto Regressive)라고 한다. AE는 양방향 문맥에 대한 학습이 가능하다는 이점이 있지만, 마스킹된 토큰에 대한 연관성은 알 수 없다는 단점이 존재한다. AR은 양방향 문맥에 대한 판단이 필요한 문제에는 성능이 떨어진다. 따라서 XLNet은 AR과 AE의 장점만을 추출하여 AR이 양방향 문맥 학습을 가능하게 만든 Permutation Language Modeling을 제시한다. XLNet은 BERT보다 20개의 tasks에서 뛰어난 성능을 보인다. Introduction Unsupervised representation 학습은 자연어 처리 모델의 성능..

Pre-trained 모델 사이즈의 증가는 대체적으로 downstream tasks에서 좋은 성능을 보이지만, 이 학습 방법에는 GPU/TPU의 한계라는 어려움이 존재한다. ALBERT는 이러한 문제점을 해결하기 위한 BERT의 경량화 모델이며, 논문은 parameter reduction을 위한 두 가지 method와 BERT의 모델링 기법인 NSP를 개선한 SOP를 제안한다. Introduction Pre-training 과정에서 large parameter를 가진 모델은 대체적으로 downsteam tasks에서 좋은 성능을 보인다. 따라서 최근 연구들은 큰 사이즈의 모델을 사용하여 SOTA (state-of-the-art)를 달성하는 방법을 보편적으로 사용하고 있다. 논문은 여기서 하나의 의문을 가..

BERT논문을 읽어보지 않으신 분들은 이전의 다룬 BERT 리뷰 포스팅을 참고해주세요. RoBERTa 논문의 간략한 설명은 다음과 같다. 1) 기존의 BERT에서 간과한 design choice, 학습 전략의 중요성을 강조하며 downstream task 성능을 높이는 새로운 대안을 제시한다. 2) 모델의 학습 데이터로 novel dataset, CC-News를 사용하며, pre-training 과정에서 더 많은 데이터를 사용할수록 모델의 성능은 높아진다. 3) BERT의 MLM 방식을 개선함으로 인해 이후 나온 모델과 비교하여 비슷하거나 더 나은 성능을 보인다. Introduction ELMo, GPT, BERT, XLM, 그리고 XLNet과 같은 Self-training 훈련 방식은 성능 개선에 큰 ..

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google에서 제시한 양방향 pre-trained 모델이다. 논문은 BERT에서 볼 수 있다. BERT는 양방향의 context를 모두 참조함으로써 모델이 deep bidirectional representation 학습이 가능하도록 한 것이 논문의 중요 포인트이다. 또한, pre-trained BERT는 fine-tuning을 통해 output layer를 하나만 추가함으로써 NLI 및 QA와 같은 downstream tasks에 손쉽게 적용할 수 있다. Introduction 기존의 Pre-trained 모델은 많은 NLI, QA, paraphrasing와 같은 sentence..