
BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

Pre-trained 모델 사이즈의 증가는 대체적으로 downstream tasks에서 좋은 성능을 보이지만, 이 학습 방법에는 GPU/TPU의 한계라는 어려움이 존재한다. ALBERT는 이러한 문제점을 해결하기 위한 BERT의 경량화 모델이며, 논문은 parameter reduction을 위한 두 가지 method와 BERT의 모델링 기법인 NSP를 개선한 SOP를 제안한다. Introduction Pre-training 과정에서 large parameter를 가진 모델은 대체적으로 downsteam tasks에서 좋은 성능을 보인다. 따라서 최근 연구들은 큰 사이즈의 모델을 사용하여 SOTA (state-of-the-art)를 달성하는 방법을 보편적으로 사용하고 있다. 논문은 여기서 하나의 의문을 가..

BERT논문을 읽어보지 않으신 분들은 이전의 다룬 BERT 리뷰 포스팅을 참고해주세요. RoBERTa 논문의 간략한 설명은 다음과 같다. 1) 기존의 BERT에서 간과한 design choice, 학습 전략의 중요성을 강조하며 downstream task 성능을 높이는 새로운 대안을 제시한다. 2) 모델의 학습 데이터로 novel dataset, CC-News를 사용하며, pre-training 과정에서 더 많은 데이터를 사용할수록 모델의 성능은 높아진다. 3) BERT의 MLM 방식을 개선함으로 인해 이후 나온 모델과 비교하여 비슷하거나 더 나은 성능을 보인다. Introduction ELMo, GPT, BERT, XLM, 그리고 XLNet과 같은 Self-training 훈련 방식은 성능 개선에 큰 ..

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google에서 제시한 양방향 pre-trained 모델이다. 논문은 BERT에서 볼 수 있다. BERT는 양방향의 context를 모두 참조함으로써 모델이 deep bidirectional representation 학습이 가능하도록 한 것이 논문의 중요 포인트이다. 또한, pre-trained BERT는 fine-tuning을 통해 output layer를 하나만 추가함으로써 NLI 및 QA와 같은 downstream tasks에 손쉽게 적용할 수 있다. Introduction 기존의 Pre-trained 모델은 많은 NLI, QA, paraphrasing와 같은 sentence..