learningAI
article thumbnail
[Paper Review] TinyBERT: Distilling BERT for Natural Language Understanding
Paper Review/NLP 2023. 4. 18. 21:26

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..