'KD' 태그의 글 목록

[Short Review] AlexaTM: Pretraining and DistillingMulti-Billion-Parameter Encoders for Natural LanguageUnderstanding Systems

Paper Review/NLP 2023. 6. 13. 21:55

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..

[Paper Review] TinyBERT: Distilling BERT for Natural Language Understanding

Paper Review/NLP 2023. 4. 18. 21:26

BERT는 많은 NLP tasks에 대해 좋은 성능을 보인다. 하지만, 이러한 pre-training methods는 대체로 계산 비용이 많이 들기 때문에, 모바일과 같은 제한적인 기기에서는 작동시키기가 어렵다. 따라서 기존의 KD(Knowledge Distillation)을 적용한 Transformer distillation를 제안한다. 새로운 KD는 큰 'teacher' 모델인 BERT에서 작은 'student' 모델인 TinyBERT로의 지식 전이를 효과적으로 하기 위한 방법이다. Transformer distillation은 두 개의 과정으로 나뉘게 되는데, 이 두 과정은 기존의 pre-training과 fine-tuning에 해당하는 학습 과정이다. 이 방법을 사용함으로써 TinyBERT가 BE..

검색 태그

티스토리툴바