Overall Understanding of the Paper
- Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다.
- 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다.
Pre-training Methods
모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용되었던 데이터셋을 사용한다. Alexa Teacher Model의 학습 Stage는 총 두 과정으로 구성되었다. Stage 1에는 T5, mT5의 학습에 사용되었던 mC4(multilingual Colossal Clean Common Crawl), XLM-R의 학습에 사용된 CC-100, 그리고 BERT와 mBERT의 학습에 사용된 BookCorpus로 총 세 개의 데이터셋에 사용되었다. 모델은 사람의 말에 따른 입력을 처리해야 하기 때문에 데이터셋의 70%가 spoken-format으로 변형된다. 선생 모델은 RoBERTa를 기반으로 구축되었으며, 큰 encoder 모델 학습에서 성능 향상을 위해 pre-layernorm이 사용된다.
Stage 2에는 논문에서 자체적으로 수집한 데이터를 사용했다고 한다. 공개되는 데이터는 아니며, 약 50M개의 샘플로 이뤄져 있다. Stage 2의 학습 목적은 모델이 대화 형식의 입력을 더 잘 처리하기 위함이며, 이를 위해 대화로 구성된 데이터셋을 사용했다. 학습 데이터는 3 Domain으로 구성되어 있으며, 7종류(영어, 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 일본어)의 언어를 포함한다.
학습의 전체적인 과정은 아래 그림과 같다.
Distillation
지식 전이 과정은 TinyBERT와 비슷하나, 차이가 있다. 큰 모델을 극히 작은 모델에 바로 지식 전이 하는 것은 비효율적이기 때문에 중간 크기의 모델로 먼저 distill한 후 최종적으로 가장 작은 모델로의 지식 전이가 이뤄진다. 위의 그림을 보면 먼저 Stage 1을 학습한 선생 모델을 중간 크기 모델로 distill한다. 다음으로 Stage 2 학습을 진행한 뒤 다시 지식 전이를 수행한다. 최종적으로 가장 작은 모델로 전이하기 이전에, Stage 2 데이터를 사용해서 먼저 중간 크기 모델을 다시 학습 시킨 후, 지식 전이가 진행된다.
Evaluation
먼저 모델을 perplexity와 mask-filling 정확도에 대해 평가한다. Mask-filling은 Stanza tagger로 마스킹된 noun 형태의 subword token을 예측하는 task로 정의하였다. 아래 그래프를 확인하면 2.3B 크기의 모델이 영어에 대해서는 인간 정확도에 근접한 성능을 수행하는 것을 볼 수 있다.
다음 그림는 baseline과 모델의 사이즈별 성능표이다. XNLI 데이터셋에 대하여 fine-tuning 후 성능을 측정한 수치를 나타내었다.
위 성능표를 보면 distill된 170M 크기의 학생 모델이 XLM-R Base 모델보다 우수하며, 더 큰 모델인 XLM-R Large 모델과 비교해도 성능이 크게 차이나지 않는 것을 확인할 수 있다.
또한 모델의 virtual assistant system을 평가하기 위해 특별한 실험 플랫폼을 사용했으며, 모델을 baseline과 비교하기 위해 집단 A와 집단 B에 대해 병렬적으로 평가했으며, 같은 집단에 대해서도 실험을 진행했다. 논문은 유저의 응답과 모델이 task를 정확히 수행했는지를 기반으로 한 사용자 불만도를 측정했다. 최종적으로 Semantic Error Rate(SemER)를 측정하며, 이는 연구의 의도와 slot-filling 성능을 평가하기 위해 사용되었다.
위의 표에 따라, AlexaTM의 학습 process을 통해 학습된 모델이 유저 불만도를 3.74~4.91% 감소시키는 것이 확인되었으며 tail utterance 불만도는 A/B 테스트에서 무려 7.5~10.3% 감소시켰다. Sequential result는 최대 14.9%가 개선되었지만 시간이 지남에 따라 플랫폼의 변경 사항에 따라 신뢰성이 떨어질 수 있다. Offline SemER은 2.98~15.6%가 개선된다.
논문