
XLM은 기존의 pre-training을 여러 언어에 대해 학습이 가능하도록 확장한 훈련 기법이다. 이를 cross-lingual language model 줄어서 XLM이라고 칭한다. XLM은 다중 언어 학습을 위해 monolingual data와 parallel data를 활용한 두 가지 학습 방법을 제시하여 machine translation task에 대한 성능을 높인다. 또한 aligning distribution of sentences (문장의 분포 균형 조절) 에 대해 굉장히 강조한다. XLM은 여러 언어에 대한 이해를 평가하는 지표인 XNLI와 WMT' 16 German-English 등에서 SOTA를 달성했다. Introduction Pre-training은 NLU 성능 발전에 큰 기여를..

BERT논문을 읽어보지 않으신 분들은 이전의 다룬 BERT 리뷰 포스팅을 참고해주세요. RoBERTa 논문의 간략한 설명은 다음과 같다. 1) 기존의 BERT에서 간과한 design choice, 학습 전략의 중요성을 강조하며 downstream task 성능을 높이는 새로운 대안을 제시한다. 2) 모델의 학습 데이터로 novel dataset, CC-News를 사용하며, pre-training 과정에서 더 많은 데이터를 사용할수록 모델의 성능은 높아진다. 3) BERT의 MLM 방식을 개선함으로 인해 이후 나온 모델과 비교하여 비슷하거나 더 나은 성능을 보인다. Introduction ELMo, GPT, BERT, XLM, 그리고 XLNet과 같은 Self-training 훈련 방식은 성능 개선에 큰 ..

NLU(Natural Language Understanding) 문제는 다음과 같은 task를 포함하고 있다. NLU tasks - 텍스트 함의(textual entailment) - 질의응답(question answering) - 문서 분류(document classification) - 문장 유사도(semantic similarity) 위와 같은 NLU task는 방대한 양의 unlabeled data와 상대적으로 부족한 양의 labeled data로 인해 학습이 어렵다는 문제가 있다. 해당 논문은 generative pre-training 방식을 제안함으로써 이 문제를 해결하고자 한다. 이전의 접근 방식들과 달리 fine-tuning에서 세부 작업에 맞는 입력 변환을 사용함으로써 효율적인 학습을 진..

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google에서 제시한 양방향 pre-trained 모델이다. 논문은 BERT에서 볼 수 있다. BERT는 양방향의 context를 모두 참조함으로써 모델이 deep bidirectional representation 학습이 가능하도록 한 것이 논문의 중요 포인트이다. 또한, pre-trained BERT는 fine-tuning을 통해 output layer를 하나만 추가함으로써 NLI 및 QA와 같은 downstream tasks에 손쉽게 적용할 수 있다. Introduction 기존의 Pre-trained 모델은 많은 NLI, QA, paraphrasing와 같은 sentence..