
Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..

본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

모델이 vision-and-language task를 학습하기 위해서는 이미지와 언어 입력을 이해할 줄 알아야 하며, 무엇보다 가장 중요한 것은 두 modality(vision feature & language context)를 align시키는 것이다. 본 논문에서는 vision-and-language alignment를 학습할 수 있는 framework인 LXMERT를 제시한다. LXMERT는 3개의 encoder를 포함하고 있으며, 5개의 pre-training task를 정의하여 모델이 alignment를 더욱 잘 이해하도록 설계했다. Fine-tuning 과정을 거친 후 LXMERT는 VQA와 GQA 데이터셋에서 SOTA(State-of-the-art)를 달성할 수 있었다. 또한 도전적인 visu..