
본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다. Methods 해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명..

ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..