
Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다. Backgr..

Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..

본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

모델이 vision-and-language task를 학습하기 위해서는 이미지와 언어 입력을 이해할 줄 알아야 하며, 무엇보다 가장 중요한 것은 두 modality(vision feature & language context)를 align시키는 것이다. 본 논문에서는 vision-and-language alignment를 학습할 수 있는 framework인 LXMERT를 제시한다. LXMERT는 3개의 encoder를 포함하고 있으며, 5개의 pre-training task를 정의하여 모델이 alignment를 더욱 잘 이해하도록 설계했다. Fine-tuning 과정을 거친 후 LXMERT는 VQA와 GQA 데이터셋에서 SOTA(State-of-the-art)를 달성할 수 있었다. 또한 도전적인 visu..

해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다. Methods 해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명..

ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..