![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FkJ16B%2FbtsmOJIusp5%2FlnoiUjz9XqsXPrKXMSGbyk%2Fimg.png)
Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다. Backgr..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FzXLhX%2FbtsmsSMqzrG%2F7RREK6ILKTkOMIFKnwwTZ0%2Fimg.png)
Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbAw04l%2FbtslKkDW9Ks%2Fs9KA3XAqt7ajBYBydAuc5K%2Fimg.png)
본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbcXviq%2Fbtslw8xxjpg%2FCk2RfRaybKJYlBGgElB3S1%2Fimg.png)
모델이 vision-and-language task를 학습하기 위해서는 이미지와 언어 입력을 이해할 줄 알아야 하며, 무엇보다 가장 중요한 것은 두 modality(vision feature & language context)를 align시키는 것이다. 본 논문에서는 vision-and-language alignment를 학습할 수 있는 framework인 LXMERT를 제시한다. LXMERT는 3개의 encoder를 포함하고 있으며, 5개의 pre-training task를 정의하여 모델이 alignment를 더욱 잘 이해하도록 설계했다. Fine-tuning 과정을 거친 후 LXMERT는 VQA와 GQA 데이터셋에서 SOTA(State-of-the-art)를 달성할 수 있었다. 또한 도전적인 visu..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcbBmvF%2FbtslafqxuxR%2FbhhaKhpAUgg18j2tAwKiwK%2Fimg.png)
해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다. Methods 해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcxtID5%2FbtsljSz5zxz%2F9ZhACtrkgA2kPtVCmvK4k1%2Fimg.png)
ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..