Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다.
Background
V + L task를 학습하기 위해 구성된 많은 데이터셋들은 위의 그림에서 (a)와 같이 이미지와 캡션의 묶음으로 이뤄져 있다. 논문에서는 크기가 $N$인 데이터를 $D = \{(I_i, w_i)\}^N_{i=1}$와 같이 나타내며, $I$와 $w$는 각각 이미지와 텍스트 시퀀스를 의미한다. Pre-training step의 목표는 image-text pair의 cross-modal representation을 self-supervised 환경에서 최대한 학습하는 것이고, 이는 fine-tuning을 통해 많은 task에 최종적으로 적용된다.
VLP(Vision-Language Pre-training)은 보통 각 modality에 서로 다른 임베딩을 사용하는 Transformer 구조를 사용한다. 기존의 VLP method는 visual region feature $v = \{v_1, \cdots, v_K\}$와 word embeddings $w = \{w_1, \cdots, w_T\}$를 입력으로 사용하고, self-attention 메커니즘에 의존하여 모델이 cross-modal representation을 학습하도록 한다.
이는 직관적이고 간단한 방법으로 사용되지만, 몇가지 문제가 존재한다.
- Ambiguity: 보통 image 입력은 Faster R-CNN에 의해 과도하게 샘플링된 image region에서 추출하는데, 이로 인해 이미지 region 간의 overlap 현상이 발생한다. 이는 추출된 visual feature의 ambiguity(모호함)을 발생시킨다. 예를 들어 위의 그림의 (a)에서 dog와 couch는 겹쳐서 구분하기 어려운 것을 확인할 수 있다.
- Lack of Grounding: 보통 region 및 object의 alignment label이 지정되어 있지 않기 때문에, VLP는 자연적으로 weakly-supervised 학습이 된다. 하지만 위의 그림 (a)에서처럼 dog와 couch는 이미지와 텍스트에서 모두 제시되기 때문에 (b)에서처럼 이를 alignment의 anchor point(기준점)으로 사용하여 더욱 효과적으로 학습할 수 있다.
따라서 Oscar는 anchor point를 활용하여 언급된 문제들을 해결하는 새로운 VLP method를 제시한다.
Pre-training
인간은 다양한 channel(시각, 청각, 촉각 등)을 통해 세상을 바라본다. 각 채널은 잡음이 있거나 불완전할 수 있지만, 여러 채널 간의 정보 공유로 중요한 요인을 인식할 수 있다. 이 아이디어를 활용하여 Oscar를 제시하고, image-text pair가 입력되는 방식과 pre-training objective에서 다른 VLP와 차이가 난다.
Input
Oscar는 각 image-text pair를 Word-Tag-Image(w, q, v)로 나타내며, 이때 w는 텍스트의 word embeddings sequence, q는 object tag의 word embedding, v는 이미지의 region vector를 의미한다.
기존 VLP method의 입력은 (w, v)의 형식이었다. Oscar는 anchor point(기준점)으로 사용하기 위한 q를 사용하여 모델이 image-text alignment를 더 쉽게 학습할 수 있도록 했다. q와 w는 모두 텍스트 형식이므로, pre-trained BERT로 초기화된 Oscar 모델은 쉽게 연관성을 파악할 수 있다. 또한 object tag와 의미적으로 연관된 image region은 더 높은 어텐션 가중치를 가질 것으로 예상된다.
세부적으로, v와 q는 다음과 같이 생성된다. K개의 region을 포함하는 이미지(주로 over-sampled되고 noisy함)가 주어질 때, Faster R-CNN을 활용해서 각 영역의 visual semantics (v', z)를 추출할 수 있다. v'는 P-dimensional region feature를 의미하고, z는 R-dimensional region position vector를 나타낸다. v'와 z를 연결해서 position-sensitive region feature vector를 생성할 수 있다. 최종적으로 word embedding과 같은 크기로 만들기 위해 FC layer를 통과시킨다.
Object tag q를 생성하는 데에도 Faster R-CNN을 사용한다(정확도가 높음).
Objective
Oscar의 입력은 위와 같이 두 가지 시점으로 볼 수 있다. $x$는 이미지와 텍스트의 representation을 구분하기 위한 modality view이고, $x'$는 semantic(의미론적) space를 구분하는 dictionary view이다.
Dictionary view(Masked Token Loss)는 semantic space를 분리한 것으로, linguistic semantic space를 공유하는 w, q와 visual semantic space에 속하는 v를 구분한다. Linguistic semantic space에 속하는 sub-sequence를 discrete token sequence라고 정의하고, $h \overset{\underset{\mathrm{\Delta}}{}}{=} [w, q]$로 나타낸다. Pre-training objective로 Masked Token Loss(MTL)이 적용된다. 각 iteration에서 $h$의 15%에 해당하는 token들을 마스킹하며, 학습의 목표는 주위 토큰 $h_{\backslash i}$와 이미지 정보 $v$를 활용하여 마스킹된 토큰을 예측하는 것이다. 이때 loss 수식은 다음과 같다.
사실상 BERT의 MLM과 비슷하다고 볼 수 있다. 단지 MTL이 MLM과 다른 것은 주위 word input 정보와 더불어 visual feature 정보를 활용할 수 있다는 것이다.
Modality view(Contrastive loss)는 각 modality를 구분하여 $h' \overset{\underset{\mathrm{\Delta}}{}}{=} [q, v]$로 그룹을 생성한다. 다음으로 50%의 확률로 q에 대해 "polluted(오염된)" 샘플을 추출한다. 이는 데이터셋 $D$에서 랜덤한 q를 샘플링하는 것을 의미한다. [CLS] 토큰이 사용되지 않기 때문에 representation $(h', w)$의 전체 출력에 FC 레이어를 씌워 binary classifier를 세팅한다. 다음으로 출력이 1이면 이미지와 object tag가 일치하고, 0이면 일치하지 않는다는 뜻이다.
따라서 최종 pre-training loss는 다음과 같다.
모델 구조는 BERT를 기반으로 하며, BERT-base의 pre-trained parameter로 초기화되는 $Oscar_B$와 BERT-large 기반의 $Oscar_L$가 실험 과정에서 사용된다. 자세한 모델 세팅은 생략한다.
Experiment
실험 과정에서는 5개의 understanding task과 2개의 generation task로 모델 평가를 진행한다. 파라미터 효율성에 따라 Oscar 모델을 세가지 SOTA와 비교 평가한다. SOTA$_S$은 Transformer 기반의 VLP 모델들 중 최고의 성능을 보유한다. SOTA$_B$는 BERT-base 모델과 크기가 비슷한 모델들 중 가장 좋은 성능을 가진 모델이다. 마지막으로 SOTA$_L$은 가장 높은 정확도를 보유한 BERT-large와 크기가 비슷한 모델이다.
평가의 전반적인 결과는 위의 표와 같다. $\Delta$는 Oscar의 결과가 기존의 SOTA 성능보다 얼마나 향상되었는지를 보여준다. 미세하게 성능 증가를 보인 task가 있는 반면에 상당히 큰 차이로 SOTA 모델의 성능을 뛰어넘은 결과들도 많이 있었다. Oscar는 pre-training에서 LXMERT, UNITER과 비교했을 때 훨씬 적은 image-text pair를 사용해서 학습했음에도 불구하고 더 좋은 성능을 보여준다는 것은, object tag의 효과가 탁월함을 알 수 있다; 결과적으로 Oscar가 다른 모델들보다 더 나은 파라미터 효율성을 가지는 것이다.
Conclusion
결과적으로 Oscar 모델은 비슷한 파라미터 수를 가진 모델들보다 더 좋은 성능을 보인다는 결과를 실험 과정으로부터 알 수 있었으며, 이는 파라미터 효율성이 좋다는 말로도 해석될 수 있다. 결과적으로 직접적으로 이미지 영역의 object tag를 입력으로 사용함으로써 pre-training에서 Oscar는 cross-modal representation을 학습하는 것에 있어서 기존의 VLP method보다 더 많은 alignment를 학습할 수 있고, 결과적으로 downstream task에서 좋은 결과를 보여준다.
논문