learningAI
article thumbnail

해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다.

 

Methods

해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명한다.

 

BERT

VisualBERTBERT 모델을 기반으로 멀티모달을 구현했다. BERT는 여기서 자세히 설명하지 않고, BERT architecture는 포스트를 참고해주세요.

 

VisualBERT

VisualBERT의 핵심은 self-attention으로 입력 텍스트와 이미지를 명시적으로 align하는 것이다. 기존의 BERT에서 image를 처리할 수 있도록 하기 위해 VisualBERT는 visual embeddings $F$를 제시한다. Visual embedding $F$는 아래의 세 embeddings를 더한 값을 사용한다.

  1. $f_o$: 바운딩 영역에 대한 visual feature representation
  2. $f_s$: segment embedding으로 text embedding과 image embedding를 구분해주는 역할이다
  3. $f_p$: positional embedding으로 aligned words의 positional embeddings 합계로 계산된다

VisualBERT

모델의 전체적인 구조는 위와 같다. 그림과 그에 대한 캡션이 주어질 때, 이미지에서 추출된 bounding region과 캡션을 입력하고, 계산된 representation으로 문제를 해결한다.

 

Training VisualBERT

VisualBERTBERT와 비슷하게 pretrain-finetune 방식으로 학습되며, visual-and-language alignment를 학습하기 위해 추가적인 objective를 사용한다. 여기서 COCO dataset이 사용되며, 한 개의 이미지 당 5개의 독립적인 caption으로 구성된다. 학습은 다음 세가지로 구성된다.

 

Task-agnostic Pre-training

Task-agnostic pre-training에서는 COCO dataset과 두가지 visually-grounded objective를 사용해 학습한다.

 

  • MLM with Image: 텍스트 입력 중 일부가 마스킹되며, 이를 예측하는 학습 기법이다(이미지 영역과 연관된 부분은 마스킹되지 않는다).
  • Sentence-image prediction: COCO dataset은 한 이미지에 대한 여러 캡션으로 이뤄져있기 때문에 이를 활용해서 학습한다. 한개의 이미지와 두개의 캡션을 입력으로 주며, 첫번째 캡션은 이미지와 연관되어 있고, 나머지 하나는 50%의 확률로 연관된 캡션이고 50%로 랜덤한 캡션이 될 수 있으며, 모델은 연관된 캡션인지 아닌지를 예측한다.

 

Task-Specific Pre-training

VisualBERT를 fine-tuning하기 전에, 이전의 Task-agnostic pre-training에서 사용된 MLM with Image objective를 사용해서 task 데이터를 먼저 학습한다. 해당 과정을 거쳐 성능이 조금 더 향상되었다고 한다.

 

Fine-tuning

해당 과정은 BERT와 동일하며, task-specific input/output/objective가 주어지고 모델은 task에서 최대의 성능을 낼 수 있도록 최적화되는 과정을 말한다.

 

Experiment

모델은 VQA, VCR, NLVR, 그리고 Region-to-Phrase Grounding(Flickr 30k) task에서 평가된다. Backbone 모델로 BERT-base와 동일한 구조가 사용되었다. 모델의 입력으로 사용된 image representation은 데이터셋마다 다르게 사용되었으며, Fast R-CNN, ResNet50 등이 사용되었다. 또한 논문에서 사용된 학습 기법의 영향을 평가하기 위해 다음 세가지 변형 모델을 제시한다.

 

  • VisualBERT: 논문에서 설명한 모든 학습기법을 그대로 사용한 모델.
  • VisualBERT w/o Early Fusion: Image represenation이 초기 transformer layer에서 combine되는 대신 마지막에 새로운 transformer layer를 추가해서 combine시킨다. 이를 통해 image representation이 초기부터 attention학습 되는 것의 중요성을 파악할 수 있다.
  • VisualBERT w/o COCO Pre-training: Task-agnostic pre-training을 하지 않은 VisualBERT이다.

 

VQA

Visual Question Answering(VQA)는 이미지와 질문이 주어질 때 알맞는 답을 고르는 task이다. Dataset은 VQA 2.0이 사용되었으며, 가장 많이 출현한 답을 예측하도록 학습된다. 결과적으로 VisualBERT는 기존의 연구에 비해 훨씬 간단하고, 더 좋은 성능을 보인다.

 

VQA benchmark

VCR

Visual Commonsense Reasoning(VCR)은 QA task(Q -> A)와 answer justification(QA -> R) 두개의 sub-tasks로 구성되며, 이에 따라 두개의 모델이 훈련된다. Ablated VisualBERT w/o COCO pre-training은 기존의 work보다 간단하며 outperform하고, full VisualBERT은 더 나은 성능을 보인다.

 

VCR benchmark

NLVR

Natural Language for Visual Reasoning(NLVR)은 그림과 캡션의 내용이 일치하는지를 판단(True, False)하는 task이다. Ablated 모델들이 기존의 성능을 능가했으나, full VisualBERT 모델의 성능이 더 우수했다.

 

NLVR

Flickr30k entities

해당 시스템은 모델의 이미지 영역과 캡션의 부분을 align시키는 능력을 평가하는 task이다. 현재 SOTA인 BAN을 능가하며, ablated 모델 간의 큰 차이가 관찰되지 않았다.

 

Region-to-Phrase Grounding

Conclusion

VisualBERTBERT와 visual-and-language pre-training objective를 제시하여 SOTA 성능에 달성한다. BERT는 인코더 기반의 모델이므로 텍스트를 생성하는 task는 아직 해결하지 못하는데, 이후의 BLIP-2와 같이 텍스트 생성이 가능한 Multimodal 논문을 빨리 읽어보고 싶다는 생각이 든다.

 

논문

https://arxiv.org/pdf/1908.03557.pdf

profile

learningAI

@YyunS

인공지능 공부하는 학생입니다!