본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..
Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습되기 쉽지 않다. Megatron-LM은 Billions of parameters(몇 십억개의 파라미터)를 학습시키기 위해 모델 병렬화 기법을 소개한다. 논문에서 소개한 병렬화 기법은 새로운 컴파일러를 필요로 하거나 라이브러리를 수정할 필요가 없으며, 간단한 계산 수식을 추가하여 구현할 수 있다. Megatron-LM은 새로 소개한 병렬화 기법을 활용하여 8.3B(83억)개의 파라미터를 가진 transformer 모델을 512개의 GPU로 구현한다. Baseline으로 사용된 모델은 단..