
Instruction following LLMs 모델들의 발전의 중심에는 instruction-tuning과 human feedback이 있다. 하지만 최근 Vicuna, Alpaca와 같은 instruction tuning 연구들에 비해 RLHF-style의 연구들은 상당히 적은 편이다. RLHF를 사용하는 것에 있어서의 어려움은 다음과 같은 세 가지를 말할 수 있다. 인간 선호도 데이터에 대한 높은 비용 평가 과정의 신뢰도 부족 Reference implementations의 부족 Stanford CRFM에서는 위 세 가지 문제를 보완하여 RLHF-style의 학습의 비용을 감소시킨 AlpacaFarm을 공개했으며 위의 문제들을 어떻게 해결했는지 하나씩 살펴보자! Simulated Annotation..

현재까지 공개된 GPT-3.5, ChatGPT, Claude 등의 많은 instruction-following 모델들은 매우 강력한 성능을 보여주며, 사람들은 이러한 서비스를 적극적으로 활용하고 있다. 하지만 여전히 instruction-following 모델들은 다음과 같은 문제들을 가지고 있다. Hallucination(거짓 정보 제공) Social stereotypes(사회적 고정관념) Toxic language(유해한 언어) 현존하는 문제들을 해결하기 위해 학술적 연구가 더욱 진행되어야 하지만, 안타깝게도 text-davinci-003와 같이 좋은 성능을 보이는 모델에 대한 접근이 거의 불가능하기 때문에 instruction-following 모델에 대한 연구가 진행되기 어렵다. 스탠포드의 연구..

지난 CoT 리뷰에 이은 zero-shot CoT를 리뷰해보겠다! CoT는 few-shot prompting을 통해 모델에게 차근차근(step-by-step) 생각할 수 있는 능력을 부여하는 간단한 방법을 통해 LLM이 고전하는 문제에서 엄청난 성능을 보여줬다. 해당 리뷰에서 다룰 논문은 zero-shot 환경에서의 CoT를 다루며, 단순히 "Let's think step by step"이라는 문장을 추가함으로써 CoT를 구현한다. 비록 few-shot CoT 보다는 뒤쳐지는 성능을 보여주지만, 기본 zero-shot과 비교하여 훨씬 좋은 성능에 도달한다. Introduction 최근 모델 사이즈 scaling은 NLP 연구의 핵심 주제가 되었다. 이러한 LLM의 성공적인 결과는 zero-shot 및 f..

최근 LLM(Large Language Model) 연구 동향은 모델의 사이즈를 키워 더 나은 성능을 가진 모델을 개발하는 것이었다. 하지만, arithmetic task와 같은 multi-step thinking을 요구하는 task에서는 여전히 좋은 성능을 보이지 못했다. 해당 논문은 모델에게 차근차근 생각할 수 있는 능력을 부여하기 위한 CoT(Chain-of-Thought) prompting을 소개한다. 이는 복잡한 reasoning task 및 arithmetic(수학) task에서 좋은 결과를 보여준다. 특히, 이 논문에서는 few-shot CoT를 통해 모델이 어떻게 reasoning 능력을 갖게 되는지 보여준다. 3가지 모델에서 평가를 해본 결과, 상당한 성능 향상 결과를 보여줬으며, PaL..

Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다. Backgr..

Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..

본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

모델이 vision-and-language task를 학습하기 위해서는 이미지와 언어 입력을 이해할 줄 알아야 하며, 무엇보다 가장 중요한 것은 두 modality(vision feature & language context)를 align시키는 것이다. 본 논문에서는 vision-and-language alignment를 학습할 수 있는 framework인 LXMERT를 제시한다. LXMERT는 3개의 encoder를 포함하고 있으며, 5개의 pre-training task를 정의하여 모델이 alignment를 더욱 잘 이해하도록 설계했다. Fine-tuning 과정을 거친 후 LXMERT는 VQA와 GQA 데이터셋에서 SOTA(State-of-the-art)를 달성할 수 있었다. 또한 도전적인 visu..

해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다. Methods 해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명..

ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..