learningAI
article thumbnail
AlpacaFarm 🐪 review
Paper Review/NLP 2023. 11. 10. 01:13

Instruction following LLMs 모델들의 발전의 중심에는 instruction-tuning과 human feedback이 있다. 하지만 최근 Vicuna, Alpaca와 같은 instruction tuning 연구들에 비해 RLHF-style의 연구들은 상당히 적은 편이다. RLHF를 사용하는 것에 있어서의 어려움은 다음과 같은 세 가지를 말할 수 있다. 인간 선호도 데이터에 대한 높은 비용 평가 과정의 신뢰도 부족 Reference implementations의 부족 Stanford CRFM에서는 위 세 가지 문제를 보완하여 RLHF-style의 학습의 비용을 감소시킨 AlpacaFarm을 공개했으며 위의 문제들을 어떻게 해결했는지 하나씩 살펴보자! Simulated Annotation..

article thumbnail
[Short Review] Alpaca: A Strong, Replicable Instruction-Following Model
Paper Review/NLP 2023. 7. 18. 14:57

현재까지 공개된 GPT-3.5, ChatGPT, Claude 등의 많은 instruction-following 모델들은 매우 강력한 성능을 보여주며, 사람들은 이러한 서비스를 적극적으로 활용하고 있다. 하지만 여전히 instruction-following 모델들은 다음과 같은 문제들을 가지고 있다. Hallucination(거짓 정보 제공) Social stereotypes(사회적 고정관념) Toxic language(유해한 언어) 현존하는 문제들을 해결하기 위해 학술적 연구가 더욱 진행되어야 하지만, 안타깝게도 text-davinci-003와 같이 좋은 성능을 보이는 모델에 대한 접근이 거의 불가능하기 때문에 instruction-following 모델에 대한 연구가 진행되기 어렵다. 스탠포드의 연구..

article thumbnail
[Paper Review] Large Language Models are Zero-Shot Reasoners
Paper Review/NLP 2023. 7. 13. 22:45

지난 CoT 리뷰에 이은 zero-shot CoT를 리뷰해보겠다! CoT는 few-shot prompting을 통해 모델에게 차근차근(step-by-step) 생각할 수 있는 능력을 부여하는 간단한 방법을 통해 LLM이 고전하는 문제에서 엄청난 성능을 보여줬다. 해당 리뷰에서 다룰 논문은 zero-shot 환경에서의 CoT를 다루며, 단순히 "Let's think step by step"이라는 문장을 추가함으로써 CoT를 구현한다. 비록 few-shot CoT 보다는 뒤쳐지는 성능을 보여주지만, 기본 zero-shot과 비교하여 훨씬 좋은 성능에 도달한다. Introduction 최근 모델 사이즈 scaling은 NLP 연구의 핵심 주제가 되었다. 이러한 LLM의 성공적인 결과는 zero-shot 및 f..

article thumbnail
[Paper Review] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Paper Review/NLP 2023. 7. 10. 23:33

최근 LLM(Large Language Model) 연구 동향은 모델의 사이즈를 키워 더 나은 성능을 가진 모델을 개발하는 것이었다. 하지만, arithmetic task와 같은 multi-step thinking을 요구하는 task에서는 여전히 좋은 성능을 보이지 못했다. 해당 논문은 모델에게 차근차근 생각할 수 있는 능력을 부여하기 위한 CoT(Chain-of-Thought) prompting을 소개한다. 이는 복잡한 reasoning task 및 arithmetic(수학) task에서 좋은 결과를 보여준다. 특히, 이 논문에서는 few-shot CoT를 통해 모델이 어떻게 reasoning 능력을 갖게 되는지 보여준다. 3가지 모델에서 평가를 해본 결과, 상당한 성능 향상 결과를 보여줬으며, PaL..

article thumbnail
[Paper Review] Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
Paper Review/Multimodal 2023. 7. 7. 20:10

Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다. Backgr..

article thumbnail
[Short Review] UNITER: Universal Image-Text Representation Learning
Paper Review/Multimodal 2023. 7. 4. 21:27

Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..

article thumbnail
[Paper Review] VL-BERT: Pre-training of Generic Visual-Linguistic Representations
Paper Review/Multimodal 2023. 6. 28. 10:55

본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

article thumbnail
[Paper Review] LXMERT: Learning Cross-Modality Encoder Representationsfrom Transformers
Paper Review/Multimodal 2023. 6. 28. 07:55

모델이 vision-and-language task를 학습하기 위해서는 이미지와 언어 입력을 이해할 줄 알아야 하며, 무엇보다 가장 중요한 것은 두 modality(vision feature & language context)를 align시키는 것이다. 본 논문에서는 vision-and-language alignment를 학습할 수 있는 framework인 LXMERT를 제시한다. LXMERT는 3개의 encoder를 포함하고 있으며, 5개의 pre-training task를 정의하여 모델이 alignment를 더욱 잘 이해하도록 설계했다. Fine-tuning 과정을 거친 후 LXMERT는 VQA와 GQA 데이터셋에서 SOTA(State-of-the-art)를 달성할 수 있었다. 또한 도전적인 visu..

article thumbnail
[Short Review] VisualBERT: A Simple and Performant Baseline for Vision and Language
Paper Review/Multimodal 2023. 6. 25. 12:58

해당 논문은 다양한 vision-and-language tasks를 처리할 수 있는 간단한 framework인 VisualBERT를 제안한다. VisualBERT은 Transformer layer의 stack으로 구성되며, self-attention을 통해 입력 텍스트와 이미지 영역(image region)을 align(연관)시킨다. 본 논문에서는 pre-training을 위한 두개의 visually-grounded objective를 제시하며, VQA, VCR, NLVR와 같은 task에서 실험을 진행하여 VisualBERT가 다른 SOTA 모델들보다 outperform하거나 competitive하다는 것을 보여준다. Methods 해당 섹션에서는 VisualBERT와 학습에 사용된 method를 설명..

article thumbnail
[Short Review] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
Paper Review/Multimodal 2023. 6. 24. 16:08

ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..