learningAI
article thumbnail
[Short Review] Alpaca: A Strong, Replicable Instruction-Following Model
Paper Review/NLP 2023. 7. 18. 14:57

현재까지 공개된 GPT-3.5, ChatGPT, Claude 등의 많은 instruction-following 모델들은 매우 강력한 성능을 보여주며, 사람들은 이러한 서비스를 적극적으로 활용하고 있다. 하지만 여전히 instruction-following 모델들은 다음과 같은 문제들을 가지고 있다. Hallucination(거짓 정보 제공) Social stereotypes(사회적 고정관념) Toxic language(유해한 언어) 현존하는 문제들을 해결하기 위해 학술적 연구가 더욱 진행되어야 하지만, 안타깝게도 text-davinci-003와 같이 좋은 성능을 보이는 모델에 대한 접근이 거의 불가능하기 때문에 instruction-following 모델에 대한 연구가 진행되기 어렵다. 스탠포드의 연구..

article thumbnail
[Paper Review] Large Language Models are Zero-Shot Reasoners
Paper Review/NLP 2023. 7. 13. 22:45

지난 CoT 리뷰에 이은 zero-shot CoT를 리뷰해보겠다! CoT는 few-shot prompting을 통해 모델에게 차근차근(step-by-step) 생각할 수 있는 능력을 부여하는 간단한 방법을 통해 LLM이 고전하는 문제에서 엄청난 성능을 보여줬다. 해당 리뷰에서 다룰 논문은 zero-shot 환경에서의 CoT를 다루며, 단순히 "Let's think step by step"이라는 문장을 추가함으로써 CoT를 구현한다. 비록 few-shot CoT 보다는 뒤쳐지는 성능을 보여주지만, 기본 zero-shot과 비교하여 훨씬 좋은 성능에 도달한다. Introduction 최근 모델 사이즈 scaling은 NLP 연구의 핵심 주제가 되었다. 이러한 LLM의 성공적인 결과는 zero-shot 및 f..

article thumbnail
[Paper Review] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Paper Review/NLP 2023. 7. 10. 23:33

최근 LLM(Large Language Model) 연구 동향은 모델의 사이즈를 키워 더 나은 성능을 가진 모델을 개발하는 것이었다. 하지만, arithmetic task와 같은 multi-step thinking을 요구하는 task에서는 여전히 좋은 성능을 보이지 못했다. 해당 논문은 모델에게 차근차근 생각할 수 있는 능력을 부여하기 위한 CoT(Chain-of-Thought) prompting을 소개한다. 이는 복잡한 reasoning task 및 arithmetic(수학) task에서 좋은 결과를 보여준다. 특히, 이 논문에서는 few-shot CoT를 통해 모델이 어떻게 reasoning 능력을 갖게 되는지 보여준다. 3가지 모델에서 평가를 해본 결과, 상당한 성능 향상 결과를 보여줬으며, PaL..

article thumbnail
[Paper Review] Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
Paper Review/Multimodal 2023. 7. 7. 20:10

Oscar는 기존의 모델들처럼 단순히 이미지와 텍스트만을 연결한 입력을 사용하는 것이 아닌 이미지에서 추출한 object tag를 anchor points로 사용함으로써 cross-modal representation을 큰 폭으로 향상할 수 있음을 보여주는 논문이다. 이미지의 object tag는 Faster R-CNN와 같은 객체 탐색 모델로 정확하게 탐색할 수 있으며, 보통 이는 이미지와 묶음인 텍스트에도 언급이 된다. 해당 object tag를 활용한 pre-training으로 이미지와 텍스트 연관성을 더 쉽게 학습하는 것이 이 논문의 핵심 포인트이다. 결과적으로 Oscar는 다양한 V + L 벤치마크에서 SOTA 성능을 달성하며, 논문에서 제시한 아이디어가 효과적이라는 것을 입증한다. Backgr..

article thumbnail
[Short Review] UNITER: Universal Image-Text Representation Learning
Paper Review/Multimodal 2023. 7. 4. 21:27

Multi-modality 모델이 Vision-and-Language(V+L) task를 해결하기 위해서는 visual 및 textual 입력을 동시에 받아 둘을 연결지어 이해하는 능력을 학습하는 것이 가장 중요하다. 이전의 연구들에서 제시한 모델들은 과하게 task-specific한 세팅을 사용했으며, 구조는 논문마다 차이가 심해 일반화가 잘 되지 않는다는 큰 단점이 존재했다. 논문에서 소개한 UNITER는 4개의 pre-training task를 사용하여 모델의 일반화를 향상시켰으며, 결과적으로 6개의 task에서 SOTA를 달성하게 되었다. UNITER UNITER의 전체적인 구조는 위와 같다. 이미지 및 텍스트 입력이 주어지며, 각각 modality를 처리하기 위한 image/text embedd..

article thumbnail
[Paper Review] VL-BERT: Pre-training of Generic Visual-Linguistic Representations
Paper Review/Multimodal 2023. 6. 28. 10:55

본 논문은 visual-and-linguistic task에 대한 일반적인 representation을 학습할 수 있는 VL-BERT(Visual-Linguistic BERT)를 소개한다. VL-BERT는 간단하지만 강력한 Transformer 네트워크를 backbone으로 사용하여 입력의 형태를 visual & linguistic embedded feature로 확장한다. 따라서 모델의 입력은 word 혹은 RoI로 구성된다. 모델은 대부분의 visual-linguistic downstream task에 적용할 수 있도록 설계되었으며, 일반화를 위해 massive-scale Conceptual Captions dataset로 pre-training이 진행되었다. Pre-training은 모델이 visu..

article thumbnail
[Short Review] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
Paper Review/Multimodal 2023. 6. 24. 16:08

ViLBERT는 VisualBERT와 매우 비슷한 시기에 나온 논문으로, 이미지 content와 언어 content의 task-agnostic joint representation을 학습하기 위한 BERT 기반의 two-stream attention을 제안한다. Two-stream transformer layer는 visual/textual 입력을 각각 분리된 stream으로 처리하며, co-attentional transformer layer로 상호작용한다. ViLBERT는 Conceptual Captions 데이터셋을 사용해 pre-training을 진행하고, transfer learning 후 4가지 task에 대해 평가된다. 기존의 모델들과 비교하여 상당한 성능 발전이 있었으며, 4개의 task에..

article thumbnail
[Short Review] LLaMA: Open and Efficient Foundation Langauge Models
Paper Review/NLP 2023. 6. 22. 11:08

LLaMA는 facebook META에서 공개한 모델로, 오픈소스라는 특징을 가진다(GPT4나 PaLM2와 같은 모델은 private함). 완전히 공개된 데이터셋만으로 학습된 모델이 SOTA(State-Of-The-Arts) 성능에 도달할 수 있음을 보여주며, LLaMA-13B은 파라미터 차이가 많이 나는 GPT-3(175B) 보다 좋은 성능을 보이기도 하며, LLaMA-65B 모델은 best model들과 견주는 성능을 보여준다. Approaches LLaMA는 Chinchilla의 오픈 소스 모델이라고 생각할 수 있다. 공개된 데이터만을 사용하여 학습되었고, 모델의 성능 안정성과 속도를 위해 이런저런 방법을 사용했다. Pre-training Data Pre-training에는 위와 같은 데이터셋이 사..

article thumbnail
[Paper Review] Chinchilla: Training Compute-Optimal Large Language Models
Paper Review/NLP 2023. 6. 20. 22:26

Summary 이 모델은 귀여운 친칠라(동물)의 이름을 따서 개발되었다. Chinchilla 논문은 기존의 (모델 사이즈 중심의) scaling law가 잘못되었다는 의견을 제시하며 주어진 컴퓨팅 예산을 모델 사이즈와 학습 토큰에 적절하게 분배할 때 성능이 최적화된다는 의견을 제시한다. 논문의 저자들은 기존의 LLM(Large Language Model)들이 상당히 under-trained 되었다는 것을 발견하고, 그 원인이 모델의 사이즈는 증가시키면서 사용하는 데이터의 사이즈는 그대로이기 때문이라는 것을 알게 되었다. 이에 따라 주어진 컴퓨터 예산을 모델 크기와 학습 데이터 크기에 얼마나 할당해야 하는지에 대한 실험을 진행해보니 모델 사이즈/학습 데이터가 동등하게 scaling되어야 한다는 결과가 도출..

article thumbnail
[Paper Review] FLAN: Finetuned Language Models Are Zero-Shot Learners
Paper Review/NLP 2023. 6. 13. 23:27

해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..