
Instruction following LLMs 모델들의 발전의 중심에는 instruction-tuning과 human feedback이 있다. 하지만 최근 Vicuna, Alpaca와 같은 instruction tuning 연구들에 비해 RLHF-style의 연구들은 상당히 적은 편이다. RLHF를 사용하는 것에 있어서의 어려움은 다음과 같은 세 가지를 말할 수 있다. 인간 선호도 데이터에 대한 높은 비용 평가 과정의 신뢰도 부족 Reference implementations의 부족 Stanford CRFM에서는 위 세 가지 문제를 보완하여 RLHF-style의 학습의 비용을 감소시킨 AlpacaFarm을 공개했으며 위의 문제들을 어떻게 해결했는지 하나씩 살펴보자! Simulated Annotation..

현재까지 공개된 GPT-3.5, ChatGPT, Claude 등의 많은 instruction-following 모델들은 매우 강력한 성능을 보여주며, 사람들은 이러한 서비스를 적극적으로 활용하고 있다. 하지만 여전히 instruction-following 모델들은 다음과 같은 문제들을 가지고 있다. Hallucination(거짓 정보 제공) Social stereotypes(사회적 고정관념) Toxic language(유해한 언어) 현존하는 문제들을 해결하기 위해 학술적 연구가 더욱 진행되어야 하지만, 안타깝게도 text-davinci-003와 같이 좋은 성능을 보이는 모델에 대한 접근이 거의 불가능하기 때문에 instruction-following 모델에 대한 연구가 진행되기 어렵다. 스탠포드의 연구..

지난 CoT 리뷰에 이은 zero-shot CoT를 리뷰해보겠다! CoT는 few-shot prompting을 통해 모델에게 차근차근(step-by-step) 생각할 수 있는 능력을 부여하는 간단한 방법을 통해 LLM이 고전하는 문제에서 엄청난 성능을 보여줬다. 해당 리뷰에서 다룰 논문은 zero-shot 환경에서의 CoT를 다루며, 단순히 "Let's think step by step"이라는 문장을 추가함으로써 CoT를 구현한다. 비록 few-shot CoT 보다는 뒤쳐지는 성능을 보여주지만, 기본 zero-shot과 비교하여 훨씬 좋은 성능에 도달한다. Introduction 최근 모델 사이즈 scaling은 NLP 연구의 핵심 주제가 되었다. 이러한 LLM의 성공적인 결과는 zero-shot 및 f..

최근 LLM(Large Language Model) 연구 동향은 모델의 사이즈를 키워 더 나은 성능을 가진 모델을 개발하는 것이었다. 하지만, arithmetic task와 같은 multi-step thinking을 요구하는 task에서는 여전히 좋은 성능을 보이지 못했다. 해당 논문은 모델에게 차근차근 생각할 수 있는 능력을 부여하기 위한 CoT(Chain-of-Thought) prompting을 소개한다. 이는 복잡한 reasoning task 및 arithmetic(수학) task에서 좋은 결과를 보여준다. 특히, 이 논문에서는 few-shot CoT를 통해 모델이 어떻게 reasoning 능력을 갖게 되는지 보여준다. 3가지 모델에서 평가를 해본 결과, 상당한 성능 향상 결과를 보여줬으며, PaL..

LLaMA는 facebook META에서 공개한 모델로, 오픈소스라는 특징을 가진다(GPT4나 PaLM2와 같은 모델은 private함). 완전히 공개된 데이터셋만으로 학습된 모델이 SOTA(State-Of-The-Arts) 성능에 도달할 수 있음을 보여주며, LLaMA-13B은 파라미터 차이가 많이 나는 GPT-3(175B) 보다 좋은 성능을 보이기도 하며, LLaMA-65B 모델은 best model들과 견주는 성능을 보여준다. Approaches LLaMA는 Chinchilla의 오픈 소스 모델이라고 생각할 수 있다. 공개된 데이터만을 사용하여 학습되었고, 모델의 성능 안정성과 속도를 위해 이런저런 방법을 사용했다. Pre-training Data Pre-training에는 위와 같은 데이터셋이 사..

Summary 이 모델은 귀여운 친칠라(동물)의 이름을 따서 개발되었다. Chinchilla 논문은 기존의 (모델 사이즈 중심의) scaling law가 잘못되었다는 의견을 제시하며 주어진 컴퓨팅 예산을 모델 사이즈와 학습 토큰에 적절하게 분배할 때 성능이 최적화된다는 의견을 제시한다. 논문의 저자들은 기존의 LLM(Large Language Model)들이 상당히 under-trained 되었다는 것을 발견하고, 그 원인이 모델의 사이즈는 증가시키면서 사용하는 데이터의 사이즈는 그대로이기 때문이라는 것을 알게 되었다. 이에 따라 주어진 컴퓨터 예산을 모델 크기와 학습 데이터 크기에 얼마나 할당해야 하는지에 대한 실험을 진행해보니 모델 사이즈/학습 데이터가 동등하게 scaling되어야 한다는 결과가 도출..

해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..

지금까지의 연구들은 autoencoding models(BERT based), autoregressive models(GPT), 그리고 encoder-decoder models(T5)와 같은 다양한 pre-training architecture를 제안했다. 하지만 아직까지 NLU, unconditional/conditional generation task를 포함한 모든 NLP task에서 가장 좋은 모델을 개발되지 않았다. 이 문제에 도전하기 위해 해당 논문은 autoregressive blank infilling을 사용하는 General Language Model(GLM)을 제안한다. GLM은 2D positional embedding을 사용하여 blank filling pretraining을 개선하며..

해당 논문은 Fine-tuning Language Models from Human References에서 이어지는 내용을 다루고 있으며, InstructGPT의 근본이 되는 논문이다. 언어 모델의 성능이 강력해지면서, 모델 학습과 평가는 특정 task에서의 데이터와 측정 지표로 인해 병목 현상이 증가하게 되었다. 예를 들어 summarization task에서는 ROUGE 점수를 사용하여 모델의 성능을 평가하지만, 이는 임의의 알고리즘이기 때문에 실제로 요약문의 수준을 측정하기에는 부족할 수 있다. 따라서 본 논문에서는 인간 선호도를 활용하여 모델의 요약 능력을 향상시키고자 한다. 모델은 TL;DR 레딧 데이터셋이 사용되었으며, 이는 모델이 human reference를 능가하는 요약문을 작성할 수 있게..