
LLaMA는 facebook META에서 공개한 모델로, 오픈소스라는 특징을 가진다(GPT4나 PaLM2와 같은 모델은 private함). 완전히 공개된 데이터셋만으로 학습된 모델이 SOTA(State-Of-The-Arts) 성능에 도달할 수 있음을 보여주며, LLaMA-13B은 파라미터 차이가 많이 나는 GPT-3(175B) 보다 좋은 성능을 보이기도 하며, LLaMA-65B 모델은 best model들과 견주는 성능을 보여준다. Approaches LLaMA는 Chinchilla의 오픈 소스 모델이라고 생각할 수 있다. 공개된 데이터만을 사용하여 학습되었고, 모델의 성능 안정성과 속도를 위해 이런저런 방법을 사용했다. Pre-training Data Pre-training에는 위와 같은 데이터셋이 사..

Summary 이 모델은 귀여운 친칠라(동물)의 이름을 따서 개발되었다. Chinchilla 논문은 기존의 (모델 사이즈 중심의) scaling law가 잘못되었다는 의견을 제시하며 주어진 컴퓨팅 예산을 모델 사이즈와 학습 토큰에 적절하게 분배할 때 성능이 최적화된다는 의견을 제시한다. 논문의 저자들은 기존의 LLM(Large Language Model)들이 상당히 under-trained 되었다는 것을 발견하고, 그 원인이 모델의 사이즈는 증가시키면서 사용하는 데이터의 사이즈는 그대로이기 때문이라는 것을 알게 되었다. 이에 따라 주어진 컴퓨터 예산을 모델 크기와 학습 데이터 크기에 얼마나 할당해야 하는지에 대한 실험을 진행해보니 모델 사이즈/학습 데이터가 동등하게 scaling되어야 한다는 결과가 도출..

해당 논문은 instruction tuning을 사용함에 따라 모델의 zero-shot 능력이 향상됨을 보여준다. 언어 모델을 다양한 dataset에 대한 instruction으로 fine-tuning을 진행했을 때, unseen task에 대한 모델의 zero-shot 성능이 향상되었다. FLAN은 137B 크기의 모델에 instruction templates가 적용된 60개의 NLP datasets을 학습시켰으며, 이를 unseen task에 대해 평가했다. FLAN은 175B GPT-3을 25 중 20개의 데이터셋에서 능가했다. Introduction GPT 3와 같은 논문은 언어 모델의 크기가 커짐에 따라 few-shot의 성능이 증가함을 보여줬다. 하지만 GPT-3는 reading compreh..

Overall Understanding of the Paper Amazon Alexa와 같은 human assistant는 짧은 시간 내에 사용자의 요구 및 음성에 따른 답변(, 행동)을 말해야 하기 때문에 현재 NLP 트렌드인 큰 모델을 적용시킬 수 없다. 이에 따라 encoder 기반의 Alexa Teacher Model을 학습시켜 가장 큰 모델과 비교하여 0.2% 크기인 모델에 지식 전이 방법을 제시한다 - TinyBERT와 비슷하다. Pre-training Methods 모델에서 설명하는 pre-training은 teacher 모델을 학습시키기 위한 method이며, human assistant는 다양한 언어에 대해 답변할 수 있는 능력을 가져야 하기에 기존의 cross-lingual 학습에 사용..

지금까지의 연구들은 autoencoding models(BERT based), autoregressive models(GPT), 그리고 encoder-decoder models(T5)와 같은 다양한 pre-training architecture를 제안했다. 하지만 아직까지 NLU, unconditional/conditional generation task를 포함한 모든 NLP task에서 가장 좋은 모델을 개발되지 않았다. 이 문제에 도전하기 위해 해당 논문은 autoregressive blank infilling을 사용하는 General Language Model(GLM)을 제안한다. GLM은 2D positional embedding을 사용하여 blank filling pretraining을 개선하며..

해당 논문은 Fine-tuning Language Models from Human References에서 이어지는 내용을 다루고 있으며, InstructGPT의 근본이 되는 논문이다. 언어 모델의 성능이 강력해지면서, 모델 학습과 평가는 특정 task에서의 데이터와 측정 지표로 인해 병목 현상이 증가하게 되었다. 예를 들어 summarization task에서는 ROUGE 점수를 사용하여 모델의 성능을 평가하지만, 이는 임의의 알고리즘이기 때문에 실제로 요약문의 수준을 측정하기에는 부족할 수 있다. 따라서 본 논문에서는 인간 선호도를 활용하여 모델의 요약 능력을 향상시키고자 한다. 모델은 TL;DR 레딧 데이터셋이 사용되었으며, 이는 모델이 human reference를 능가하는 요약문을 작성할 수 있게..

해당 논문은 똑똑한 언어 모델의 근본적인 개념이 되는 RLHF(Reinforcement Learning from Human Feedback)의 내용을 다룬다. RLHF는 강화학습을 NLP에 적용하는 것으로, 인간의 수동적인 라벨링을 통한 fine-tuning을 모델에 적용시킨다. 일반적인 벤치마크 평가와 다르게 실제 task는 "이 글을 사람처럼 요약해줘"와 같이 애매한 조건이 주어질 경우가 많다. 본 논문의 모델은 RL fine-tuning 기법을 사용하여 사람의 정의한 task에 대해 학습이 가능하도록 한다. 본 논문의 실험과정에서는 학습된 모델을 text generation, 그리고 summarization task 각각 두가지, 총 4가지 task에서 평가한다. Methods Reinforceme..

본 논문은 자연어 이해(natural language understanding)과 생성(generation) task를 모두 fine-tuning할 수 있는 UniLM(Unified pre-trained Language Model) 를 제시한다. UniLM 네트워크는 unidirectional LM, bidirectional LM, 그리고 sequence to sequence LM 세 가지 pre-training을 진행하며, 하나의 Transformer 네트워크로 학습된다. 다양한 LM을 한 모델로 학습하기 위해서 masking 기법을 활용하며, UniLM은 5개의 데이터에서 SOTA를 달성한다. CNN/DailyMail abstractive summarization ROUGE-L 40.51, Gigaw..

GPT-1, GPT-2 포스팅도 있으니 참고해주세요~ [Paper Review] Improving Language Understanding by Generative Pre-Training [Paper Review] Improving Language Understanding by Generative Pre-Training NLU(Natural Language Understanding) 문제는 다음과 같은 task를 포함하고 있다. NLU tasks - 텍스트 함의(textual entailment) - 질의응답(question answering) - 문서 분류(document classification) - 문장 유사도(semantic similarity) learn-ai.tistory.com [Paper..

Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습되기 쉽지 않다. Megatron-LM은 Billions of parameters(몇 십억개의 파라미터)를 학습시키기 위해 모델 병렬화 기법을 소개한다. 논문에서 소개한 병렬화 기법은 새로운 컴파일러를 필요로 하거나 라이브러리를 수정할 필요가 없으며, 간단한 계산 수식을 추가하여 구현할 수 있다. Megatron-LM은 새로 소개한 병렬화 기법을 활용하여 8.3B(83억)개의 파라미터를 가진 transformer 모델을 512개의 GPU로 구현한다. Baseline으로 사용된 모델은 단..