learningAI
article thumbnail
[Paper Review] Chinchilla: Training Compute-Optimal Large Language Models
Paper Review/NLP 2023. 6. 20. 22:26

Summary 이 모델은 귀여운 친칠라(동물)의 이름을 따서 개발되었다. Chinchilla 논문은 기존의 (모델 사이즈 중심의) scaling law가 잘못되었다는 의견을 제시하며 주어진 컴퓨팅 예산을 모델 사이즈와 학습 토큰에 적절하게 분배할 때 성능이 최적화된다는 의견을 제시한다. 논문의 저자들은 기존의 LLM(Large Language Model)들이 상당히 under-trained 되었다는 것을 발견하고, 그 원인이 모델의 사이즈는 증가시키면서 사용하는 데이터의 사이즈는 그대로이기 때문이라는 것을 알게 되었다. 이에 따라 주어진 컴퓨터 예산을 모델 크기와 학습 데이터 크기에 얼마나 할당해야 하는지에 대한 실험을 진행해보니 모델 사이즈/학습 데이터가 동등하게 scaling되어야 한다는 결과가 도출..