learningAI
article thumbnail
[Paper Review] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
Paper Review/NLP 2023. 5. 7. 02:16

Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습되기 쉽지 않다. Megatron-LM은 Billions of parameters(몇 십억개의 파라미터)를 학습시키기 위해 모델 병렬화 기법을 소개한다. 논문에서 소개한 병렬화 기법은 새로운 컴파일러를 필요로 하거나 라이브러리를 수정할 필요가 없으며, 간단한 계산 수식을 추가하여 구현할 수 있다. Megatron-LM은 새로 소개한 병렬화 기법을 활용하여 8.3B(83억)개의 파라미터를 가진 transformer 모델을 512개의 GPU로 구현한다. Baseline으로 사용된 모델은 단..