
[Paper Review] Fine-tuning Language Models from Human References
Paper Review/NLP
2023. 5. 29. 19:56
해당 논문은 똑똑한 언어 모델의 근본적인 개념이 되는 RLHF(Reinforcement Learning from Human Feedback)의 내용을 다룬다. RLHF는 강화학습을 NLP에 적용하는 것으로, 인간의 수동적인 라벨링을 통한 fine-tuning을 모델에 적용시킨다. 일반적인 벤치마크 평가와 다르게 실제 task는 "이 글을 사람처럼 요약해줘"와 같이 애매한 조건이 주어질 경우가 많다. 본 논문의 모델은 RL fine-tuning 기법을 사용하여 사람의 정의한 task에 대해 학습이 가능하도록 한다. 본 논문의 실험과정에서는 학습된 모델을 text generation, 그리고 summarization task 각각 두가지, 총 4가지 task에서 평가한다. Methods Reinforceme..