Instruction following LLMs 모델들의 발전의 중심에는 instruction-tuning과 human feedback이 있다. 하지만 최근 Vicuna, Alpaca와 같은 instruction tuning 연구들에 비해 RLHF-style의 연구들은 상당히 적은 편이다. RLHF를 사용하는 것에 있어서의 어려움은 다음과 같은 세 가지를 말할 수 있다.
- 인간 선호도 데이터에 대한 높은 비용
- 평가 과정의 신뢰도 부족
- Reference implementations의 부족
Stanford CRFM에서는 위 세 가지 문제를 보완하여 RLHF-style의 학습의 비용을 감소시킨 AlpacaFarm을 공개했으며 위의 문제들을 어떻게 해결했는지 하나씩 살펴보자!
Simulated Annotations
우선 AlpacaFarm은 52k의 alpaca 데이터셋으로부터 만들어졌으며, base instruction-following 모델은 그 중 10k의 데이터로 학습되었다. 나머지 42k의 데이터는 대부분 simulated annotators로부터 학습되는 과정에서 사용되었으며, 선호도 학습 및 평가 과정에서도 사용되었다.
AlpacaFarm은 RLHF에서 존재했던 높은 비용에 대한 문제를 API LLMs (e.g. GPT-4, ChatGPT)로 대체했다. 이로 인해 45배 비용이 감소될 수 있었으며, 13 종류의 annotation 프롬프트를 사용함으로써 실제 HF처럼 다양한 답변을 얻을 수도 있다.
그럼 과연 LLM으로부터 얻는 annotation은 과연 정확할까? 위의 그래프를 보자. Simulated annotation을 통해 학습한 것과 실제 인간 선호도로부터 학습된 모델을 비교한 결과 비슷한 결과를 보였다. 위의 그래프는 AlpacaFarm workflow와 human feedback workflow의 높은 상관관계를 보여줬으며, 이러한 결과는 simulated annotation이 실용적임을 증명한다.
RLHF에서는 surrogate reward에 대한 학습이 성능을 저하시키는 reward model overoptimization 현상이 발생하는데, AlpacaFarm의 simulation은 이런 현상도 비슷하게 발생한다. 위의 그래프는 보면 왼쪽의 HF 결과와 오른쪽의 AlpacaFarm의 win-rate 그래프가 비슷한 모양으로 움직이는 것을 확인할 수 있다.
Evaluation
RLHF의 두번째 challenge였던 평가 과정을 위해 Alpaca 연구팀은 우선 instruction data를 생성하기 위해 self-instruct, anthropic helpfulness, Koala 등의 다양한 public dataset을 결합했으며, instruction 분포는 Alpaca 7B를 통한 실시간 user interaction 데이터를 가이드로 사용했다.
이렇게 생성한 평가 instruction data를 기반으로 RLHF 모델과 Davinci003의 답변들을 비교하여 RLHF 모델이 선호된 정도를 측정하여 win-rate 통계를 구할 수 있게 된다. 평가를 진행한 결과, AlpacaFarm의 evaluation system ranking이 live user instruction과 높은 연관성을 띄는 것을 아래 그래프를 통해 확인할 수 있다.
결과적으로 public data의 조합으로 real-world instruction에 가까운 성능을 보인다는 것을 알 수 있다.
Reference Methods
AlpacaFarm은 몇가지 유명한 알고리즘 (e.g. PPO, expert iteration, best-of-n sampling)을 구현하여 resource를 공개했다. 연구 결과 다른 도메인에서 효율적임을 보여줬던 reward conditioning과 같은 method가 초기의 SFT 모델들보다 안 좋은 성능을 보였으며, 이것은 real instruction-following 환경에서 알고리즘을 실험하는 것이 중요함을 강조한다.
실험 결과, PPO가 가장 좋은 성능을 보였으며 Davinci003에 대한 인간 선호도 win-rate가 44%에서 55%로 상승했으며, 이는 심지어 ChatGPT보다도 더 높은 수치이다!
결과적으로 PPO가 human win-rate를 개선시키기에 가장 효율적인 알고리즘임을 알 수 있었다. 하지만, 이는 어디까지나 AlpacaFarm의 평가 과정과 annotator pool의 특정 환경에서 측정된 실험임을 알아야 한다. 또한 live user instruction을 기반으로 한 평가를 진행했기 때문에 challenging problem들에 대해서는 다루지 못했으며, win-rate의 향상이 stylistic preference를 사용하는 것에서 오는지, 사실적이거나 올바른 것에서 오는지는 밝혀진 바가 없다고 한다.
원본
https://crfm.stanford.edu/2023/05/22/alpaca-farm.html
Stanford CRFM
AlpacaFarm replicates the RLHF process at a fraction of the time (<24h) and cost ($<200), enabling the research community to advance instruction following research. Paper Code Release Overview Learning from instructions and human feedback are thought t
crfm.stanford.edu