learningAI
article thumbnail

해당 논문은 Fine-tuning Language Models from Human References에서 이어지는 내용을 다루고 있으며, InstructGPT의 근본이 되는 논문이다. 

언어 모델의 성능이 강력해지면서, 모델 학습과 평가는 특정 task에서의 데이터와 측정 지표로 인해 병목 현상이 증가하게 되었다. 예를 들어 summarization task에서는 ROUGE 점수를 사용하여 모델의 성능을 평가하지만, 이는 임의의 알고리즘이기 때문에 실제로 요약문의 수준을 측정하기에는 부족할 수 있다. 따라서 본 논문에서는 인간 선호도를 활용하여 모델의 요약 능력을 향상시키고자 한다. 모델은 TL;DR 레딧 데이터셋이 사용되었으며, 이는 모델이 human reference를 능가하는 요약문을 작성할 수 있게 했다. 모델은 CNN/DM 데이터셋에서 추가 학습 없이 적용되었으며, 이 또한 human reference와 근접하는 좋은 성능을 보였다(모델의 일반화가 잘 이뤄짐). 

 

RL process

본 논문의 모델은 출력의 인간 선호도를 높이기 위해 RL(Reinforcement Learning) fine-tuning 과정을 거친다. 정책은 TL;DR 데이터셋에서 fine-tuning된 모델로 초기화되며, RL tuning은 다음 3 step을 거쳐 학습된다.

 

  1. 초기 정책, 현재 정책, 인간 요약문으로부터 추출된 샘플로 human feedback을 추출한다.
  2. human feedback 샘플을 활용하여 RM(Reward Model)을 학습한다.
  3. 학습된 RM으로 RL 학습을 진행한다.

위 3가지 step은 그림에 나타나있으며, 지난 논문과 동일한 RL 학습 과정을 거친다. 

 

Datasets and tasks

논문에서 사용된 데이터는 TL;DR 데이터셋으로, 레딧 사이트의 300만개의 글과 요약문을 포함한다. TL;DR 데이터셋의 퀄리티를 향상시키기 위해 추가 필터링 과정을 거친다. Human-written 요약문이 24에서 48 사이의 토큰으로 이뤄져 있어야 한다. 토큰의 수를 제한함으로써 출력 길이에 따른 요약문 퀄리티 영향을 최소화한다. 필터링된 데이터는 123,169개의 글을 포함하며, 5%의 데이터가 validation data로 사용된다.

본 논문에서 CNN/DM 대신 TL;DR이 사용된 이유는 CNN/DM은 간단한 모델로도 충분한 성능을 이끌어낼 수 있기 때문이다. 이후의 실험 과정에서 CNN/DM에 대해서 lead-3의 인간 선호도가 가장 높았다. 반대로 TL;DR 데이터셋에 대해서는 간단한 모델 학습으로는 인간 선호도가 낮은 결과를 보였다.

 

본 논문의 summarization task는 모델의 출력을 48 토큰 이하로 제한한다. 요약문의 퀄리티는 본문을 보지 못하는 사람들에 의해 평가되며, 본문의 내용을 잘 포함할수록 좋은 요약문을 출력한다고 할 수 있다. 밑의 그림은 본문 레딧 글에 대한 모델의 출력을 보여준다.

 

 

Human feedback

이전의 human feedback으로 학습된 모델은 저자들이 의도한 방향으로 학습하지 못했으며, 'smart copier'에 그치는 결과를 보였다. 기존의 본문 내용에 불필요한 부분만 제거한 요약문은 좋은 모델 출력이라고 할 수 없다.

이를 개선하기 위해 human sampling 방식이 바뀌었다. 첫번째로, RL은 완전한 offline setting으로 진행되며, 이때 대량의 comparison 데이터를 human labeler에게 보내며 누적된 데이터를 기반으로 모델을 재훈련하는 것을 번갈아 수행한다. 그 다음으로, labeler 간의 지속적인 소통을 계속한다. 학습에 있어서 모든 labeler들이 저자들의 판단과 일치하도록 보장하며, 지속적으로 labeler-researcher 의견 통일을 모니터링한다. Comparison task에서 labeler의 researcher에 대한 의견은 77% 정도 일치했으며 researcher들은 labeler의 의견에 대해 73% 정도 동의했다.

 

Models

본 논문에서 제안된 policy, RM 등의 모델은 모두 GPT-3 형태의 Transformer 구조를 따라간다. Human feedback을 통해 1.3B과 6.7B 모델이 구현되어 평가가 진행된다.

 

Pre-trained models 모델 pre-training은 GPT와 동일하게 autoregressive LM 방식이 사용되며, 'zero-shot' baseline으로써 사용된다. 

Supervised baselines 이전 논문과 차별화되는 점은, policy와 RM의 초기화 모델로써 supervised 학습이 된 모델이 사용되었다는 것이다. 모델은 필터링된 TL;DR에 대해 supervised learning이 진행되었으며, 평가 과정에서 비교 baseline 모델로도 사용된다.

Reward models RM은 언급된 sueprvised 모델로 초기화되며, 랜덤하게 세팅된 linear 레이어가 추가되어 scalar 값을 출력하도록 되어 있다. 해당 모델은 인간에 의해 평가된 요약문 $y \in \{y_0, y_1\}$으로 이뤄진 데이터로 학습되며, RM loss는 다음과 같이 정의된다.

위 loss function에서 $r_{\theta}(x, y)$는 RM의 scalar output을 의미하며, $D$는 human judgement 데이터셋을 말한다. 훈련의 마지막 부분에서 RM의 출력을 평균 score 0이 되도록 정규화를 해준다. RM은 KL divergence를 사용하여 최종 보상을 다음과 같이 계산한다. 

여기서 KL은 두 가지 목적을 가진다. 첫번째로, 이는 entropy bonus이며 정책이 탐험을 진행하되, single mode에 충돌하는 것을 방지한다. 두번째로, 정책이 초기 supervised 모델과 크게 차이나는 출력을 계산하지 않도록 한다.

 

Results

위 그래프는 TL;DR 데이터셋에서 모델의 요약문 선호도를 나타낸다. Pre-training만 진행된 baseline 모델은 선호도가 가장 낮았으며, 가장 큰 모델의 성능이 supervised 모델의 가장 작은 모델의 선호도와 비슷했다. Human feedback으로 RL learning을 한 모델은 가장 작은 모델의 선호도가 이미 모든 모델을 능가하며, 6.7B 모델은 더 높은 선호도를 보였다.

 

위 그림은 CNN/DM에서 TL;DR에서 학습한 모델의 요약문 퀄리티를 평가한 것이다. CNN/DM 데이터셋에서 finetuning된 모델들보단 성능이 좋지 못했지만 human feedback으로 학습한 모델은 준수한 성능을 보여준다.

 

위의 그림은 모델 사이즈 증가에 따른 validation accuracy 성능표로, 모델 사이즈 증가와 더불어 샘플 수가 많을수록 좋은 성능을 보인다는 것을 증명한다.

 

본 논문은 연구의 소요 시간과 비용이 한계점이라고 설명한다. 6.7B의 모델을 RL fine-tuning하는 것은 320 GPU-days가 소요되었으며, labeler 샘플링 과정도 이전 논문보다 훨씬 비싸다. 그럼에도 human labeling은 모델의 성능을 끌어낼 수 있는 충분한 가능성을 보여주며, 이는 사람이 샘플을 비교할 수 있는 모든 task에 적용될 수 있다. 대화, 번역, QA, 음악 생성 등의 많은 task에 적용될 수 있으며, 모델 사이즈가 증가됨에 따라 모델의 성능이 더 증가될 수 있다는 가능성도 보인다.

 

논문

https://arxiv.org/pdf/2009.01325.pdf

profile

learningAI

@YyunS

인공지능 공부하는 학생입니다!