RLHF에서 사용하는 Reward Model Loss

A. Research/Deep Learning & Application

RLHF에서 사용하는 Reward Model Loss

IMCOMKING 2025. 1. 10. 16:52

Bradley-Terry 모델: 원래는 쌍(pair) 간 비교를 모델링하기 위해 설계된 것으로, 한 항목이 다른 항목보다 선호될 확률을 두 항목의 점수나 능력에 기반하여 계산합니다.
Plackett-Luce 모델: Bradley-Terry 모델을 일반화하여 쌍 비교가 아닌 여러 항목의 순위를 처리할 수 있도록 확장한 모델입니다. Plackett-Luce 모델은 특정 순위나 선택 순서가 나타날 확률을 항목들의 잠재 점수(latent score)를 기반으로 모델링합니다.

* Plackett-Luce 모델도 Bradley-Terry 모델로 충분히 학습해서 표현이 가능할까?
-> 충분히 가능하다.
ref) 스탈링 RM
https://huggingface.co/berkeley-nest/Starling-RM-7B-alpha

저작자표시 비영리 변경금지 (새창열림)