본문 바로가기

A. Research/Deep Learning & Application2

RLHF에서 사용하는 Reward Model Loss Bradley-Terry 모델: 원래는 쌍(pair) 간 비교를 모델링하기 위해 설계된 것으로, 한 항목이 다른 항목보다 선호될 확률을 두 항목의 점수나 능력에 기반하여 계산합니다.Plackett-Luce 모델: Bradley-Terry 모델을 일반화하여 쌍 비교가 아닌 여러 항목의 순위를 처리할 수 있도록 확장한 모델입니다. Plackett-Luce 모델은 특정 순위나 선택 순서가 나타날 확률을 항목들의 잠재 점수(latent score)를 기반으로 모델링합니다. * Plackett-Luce 모델도 Bradley-Terry 모델로 충분히 학습해서 표현이 가능할까?-> 충분히 가능하다.ref) 스탈링 RM https://huggingface.co/berkeley-nest/Starling-RM-7B-alpha 2025. 1. 10.

다양한 Performance Measure in NLP, ASR Natural Language Generation 참고할 글: https://stats.stackexchange.com/questions/242617/comparing-perplexities-with-different-data-set-sizes Log Likelihood: log P(x|θ), 감독학습인 경우 log P(y|x, θ) 일반적으로 라이클리후드를 서로 다른 크기의 데이터 셋에 대해서 쓰려면 기하평균을 취해야한다. 왜냐하면 라이클리후드의 절대값은 항상 증가하는 방향이기 때문에 데이터의 크기가 같이 않으면 성능 비교가 의미가 없다. 따라서 마찬가지로 분류 문제에서의 -log라이클리후드인 크로스엔트로피는 데이터의 크기 N으로 나누어주면 된다. Log Likelihood per word: { log.. 2015. 7. 1.

이전 1 다음

티스토리툴바