본문 바로가기

A. Research8

RLHF에서 사용하는 Reward Model Loss Bradley-Terry 모델: 원래는 쌍(pair) 간 비교를 모델링하기 위해 설계된 것으로, 한 항목이 다른 항목보다 선호될 확률을 두 항목의 점수나 능력에 기반하여 계산합니다.Plackett-Luce 모델: Bradley-Terry 모델을 일반화하여 쌍 비교가 아닌 여러 항목의 순위를 처리할 수 있도록 확장한 모델입니다. Plackett-Luce 모델은 특정 순위나 선택 순서가 나타날 확률을 항목들의 잠재 점수(latent score)를 기반으로 모델링합니다. * Plackett-Luce 모델도 Bradley-Terry 모델로 충분히 학습해서 표현이 가능할까?-> 충분히 가능하다.ref) 스탈링 RM https://huggingface.co/berkeley-nest/Starling-RM-7B-alpha 2025. 1. 10.

Jaccard Similarity 두 집합의 교집합을 합집합으로 나눈 값 https://medium.com/h-document/%EC%9E%90%EC%B9%B4%EB%93%9C-%EA%B1%B0%EB%A6%AC-jaccard-distance-e5b246603775 2024. 7. 9.

PPL 원리와 구현 PPL 원리와 구현 PPL이란 PPL의 정의는 기본적으로 target token seq에 대한 모델의 negative log-likelihood (NLL)의 평균을 exponential한 것이다. Perplexity of fixed-length models 계산 방법 PPL은 target data와 model prediction 사이의 CrossEntropy Loss를 exponentiation하여 매우 쉽게 계산할 할 수 있다. 이는 자명한 것이, model prediction과 target data (일종의 label로 생각)와의 CE를 계산하게 되면, target token의 index에 대한 model predction의 확률만으로 NLL이 계산되기 때문이다. $$ CrossEntropy(Mode.. 2022. 5. 16.

Decibel과 SPL(Sound Pressure Level) Decibel과 Sound Pressure Level(SPL)우선 벨은 단순히 P2과 P1의 비율에 log_10을 취한 것으로 두 값의 상대적인 비율을 나타내는 값이다. 보통 분자인 P2는 output signal을 의미하고, P1은 input signal을 의미한다.그다음 데시벨은 벨에서 1/10을 한 값이다. 보통의 경우 그냥 Bel은 너무나 큰 값이라서 쓰기가 매우 불편하다. 3 Bel 만해도 1000배를 의미하기 때문에 실제로 사용하려면 소수점이 발생하기 쉽다. 그래서 여기에 1/10을 곱해서 30 dB가 1000배를 의미하도록 만든 것이 바로 데시벨이다. 또한 데시벨은 기본적으로 log_10 을 사용하므로, 데시벨 수치가 +10 씩 증가할 때마다 실제 값은 기준치의 10배씩 증가하게 된다. (물.. 2020. 12. 22.

p Norm vector norm : 각각의 엘리먼트의 절대값을 p제곱한다음 루트p 따라서 L1 norm은 element 절대값의 합에 해당하고, L2 norm은 피타고라스의 정리처럼 유클리드 거리를 구한것에 해당한다. http://mathworld.wolfram.com/VectorNorm.html - 좀 더 보기 편한 수식https://rorasa.wordpress.com/2012/05/13/l0-norm-l1-norm-l2-norm-l-infinity-norm/ 2016. 9. 17.

Advanced Gradient Descent Method Advanced Gradient Descent Method (고급 경사 하강 법)출처 : http://imgur.com/a/Hqolp위에서 소개된 그림은 특정한 landscape에서의 각각의 optimizer들의 학습 속도를 표현 한 것이다. 보기에는 Adadelta가 최고인가하고 생각 할 수 있겠지만, 문제 상황에 따라 잘하는 경우도 있고, 못하는 경우도 있으므로 문제 상황에 맞게 잘 선택해야한다. 출처 : http://imgur.com/a/Hqolp위의 이미지는 특히 Rmsprop와 Adagrad가 좋은 성능을 보인다. 뉴럴넷의 W와 같은 고차원의 공간에서는 이러한 saddle point가 매우 많아 문제가 되는 것으로 알려져있다. 따라서 이 두가지 옵티마이저를 선택하는 것은 좋은 방법이다. 요즘에는.. 2015. 10. 24.

다양한 Performance Measure in NLP, ASR Natural Language Generation 참고할 글: https://stats.stackexchange.com/questions/242617/comparing-perplexities-with-different-data-set-sizes Log Likelihood: log P(x|θ), 감독학습인 경우 log P(y|x, θ) 일반적으로 라이클리후드를 서로 다른 크기의 데이터 셋에 대해서 쓰려면 기하평균을 취해야한다. 왜냐하면 라이클리후드의 절대값은 항상 증가하는 방향이기 때문에 데이터의 크기가 같이 않으면 성능 비교가 의미가 없다. 따라서 마찬가지로 분류 문제에서의 -log라이클리후드인 크로스엔트로피는 데이터의 크기 N으로 나누어주면 된다. Log Likelihood per word: { log.. 2015. 7. 1.

Fourier Transform, Power Spectrum, Spectrum Fourier Transform (푸리에 변환) : 어떤 파동에 대한 주파수의 분포를 보는 방법. 원래 파동의 Y 축이 에너지이면 에너지-주파수 분포가 되고, 진폭이면 진폭-주파수 분포가된다. 즉 X 축은 시간에서 주파수로 되고, Y축은 원래 Y축값에 대한 주파수상의 분포를 의미한다. [시간-진폭]으로 된 time domain을 [주파수-분포]로 된 frequency domain으로 관점을 바꾸어 해석하는 방법 푸리에 변환은 푸리에 급수를 임의의 비주기적인 함수에도 적용할 수 있게 확장한 푸리에 적분(주기를 무한대로 보냄)을 의미한다. 직관적으로 이해하자면 임의의 함수를 여러개의 주기를 가진 코사인 N개의 합으로 표현한 것이 푸리에 변환이고, 이때 그 코사인의 주기와 계수들의 스펙트럼을 표현한 것이 fr.. 2015. 4. 22.

이전 1 다음

티스토리툴바