Probability Calibration
scikit-learn 사이트에 정말 친절하고 상세하게 잘 설명되어있다.
아주 간단히 insight만 적자면 이러하다.
애초에 LogisticRegression처럼 모델 자체가 sigmoid 함수를 이용한 확률을 return하고, 이 확률을 NLL로 학습시키면 자연히 probability분포가 confidence와 동치가 된다.
그런데 SVM같은 모델은 output과 loss가 확률 및 NLL과 관련이 없어서, probability가 confidence를 갖지 않고, 항상 bias를 갖는 prediction 분포가 생긴다. 그래서 이러한 문제를 해결하고자 등장한 방법이 Probability Calibration이다.
가장 많이 쓰이는 방법은 모델을 먼저 training set으로 학습시킨 다음, validation set(혹은 calibration set)을 이용해 probability를 다시 한 번 fitting시키는 것이다.
그런데 여기서 궁금한점은, 이것이 정말 잘 working했는지 확인하려면 또 다른 validation set이 필요한게 아닌가하는 점이다.
반대로 말하면 새로 들어온 데이터셋이 다른 분포를 가지고 있으면, confidence가 당연히 동작하기 어려운게 아닌가
'Research > Machine Learning' 카테고리의 다른 글
Information Bottleneck (0) | 2020.06.12 |
---|---|
Pseudo Label (0) | 2020.06.12 |
Bayesian Inference (0) | 2020.01.29 |
Advanced Supervised Learning (0) | 2020.01.28 |
The Bitter Lesson 번역 (0) | 2020.01.17 |
댓글