본문 바로가기
Research/Machine Learning

Maximum Likelihood Estimation의 의미

by IMCOMKING 2016. 9. 2.

MLE에서 확률(*)의 곱을 최대화하는 대신 확률의 합을 최대화하면 어떻게 될까?

보다 정확히, (*)는 모델이 주어졌을 때 IID데이터의 확률.
즉, p(x1|M)p(x2|M)...p(xn|M) 을 최대화하는 것이 아니라 p(x1|M)+...+p(xn|M)을 최대화 하는 모델 파라미터를 선택한다면?


--> 

확률곱 : iid 에서 교집합의 확률
확률합 : iid 에서 합집합의 확률

교집합은 and, 동시에라는 조건이고 합집합은 or, 또는이라는 조건이라 곱셈이 훨씬 강력한 가정이다.

둘다 각각의 확률 엘리먼트가 최대화가 되긴하겠지만 곱셈은 1개의 엘리먼트만 0을 가져도 전체확률이 0이 되어 Log Loss 값이 무한대가 되지만, 확률 합은 그렇지 않아서 더 약한 조건이다.

그리고 exp 이 있는 확률모델이라면, 확률합에는 로그를 취해도 계산이 덧셈이라서 식이 단순해지지가 않아 미분이 매우 힘들다.

댓글