베이즈 에러 (Bayes Error)
Classification 문제에서, P(Y | X)에 대한 확률 분포(underlying true distribution)를 알고 있다고 가정했을 때, 이론적으로 도달할 수 있는 최소의 classification error를 의미한다.
https://en.wikipedia.org/wiki/Bayes_error_rate
단, 여기서 중요한 것은 아무리 underlying true distribution를 알고 있다하더라도, 이를 이용해 class label을 inference하는 방법이 반드시 P(y1, x)와 P(y2, x)를 비교해서 확률이 높은 쪽을 정답으로 골라야만 이 Bayes Error에 도달할 수 있다.
이 방식이 아닌 모든 inference 방법은 이론적으로 Bayes Error가 될 수 없다.(예를 들어 P(Y|X)의 확률로 sampling하여 y label을 결정한다든가 하는 방법은 결코 Bayes Error에 도달할 수 없다.) 즉 이를 바꿔 말하면 underlying true distribution가 알려진 상황에서 optimal한 inference 방법은 이론적으로 이미 밝혀졌다고 말할 수 있다.
즉 우리가 풀어아하는 문제는 underlying true distribution에 가장 근접한 분포를 기계학습을 통해 구하는 것이고, 이를 통해 class label을 inference하는 방법은 이미 정해져있는 것이다.
min[P(y1|x), P(y2|x)] : 확률이 가장 큰 y를 선택 했을 때 발생하는 오차 값
P(x,y) : x와 y의 joint probability(결합 확률), x와 y가 동시에 일어날 확률. 즉 말 그대로 x,y 사건이 일어날 확률
(이때 y는 summation rule에 의해 시그마가 사라지며, P(x)로 바뀐다.)
따라서 해석을 하자면 베이즈 에러는 오차 값*확률=오차의 평균 을 계산한 것이다.
베이즈 에러는 모든 기계 학습에서 가능한 이론적 최소 오차로, 어떤 알고리즘이나 모델이 베이즈 에러에 비해 얼마나 오차가 큰지를 비교하는 경우가 많다.
ex) 어떤 동전에 실험을 통해 앞면과 뒷면이 4:1의 확률로 나타남을 알아내었다.
(P(앞면) = 0.75, P(뒷면) = 0.25) / 앞면을 1로, 뒷면을 2로 정의
이때 동전을 한 번 던져 나오는 면을 예측해보면 앞면이 나올 확률이 항상 높기 때문에, 동전을 던지면 무조건 앞면으로 예측한다. 이때 발생하는 에러는(즉, 앞이라고 예측하였는데 뒷면이 나오는 상황)
bayes error = (0.25) * 1 = 0.25 이다.
(1인 이유는 항상 p(x)가 일어나기 때문이다. 만약 동전을 50% 확률로 던진다면 0.5를 곱해주어야 한다.)
'Research > Machine Learning' 카테고리의 다른 글
Digital Signal Processing, Parallelization (0) | 2014.11.17 |
---|---|
Kernel Density Estimation, Gaussian Mixture Model (0) | 2014.10.30 |
Polynomial Regression, Non-Linear Features (0) | 2014.10.03 |
Information Theory, Distance Metric on PDF (2) | 2014.09.29 |
Generative Model, Discriminant Model (0) | 2014.08.12 |
댓글