# 결정계수 = Coefficient of Determination = R^2 = R squared
- Regression model의 성능을 mean value로 예측하는 모델과 상대적으로 비교하여 측정하기 위한 척도.
(RMSE나 MAE는 데이터의 scale에 따라서 값이 천차만별이기 때문에, 값만 보고 바로 판단하기가 어려움.)

( 일반적으로 0<= R^2 <= 1 , 0이면 0점, 1이면 100점)

이때 그냥 mean value를 예측하는 regression model을 쓴다면, 우측항이 1이 되므로 R^2 = 0이 된다.

또한 R square값이 1이면, "오차^2 = 0인 상황이므로" training error가 0인 것을 의미한다.

만약 R^2가 0보다 작은 음수를 내는 경우는,  편차^2보다 오차^2이 더 큰 상황이다. 즉, 이는 regression model이 그냥 mean value로 예측하는 모델보다 예측성능이 더 낮은 경우를 의미한다.


* 즉 R^2는 mean value로 예측하는 Zero-R 모델에 비해, regression model의 성능이 얼마나 더 좋은가를 나타내는 것이다.
(이때 오차는 training data에 대해서 계산할 수도 있고, validation data에 대해서도 계산할 수 있는 듯)

* 이 R^2의 단점은 데이터가 매우 단순하여 평균을 예측하는 것만으로도 오차가 충분히 작을 때 부정확한 측정을 할 수 있다는 점일 것이다. 이 경우 편차의 합이 매우 작아지고, 오차도 동시에 매우 작아지게 된다. 그러면 경우에 따라서 우측항이 아주 큰 값을 낼 수 있어 R^2가 0 또는 0 이하가 될 수 있다.
(그러나 보통 이런 데이터에는 예측모델을 만들지 않으므로, 일반적으로는 문제가 없어보인다.)



- 이 R^2값을 계산하는 또다른 정의는 다음과 같다.


이 경우 R^2의 값은 (예측값에 대한 분산/실제값에 대한 분산)이라고 볼 수 있다.

그런데 보다 직관적인 이해는 처음 위에서 정의한 개념이 보다 잘 되는 것 같다.


https://en.wikipedia.org/wiki/Coefficient_of_determination

by 곽동현 이스텔리앙 2017.05.22 14:29