ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도
ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능) - TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) - FPR : False Positive Rate (=1-특이도, false accept ..
2014. 6. 11.
K-Nearest Neighbors, IB1, IBk
K-nearest neighbors : Machine Learning 중 가장 간단한 방법, base line으로도 쓰이며 유클리드 거리에 기반하여 가장 가까운 k개의 instance를 같은 클래스로 묶어서 분류하거나 클러스터링하는 알고리즘이다.단점-> 계산량이많고, 메모리가 많이 필요하다. 노이즈에 약하다, 고차원에서 성능이 좋지 않다.(고차원에서 유클리드 거리를 측정하면, 매우 값이 크게 나오기 때문에 nearest neighbor라고 하기 어렵다는 것 같음.)장점-> 정확도가 높다. ex) 테스트케이스가 주어짐. K=1이라면, 가장 근접한 1개의 점을 찾아서, 그것과 동일한 레이블을 다는 것.(보로노이 테셀레이션) K=10이라면, 가장 근접한 10개의 점을 찾아서, 그중에서 가장 많은 것의 레이블을..
2014. 6. 4.
Regression 모델의 성능 평가, 회귀분석 결과 확인
# 회기 분석 결과상관계수(Correlation coefficient): 두 변수간의 연관된 정도를 나타냄. # 모델의 성능 평가다음 둘다 오차율을 나타내는 값임.(둘다 오차의 정도에대한 값이므로, 당연히 0에 가까울수록 좋음)Root Mean Square Error (RMSE) : 편차 제곱의 평균에 루트를 씌운 값.이걸 기준으로 성능을 올리면, 이는 표준편차를 기준으로 하기때문에, 큰 에러를 최대한 줄이는 방향으로 학습을 함.-> ex) 정답이 9인 경우 9, 9, 6, 9 보다 8, 8, 8 ,8 를 좋게 평가 Mean absolute error (MAE) : 편차에 절대값을 씌운것의 평균단순 편차의 절대값의 평균임. 그러므로 RMSE와 달리 작은 에러에 더 민감함.-> ex) 정답이 9인 경우 8..
2014. 5. 16.