Eigenvalue, Eigenvector, PCA, SVD
# 아이겐 벡터와 아이겐 벨류의 의미 : 3*3으로된 행렬에 일련의 값들이 들어있다고 하자. 이 값들은 3차원 공간상에 점들로 표현될 수 있다. 그런데 만약 이 점들에 전부 x,y위에만 존재한다면, 이는 사실 x,y 2개의 차원만으로 표현될 수 있는 데이터였던 것이다. 이러한 n*n행렬에서의 핵심 차원을 알아내는 것이 바로 아이겐 벡터와 아이겐 벨류이다. # 정의 : 임의의 정방행렬(n*n) A에대해, AB=λB를 만족하는 (단, B는 0이 아닌 벡터) B를 eigenvector, 상수 λ를 eigenvalue 라고 한다. - 직관적 해석 : A라는 행렬에 벡터 B를 곱하여 선형 변환(프로젝션)시켰을 때, B 벡터가 그리는 직선(상수 λ가 미지수이므로)위에 행렬 A가 놓여지는 것을 의미한다. 즉, 임의의..
2014. 7. 18.
ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도
ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능) - TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) - FPR : False Positive Rate (=1-특이도, false accept ..
2014. 6. 11.
Regression 모델의 성능 평가, 회귀분석 결과 확인
# 회기 분석 결과상관계수(Correlation coefficient): 두 변수간의 연관된 정도를 나타냄. # 모델의 성능 평가다음 둘다 오차율을 나타내는 값임.(둘다 오차의 정도에대한 값이므로, 당연히 0에 가까울수록 좋음)Root Mean Square Error (RMSE) : 편차 제곱의 평균에 루트를 씌운 값.이걸 기준으로 성능을 올리면, 이는 표준편차를 기준으로 하기때문에, 큰 에러를 최대한 줄이는 방향으로 학습을 함.-> ex) 정답이 9인 경우 9, 9, 6, 9 보다 8, 8, 8 ,8 를 좋게 평가 Mean absolute error (MAE) : 편차에 절대값을 씌운것의 평균단순 편차의 절대값의 평균임. 그러므로 RMSE와 달리 작은 에러에 더 민감함.-> ex) 정답이 9인 경우 8..
2014. 5. 16.