본문 바로가기

Research/Machine Learning71

Markov Chain, Markov Matrix Markov Chain(MC) : 메모리를 갖지않는, 즉 직전 상태에의해서만 다음상태가 결정되는 이산적 시간에따른 확률적인 변화 모델 그냥 Markov Chain 은 Markov Matrix를 적용하는 방법을 의미한다고 이해할 것. Markov Matrix가 훨씬 직관적임 (MC의 그래프는 당연히 Markov Matrix 와 1:1 대응되어 표현가능함.) Markov Matrix : 그냥 Markov Chain 을 행렬로 표현 한 것. Markov Chain 은 오히려 Markov Matrix로 이해하는게 더 적합해보임. 단순히 Ut+1 = A*Ut 항 에서의 행렬 A가 바로 Markov Matrix임. (단, row의 합은 1이고, 각 성분은 0보다 같거나 커서 row stochastic matrix .. 2014. 6. 24.
Gaussian Distribution, Gaussian Mixture Model Gaussian Distribution : 다른말로 정규 분포라고도 부른다.(자연계에서 많은 현상이 이 분포를 따르기 때문)가우시안 분포의 수식 유도는 링크된 다른 블로그에서 잘 설명되어 있다.여기서는 직관적인 이해를 시도해보겠다. 우선 정규분포의 모형을 보면 가운데를 중심으로 좌우가 대칭이다. 따라서 (x-u)^2 의 의미가 여기에 있다. 좌우가 대칭되도록 하기 위해 x의 제곱을 한 뒤, 평균 값인 u를 중심으로하게끔 평행이동 시킨 것이다.그 앞에 있는 -(1/2sigma^2)은 x^2식의 계수이다. 일단 부호가 음수인 이유는, 종모양으로 바꾸기 위해서 y축 대칭을 시킨 것이다. 그러면 1/2sigma^2의 값은 y=-ax^2 에서 a에 해당하는 것이 되고, 이것은 y=-ax^2 그래프의 좌우 크기를 .. 2014. 6. 11.
GMM, K-means, EM, Centroid 케이민즈 - 케이니얼니스트의 클러스터링 버젼k means랑 gmm이랑 거의 비슷함. 차이는 가우시안분포에대한 가정이 있는가 없는가 / 둘다 클러스터의 개수를 지정하고, EM 식으로 둘다 이터레이티브하게 클러스터링을 함. Centroid : 무게 중심, 질량 중심 (정확히는 질량 중심인데 해석하는데 큰차이는 없어 보임.) K-means : K개의 클러스터를 묶어내는 것 (K-means가 EM(Expectation Maximization)의 전형적인 예라고 함.)Step 1) K개 만큼의 랜덤한 점을 정한다. Step 2) 각 클러스터의 점들을 계산해서 각각의 Centroid 를 구한다. Step 3) 입력받은 X1에대해 가장 가까운 Centroid 쪽의 클러스터에 할당한다. -> 다시 Step 2)로 돌아.. 2014. 6. 11.
Nominal, Ordinal, Interval, Ratio Nominal : 각 데이터마다 Label이 정해져 있는 것 (Name) / Classification 문제ex) 어떤 (R,G,B) 값으로 구성된 색상을 보고, 이건 무슨색이다라고 이름을 맞추는 것 Ordinal : 어떤 데이터를 보고 랭킹을 정하는 것 (Order) / Regression 문제, 그러나 각 랭킹 사이의 거리가 일정하지 않을 수 있음. (즉 1등하고 2등하고의 실제 맞은 점수 차이는 엄청 작을 수도 있다는 것) ex) 영화 10개를 보고, 1~10등 까지 정하는 것. (이 때 1등과 2등은 근소한 차이일 수 있음) Interval : 어떤 데이터를 보고 자유롭게 평점을 정하는 것 / Regression 문제. Ordinal에서 보다 거리 정보를 고려한 것 ex) 영화를 보고 0.0 ~ .. 2014. 6. 11.
거리, Distance # 유클리드 거리(Euclidean Distance): 유클리드 공간에서의 기하학적 최단 거리(직선 거리)2차원상에서보면, 두점사이의 직선거리(고차원 상에서도 그릴 수는 없지만, 직선거리 or 최단라고 정의는 가능 할듯.) # 마할라노비스 거리(Mahalanobis Distance): 정규분포에서 특정 값 X가 얼마나 평균에서 멀리있는지를 나타내는 거리관측된 X가 , 얼마나 일어나기 힘든 일인지 즉 평균과 표준편차를 고려했을때 얼마나 중심에서 멀리 떨어져 있는가를 구하는 값. 주로 관측된 데이터의 신뢰성? 또는 적합성을 판단하는데 쓰인다고함.(에러인지를 판단한다)ex) 평균이 20, 표준편차가 3인 분포에서 26의 데이터가 관측 -> 이때 26의 마할라노비스 거리는 (26-20)^2/3 = 12가 됨. .. 2014. 6. 11.
ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도 ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능)- TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함)- FPR : False Positive Rate (=1-특이도, false accept ra.. 2014. 6. 11.
조건부 독립과 응용 독립 (Independence) : P(A,B) = P(A)*P(B), A⊥B 으로 표기 우리가 일반적으로 말하는 독립은 사실 무조건부 독립이라고 볼 수 있다. 즉, A와 B 사건은 어떠한 상황에서도 서로 독립이다. 그러나 이러한 예는 실제 세계에서는 생각보다는 별로 존재하지 않는다. 조건부 독립 (Conditional independence) : P(A,B|C) = P(A|C)*P(B|C) , (AㅛB)|C 으로 표기 조건부 독립. A와 B 사건은, C사건 하에서는 서로 독립이다. 줄여서 CI라고도 한다.(다른 D사건의 전제하에해서는 독립일 수도, 아닐 수도 있다.) 이때 그냥 A와B는 서로 독립이 아님. 왜냐하면 서로 C를 통한 연관성이 있기때문. 그러나 C가 일어난 상황에서는 A,B를 서로 독립이다.. 2014. 6. 6.
Overfitting, Underfitting, Cross-validation Overfitting (과적합) : training 데이터 셋에 대해서는 매우 높은 성능을 보이지만, 학습할 때 사용되지 않은 test 데이터 셋에 대해서는 정확도가 떨어지는 문제.Underfitting : training 데이터를 충분히 학습하지 못하여, test 데이터 뿐만 아니라, training 데이터에서 조차도 성능이 낮은 문제. K-Fold Cross-validation (교차검증, 교차타당화) : 전체 데이터 셋에서 training과 test 성능을 통계적으로 타당하게 측정하는 방법. 전체 데이터를 랜덤하게 나누어 K 등분을 하고, K개 중 1번 째 데이터를 test 셋으로, 나머지 전부를 training 셋으로 사용하여 학습한 모델의 성능을 측정한다. 그다음 다시 K개중 2번 째 데이터를 .. 2014. 6. 6.
Linearity, Non-Linearity, Linear Regression, Logistic Regression Linearity (선형성) : 두개의 벡터스페이스가 오직 덧셈의 관계로만 있는 것. 즉 독립변수X들간에 서로 상관관계가 없다.y=ax1+bx2+...+e (그래서 보통 y=XT+E 로 표현.) 여기서 XT는 x변수들의 매트릭스임. 정의: f(a*x1 + b*x2)=a*f(x1) +b*f(x2) 를 만족하는 함수 f를 선형함수라고 한다. Ex) 여러개의 x 변수들끼리의 관계가 선형적인 것 (덧셈 관계) (어떤 건물에 방이 10개있다면 전체 건물의 가격은 방1에서 방10까지의 가격의 합과 비례한다.(덧셈 관계)) - 선형함수: f(x+y) = f(x)+f(y) 를 만족하고, 동시에 f(ax) = af(x)를 만족하는 함수 f를 선형함수라고 한다. https://en.wikipedia.org/wiki/Lin.. 2014. 6. 6.
Parametric vs Non-parametric 차이점 구분하기"Unlike a parametric model, where the number of parameters stay fixed with respect to the size of the data.In nonparametric models, the number of parameters grows with the number of data points."https://stats.stackexchange.com/questions/46588/why-are-gaussian-process-models-called-non-parametric 즉, 파라미터의 개수를 정확히 셀 수 없는 경우에 논파라메트릭이라고 한다. # Parametric Model : 데이터가 특정한 모델을 따른다고 가정하고, 그것의 고정.. 2014. 6. 5.
Regression 모델의 성능 평가, 회귀분석 결과 확인 # 회기 분석 결과상관계수(Correlation coefficient): 두 변수간의 연관된 정도를 나타냄. # 모델의 성능 평가다음 둘다 오차율을 나타내는 값임.(둘다 오차의 정도에대한 값이므로, 당연히 0에 가까울수록 좋음)Root Mean Square Error (RMSE) : 편차 제곱의 평균에 루트를 씌운 값.이걸 기준으로 성능을 올리면, 이는 표준편차를 기준으로 하기때문에, 큰 에러를 최대한 줄이는 방향으로 학습을 함.-> ex) 정답이 9인 경우 9, 9, 6, 9 보다 8, 8, 8 ,8 를 좋게 평가 Mean absolute error (MAE) : 편차에 절대값을 씌운것의 평균단순 편차의 절대값의 평균임. 그러므로 RMSE와 달리 작은 에러에 더 민감함.-> ex) 정답이 9인 경우 8.. 2014. 5. 16.