Variance: 편차제곱의 평균 = X제곱의 평균 - X평균의 제곱
즉 편차의 정도를 제곱내서 측정하는 것.(제곱을 안하면 부호가 양수와 음수가 있어서 평균내면 항상 0이 됨)
Covariance: X편차 * Y편차 = X*Y의 평균 - X평균*Y평균
두 편차 random variable가 같이 변하는 방향성이 있는지 측정
또는 N차원 공간 상에서, 각각의 차원들이 서로 상관성을 갖는지를 측정하는 것임. 즉 어떤 dim과 어떤 dim은 서로 100%의 상관성을 갖는다라고 하면, 이 dim은 하나로 합쳐질 수 있는 것임.
왜도 (Skewness) : 이 분포가, 좌우로 얼마나 치우쳐져 있는가를 나타낸다.
첨도 (Kurtosis) : 이 분포가 얼마나 뾰족한가를 나타낸다. (컬토시스 -> 칼의 뾰족함)
공분산 (Covariance) : 두 변수간에 얼마나 큰 상관성이 있는지를 나타낸다.
(값이 0 이면 상관관계가 없음(독립). 값이 양수면 비례, 음수면 반비례.)
-> 편차 곱의 평균
이를 계산하기 위해서는, 두 변수가 서로 같은 데이터 개수를 가지며, 데이터들이 일괄적으로 추출되어야한다.
보통 같은 개수를 갖는 데이터(변수 n개)들을 정방행렬 (n,n)에 넣고 이 행렬을 평균이 0이 되도록 전처리해준뒤 계산한다.
수식으로 정리하면, 평균이 0인 행렬 Z에 대해서 행렬 내부의 변수들간의 공분산 계산하고 이를 행렬이 곱으로 표현하면 이 된다.
http://www.ktword.co.kr/abbr_view.php?m_temp1=2890&m_search=C
http://blog.naver.com/ikek21/220003173213
X와 Y의 데이터를 1칸씩 움직이면서, X와 Y의 편차를 계산한다. 그리고 이 편차를 곱한 것들을 전부 더해서 전체 개수로 나누어 평균을 낸다.
만약 두 데이터가 양의 상관관계가 있다면, X 편차가 음수일 때, Y 편차도 음수일 것이다. 또한 X편차가 양수일 때에는 Y 편차도 양수일 것이다. 따라서 Cov(X,Y)는 양수값을 갖는다.(반대로 음이 상관관계라면, X편차와 Y편차의 부호가 서로 반대일 것이므로 Cov(X,Y)는 음수값을 갖는다.)
두 데이터가 독립으로, 전혀 상관관계가 없다면 X 편차와 Y편차의 부호가 무작위적으로 나타날 것이고, 이 경우 평균을 내면 0 에 수렴할 것이다. 따라서 Cov(X,Y)가 0이면, 둘은 독립이다.
또한 Cov(X,X) = Cov(X)로, 이것은 X 데이터 자체의 공분산을 의미한다.
만일 X가 1차원 행렬이라면 (1,1) 공분산 행렬이 나오므로 그냥 분산을 계산한 것이고, X가 2차원 이상의 행렬이면 각 변수들간의 공분산을 구한 것이 된다.
상관 계수 : Pearson correlation coefficient(= correlation), 피어슨 계수, 짧게 줄여 상관 계수(correlation coefficient)라고도 함. 공분산과 목적은 유사하다. 그러나 공분산은 범위가 [-∞~∞]이라 일부 상황에서 적용이 힘들다. 그래서 범위가 [-1~1]사이인 상관 계수가 쓰인다.
상관 계수는 공분산에 각 X와 Y의 표준편차의 곱을 나누어주어 표준화시킨 것이다.
또, 상관 계수가 음수값을 갖기에 비교가 힘든 경우가 있어 상관 계수를 제곱해서 쓰는 경우도 많다. 이경우 두변랑의 상관 관계가 크면 1에 가깝고, 없으면 0에 가까워진다.
(지식인에 설명이 아주 잘되어 있음)
'Research' 카테고리의 다른 글
K-Nearest Neighbors, IB1, IBk (0) | 2014.06.04 |
---|
댓글