본문 바로가기
Research/Machine Learning

평균과 분산 통계적 검정, T 검정, 카이스퀘어 검정

by IMCOMKING 2014. 12. 15.


- T 분포 : 정규분포*자유도/카이스퀘어분포

t분포는 데이터의 개수에 따라서 점점 뾰족하게 모양이 변하는 분포이다. 따라서 t분포를 이용한 검정 즉, t검정을 하면 그냥 정규분포로한 일반 검정보다 데이터의 샘플수가 적을때 보다 아웃라이어에 강한 특징이 있다.

그대신 데이터가 30이상이 되면 가우시안과 분산이 거의 같아지므로 t분포를 쓰는 의미가 없다.

보통 데이터의 개수가 적은 경우, 즉 데이터 1개짜리의 자유도가 작은 경우에 t분포를 사용한다.
(t분포는 자유도가 작으면 양끝이 두툼해지는 모양이되어 아웃라이어에대해 robust해진다.)

http://blog.naver.com/gracestock_1/120202114986


카이스퀘어 분포 : 표준정규분포를 제곱한 데이터의 분포

통계에서 쓰는 자유도는 모두 같은걸 의미한다.

카이스퀘어는 오직 자유도에의해 분포의 모양이 결정된다.자유도가 커질수록 오른쪽으로 중심이이동.

카이스퀘어의 자유도 = 표준정규분포에서 뽑은 샘플의 개수


그래서 자유도1짜리 카이스퀘어 분포는 그냥 표준정규분포1개를 제곱한 분포임


이씨 여러개의 표준정규분포의 제곱의 합이 아니라, 한개의 표준정규분포에서 뽑은 n개의 샘플들을 카이제곱의 합으로 구한 값을 검정할 때 쓰는 분포임


카이제곱의 자유도가 카이제곱의 평균과 같은 이유는 간단하다.

표준정규분포의 평균은 0이다. 그런데 이걸 제곱하면 음수가 전부 양수가되어 평균이 1이 될것같다..

그래서 카이제곱 자유도 1짜리의 평균은 1이다.

따라서 n개의 샘플을 뽑으면 당연히 평균은 n이되고, 자유도도 n인것이다.


자유도가 커질수록 중심극한정리에 의해 정규분포모양이됨


카이스퀘어 예)

표준정규분포에서 3개의 데이터를 뽑았다. 이 데이터들을 제곱한다음 더한 값이 9이상일 확률은?


강의 : http://onlinestatbook.com/2/chi_square/distribution.html


-----

Training 과 Test set이 같은 모집단에서 나온 것인지 가설을 검정.


1. Tr과 Te의 같은 feature들에 대해서 T-test 로 각 feature의 평균을 비교, Var-Test로 각 feature의 분산을 비교한다.

이때 나온 값은 p-value라고 하며, 이것은 두 평균,분산이 같을 확률을 의미한다.

평균은 1차원 값이므로 정규분포나 T분포로 가설 검정

분산은 2차원 값이므로 F검정이나 카이스퀘어? 가설로 검정


2. 각 feature에 대해 평균, 분산의 p-value들을 구한다음 이것을 어떻게 종합하여 전체 데이터 셋의 같을 확률을 분석해야한다.

이때 단순히 p-value들을 평균 내는 것은 너무 단순함. 그래서 평균낸것을 1/n하는 것이 미니멈. 근데 이건 너무 낮음

따라서 그 중간 수준의 종합 평균 방법인 FDR을 사용함.

FDR은 간단히 p-value들을 적절한 방법을 평균낸 것이라고 보면 됨.



'Research > Machine Learning' 카테고리의 다른 글

Bayesian Network  (1) 2015.03.10
Ada boost  (1) 2014.12.16
Digital Signal Processing, Parallelization  (0) 2014.11.17
Kernel Density Estimation, Gaussian Mixture Model  (0) 2014.10.30
Bayes Error  (0) 2014.10.27

댓글