표본의 분산을 구할 때 N이 아닌 N-1로 나누는 이유는 다음에서 매우 직관적으로 설명되어 있다.
(정확한 이유는 자유도가 N-1이기 때문이다.)


- 출처 지식in

표본분산을 구할때 n-1로 나누는 이유를 질문하신게 맞지요?

모집단의 분산을 구할때는 n으로 나눠주지만,

표본분산을 구할때는 자유도로 나눠줍니다. 자유도란 말그대로

자유롭게 값을 가질수 있는 수인데요~예를들어서 설명해 드리겠습니다.

 

A, B, C 세 사람이 있습니다.

세 사람의 키의 평균은 180이라는 것을 알고 있습니다.

그리고 A의 키는 170, B의 키는 190이라는 것을 알고있다면

C의 키는 몇일까요?평균이 180이었으므로 당연 180이 되겠지요?

이렇게 평균의 값을 알고있게 됨으로써 C의 키는 180으로 고정됩니다.

다시말해 A와 B의 키가 어떻게 되든지 그 값만 알고 있다면 C의 키는 자연스럽게

알게 됩니다.

 

위의 경우에서 평균을 알고 있으므로 두명은 자유로운 값의 키를 가질수 있지만 한명은

그 두명에 의해서 키가 고정되버려 자유로운 값을 가질 수 없지요?

따라서 자유도는 (n-1)=3-1=2 가 됩니다.

 

다시 표본분산으로 돌아오면,

표본분산을 구하기 위해서는 평균을 알아야하겠지요?

따라서 평균을 알고있는 상태이기 때문에 자유롭게 가질수 있는 값은

n-1이 되버린겁니다~


-----

정리하자면, 표본의 분산을 구하기 위해서는 먼저 표본의 평균을 구해야만 한다. 
그런데 평균을 구하게 되면, 임의의 데이터 하나는 나머지 데이터의 값들과 아까 구한 평균에 의해 그 값이 고정되어 버린다. 

즉 어떤 데이터 1개는 평균을 구하면서 값이 고정되어, 분산을 가질 수 없다는 것이다.(=얘는 자유도가 없다.)

그러므로 표본의 분산을 구할 때는 이 데이터를 뺀 N-1로 나누어야 한다.


이러한 현상을 bias 되었다고 한다. 물론 이것은 표본의 크기 N이 충분히 크면 별 문제 없으나, 표본은 보통 모집단에 비해 굉장히 작은 크기로 사용된다. 그러므로 보통 N-1로 나누어 주면 좀 더 정확하다.


http://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1113&docId=108333180&qb=bi0x66GcIOuCmOuIhOuKlOydtOycoA==&enc=utf8&section=kin&rank=2&search_sort=0&spq=0&pid=R%2BxqrlpySo8ssZD%2B7AssssssssN-402436&sid=U@xqrApyVosAAAHuHLo



by 곽동현 이스텔리앙 2014.08.14 16:55