통계학에서 중요하게 다뤄지는 중심극한정리의 개념에 대해 간단하게 정리하고자 한다. 나는 수학을 못하기 때문에 해봤자 와 닿지도 않는 수학적 증명과 수식은 제끼기로 했다. 위대하신 수학자님들이 잘 해놓으셨다고 하니 그냥 믿기로 하고, 실험을 통해 몸으로 느껴보기로 한다. 여러 자료를 읽어본 결과 중심극한 정리는 한 마디로 다음과 같이 정리할 수 있을 것 같다.

 

"모집단에서 크기 30 이상의 표본들을 복원추출하면, 모집단의 분포와 상관없이 이 표본들의 평균의 분포가 근사적으로 정규분포를 이루며, 이 때의 평균은 모집단의 평균과 같고 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같다."

 

 여기서 왜 하필 30인지는 모르겠는데, 구글에서 검색해보면 그냥 통계학계에서의 관행이라는 것 같다.

 

 실제로 이 사실이 맞는지 확인하기 위해, 다음과 같이 간단한 실험을 한다.

1) 모집단의 분포를 정한다.

2) 모집단에서 크기 30의 표본을 복원추출한다.

3) 추출된 표본들의 평균의 분포가 정규분포와 가까운지 본다.

 

 모집단의 확률 분포는 Uniform, Norm, Gamma, Exponential, Poisson, Binom, Bernoulli로 해보기로 했다. 확률분포들은 이 링크를 참고하여 만들었다. 돌려본 결과는 아래와 같다. 왼쪽 그림은 해당 확률 분포의 확률밀도(질량)함수이고, 오른쪽이 표본평균의 분포이다.

 

 오른쪽 그림들에서 표본평균의 분포를 보면 정규분포와 비슷하게 보인다. 표본의 개수를 늘리면 점점 더 정규분포와 가까워진다. 

 그럼 이제 직관적인 이해를 한 번 해보자. 어떤 모집단이 있을 때, 그 모집단은 어떤 평균치를 가지고 있을 것이다. 이 모집단에서 랜덤하게 표본을 하나 샘플링하면, 이 표본의 분포는 모집단에서 어떤 원소들이 선택되느냐에 따라서 모집단과 비슷할 수도 있고, 아닐 수도 있다. 그리고 분포가 비슷하면 평균도 비슷할 것이고, 안 비슷하면 평균도 안 비슷할것이다. 그러나 아무래도 모집단의 분포를 고려하면 뽑힐 확률이 큰, 그러니까 다르게 표현하면 확률밀도(질량)함수의 함숫값이 큰 원소들이 더 많이 뽑힐 것이고, 그런 원소들의 평균은 모집단의 평균과 가까울 가능성이 클 것 같다. 따라서 복원추출을 하면, 모집단의 평균과 가까운 평균을 갖는 표본들이 많이 뽑힐 것이고 따라서 표본평균의 분포가 정규분포를 따르는 것이 자연스러워 보인다.

 그런데 모집단의 평균과 표본평균의 평균이 같아지는 것은 직관적으로 쉽게 이해가 되는데, 표본분산은 모분산을 표본의 크기로 나누어주는 것은 어떻게 이해해야 할까. 분산, 또는 표준편차는 평균으로부터 얼마나 퍼져 있는지를 나타낸다. 표본분산 = 모분산/표본의 크기 라는 것은 일단 표본분산이 모분산보다는 작다는 것이고 즉, 평균에 더 몰려있다는 뜻이고 이러한 경향은 표본의 크기가 클 수록 커진다는 것이다. 왜 그럴까? 한 번 상상을 해보자. 일단 모집단이 정규분포를 따르고 표본의 크기가 1인 경우를 가정해보자. 표본의 크기가 1이기 때문에 표본평균은 그냥 그 원소의 값이 될 것이고 그러면 표본평균의 분산이 결국 모집단에서 뽑은 원소들의 분산이 될 것이니까, 표본의 개수가 커질수록 표본평균의 분산은 모집단의 분산과 같아질 것임을 알 수 있다. 여기서 표본의 크기를 1에서 더 늘려본다고 상상해보자. 한 가지 기억할 사실은 정규분포에서 표본을 추출해서 그 원소들을 살펴보면, 모집단의 평균과 가까운 원소들이 평균과 먼 원소들보다 많을 것이라는 것이다. 따라서 표본의 크기를 늘려 한 번에 여러 개의 원소를 추출해서 평균을 내면, 평균에서 머~얼리 떨어진 원소보다는 평균에 가깝게 될 것이다. 그렇기 때문에 표본평균의 분포는 모집단보다 더 평균에 밀집된 형태를 가질 것이고, 따라서 분산이 더 작아질 수 밖에 없는 것이다.

 이와 같은 맥락에서 또 한 가지 생각해 볼 것은, 표본의 크기가 커질수록 표본의 평균의 모집단의 평균과 같을 확률이 높아진다는 것이다. 즉, 모집단에서 어떤 표본을 뽑아서 평균을 구했을 때, 표본의 크기가 크면 클수록 모집단의 평균과 가까울 것이라는 것이 자연스레 이해가 된다. 모집단에서 표본을 뽑아 평균을 구하는 행위를 표본평균을 하나 샘플링하는 것과 같다고 보는 관점에서, 표본의 크기가 클수록 평균 근처의 값이 더 많이 샘플링되니까 표본평균의 분포의 분산이 더 작아지는 것이다.

 

 직관적으로는 이렇고, 수학적인 증명과정은 여기여기서 찾아볼 수 있다.

 

 

 여기까지 중심극한정리가 어떤 것인지 알아보았다. 그런데 아직 남은 의문. 이게 왜 그렇게 중요한 걸까? 이건 귀찮으니 다음에 알아보도록 한다.

 

+ Recent posts