통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.
1. 정의
먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 Q가 따르는 확률분포이다.
Q=k∑i=1Z2i
Z는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 Z2을 k개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. Q가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.
Q∼χ2(k)orQ∼χ2k
여기서 k는 더해지는 Z2i의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 Z2의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.
f(x;k)={xk2−1e−x22k2Γ(k2),x>00,otherwise
확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.
아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.
E(Q)=k
V(Q)=2k
2. 그래프
자유도 k가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 k=1인 경우를 생각해보자. 즉, Q=Z2,Q∼χ2(1)
이 경우 표준정규분포의 확률밀도함수(왼쪽)와 Q의 확률밀도함수(오른쪽)은 아래와 같다.

오른쪽 Q의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 Q=Z2이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 Q의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 Q의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. k=2인 경우도 보자.
Q=Z21+Z22,Q∼χ2(2)

k=1일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 Z21과 Z22이 더해지므로써 나타나는 당연한 현상이다(k=1일 때 Z21에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 k=5인 경우도 보자.
Q=Z21+Z22+Z23+Z24+Z25,Q∼χ2(5)

더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 k가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.
3. 성질
카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 Q는 카이제곱분포를 따른다고 하였다.
Q=n∑i=1Z2i⇒Q∼χ2n
그러면 카이제곱분포를 따르는 Q와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 Q1,Q2,Q3,…,Qp의 자유도가 각각 k1,k2,k3,…kp라고 했을 때, 아래와 같이 정의된 확률변수 Y는 어떤 분포를 따를까?
Y=p∑i=1Qi
당연하게도, 각 Q들이 Z2들의 합이니까, Q들의 합도 Z2의 합이 된다. 따라서,
Y∼χ2k1+k2+k3+…+kp
이것을 카이제곱분포의 additivity theorem이라고 한다.
4. 표준분산과의 관계
모집단이 정규분포 N(μ,σ2)을 따르고 여기서 뽑은 샘플을 X1,X2,X3,…,Xn이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.
(n−1)s2σ2∼χ2n−1
아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.
Q=∑ni=1Z2i=∑ni=1(Xi−μσ)2
여기서 분모인 σ2을 잠깐 떼어 놓고 보면,
∑ni=1(Xi−μ)2=∑ni=1[(Xi−ˉX)+(ˉX−μ)]2=∑ni=1(Xi−ˉX)2+∑ni=1(ˉX−μ)2+2(ˉX−μ)∑ni=1(Xi−ˉX)=∑ni=1(Xi−ˉX)2+n(ˉX−μ)2
따라서,
∑ni=1(Xi−μ)2σ2=∑ni=1(Xi−ˉX)2σ2+(ˉX−μ)2σ2n=(n−1)S2σ2+(ˉX−μ)2σ2n
여기서 좌항은 카이제곱분포 정의에 의해
∑ni=1(Xi−μ)2σ2∼χ2n
이고, 중심극한정리에 의해 ˉX∼N(μ,σ2n)이다. 따라서, 표준화한 (ˉX−μ)2σ2∼χ21. 그러므로, 카이제곱분포의 additivity theorem에 의해,
(n−1)s2σ2∼χ2n−1 가 성립한다.
'Study > 통계' 카테고리의 다른 글
t-분포 (Student's t-distribution) (0) | 2020.03.24 |
---|---|
불편추정량(Unbiased Estimate) - 표본분산은 왜 n-1로 나누나? (3) | 2020.03.19 |
통계적 추론 - 가설검정(Hypothesis test) - 2 (0) | 2020.03.12 |
통계적 추론 - 가설검정(Hypothesis Test) - 1 (0) | 2020.03.10 |
통계적 추론 - 통계적 추정(Statistical Estimation) (0) | 2020.03.05 |