통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.

 

 

 

1. 정의

 

 먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 $Q$가 따르는 확률분포이다.

$$Q = \sum_{i=1}^k Z_{i}^2$$

 $Z$는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 $Z^2$을 $k$개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. $Q$가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.

$$Q \sim \chi^2 (k) \quad or \quad Q \sim \chi_{k}^2$$

여기서 $k$는 더해지는 $Z_{i}^2$의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 $Z^2$의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.

$$f(x; k) = \begin{cases} \frac{x^{\frac{k}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}, & x>0 \\ 0, & otherwise \end{cases}$$

 확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.

 아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.

$$ E(Q) = k $$

$$ V(Q) = 2k $$

 

 

 

2. 그래프

 

 자유도 $k$가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

 그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 $k = 1$인 경우를 생각해보자. 즉, $$ Q = Z^2, \quad Q \sim \chi^2 (1)$$

 이 경우 표준정규분포의 확률밀도함수(왼쪽)와 $Q$의 확률밀도함수(오른쪽)은 아래와 같다.

 오른쪽 $Q$의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 $Q=Z^2$이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 $Q$의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 $Q$의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. $k=2$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2, \quad Q \sim \chi^2 (2) $$

$k=1$일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 $Z_{1}^2$과 $Z_{2}^2$이 더해지므로써 나타나는 당연한 현상이다($k=1$일 때 $Z_{1}^2$에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 $k=5$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2 + Z_{3}^2 + Z_{4}^2 + Z_{5}^2, \quad Q \sim \chi^2 (5) $$

 더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 $k$가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.

 

 

 

3. 성질

 

 카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 $Q$는 카이제곱분포를 따른다고 하였다.

$$ Q = \sum_{i=1}^n Z_{i}^2  \Rightarrow Q \sim \chi_{n}^2 $$

 그러면 카이제곱분포를 따르는 $Q$와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 $Q_{1}, Q_{2}, Q_{3}, \ldots, Q_{p}$의 자유도가 각각 $k_{1}, k_{2}, k_{3}, \ldots k_{p}$라고 했을 때, 아래와 같이 정의된 확률변수 $Y$는 어떤 분포를 따를까?

$$ Y = \sum_{i=1}^p Q_{i} $$

 당연하게도, 각 $Q$들이 $Z^2$들의 합이니까, $Q$들의 합도 $Z^2$의 합이 된다. 따라서,

$$ Y \sim \chi_{k_{1} + k_{2} + k_{3} + \ldots + k_{p}}^2 $$

 이것을 카이제곱분포의 additivity theorem이라고 한다.

 

 

 

4. 표준분산과의 관계

 

 모집단이 정규분포 $\mathcal{N}(\mu, \sigma^2)$을 따르고 여기서 뽑은 샘플을 $X_{1}, X_{2}, X_{3}, \ldots, X_{n}$이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$

 아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.

$$ \begin{matrix} Q &=& \sum_{i=1}^n Z_{i}^2 \\ &=& \sum_{i=1}^n (\frac{X_{i} - \mu}{\sigma})^2\end{matrix} $$

여기서 분모인 $\sigma^2$을 잠깐 떼어 놓고 보면,

$$ \begin{matrix} \sum_{i=1}^n (X_{i} - \mu)^2  &=& \sum_{i=1}^n [(X_{i} - \bar{X}) + (\bar{X} - \mu)]^2 \\ &=& \sum_{i=1}^n (X_{i} - \bar{X})^2 + \sum_{i=1}^n (\bar{X} - \mu)^2 + 2(\bar{X} - \mu)\sum_{i=1}^n(X_{i} - \bar{X}) \\ &=& \sum_{i=1}^n(X_{i} - \bar{X})^2 + n(\bar{X} - \mu)^2 \end{matrix} $$

따라서,

$$ \begin{matrix} \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} &=& \frac{\sum_{i=1}^n (X_{i} - \bar{X})^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}} \\ &=& \frac{(n-1)S^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}}\end{matrix}$$

여기서 좌항은 카이제곱분포 정의에 의해

$$ \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} \sim \chi_{n}^2 $$

이고, 중심극한정리에 의해 $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$이다. 따라서, 표준화한 $\frac{(\bar{X} - \mu)^2}{\sigma^2} \sim \chi_{1}^2$. 그러므로, 카이제곱분포의 additivity theorem에 의해,

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$ 가 성립한다. 

 

 

+ Recent posts