통계를 공부하다 보니 굉장히 불편한 것을 하나 만나게 됐다.

 그것은 바로 표본에서 분산을 정의할 때 원래 알던 분산의 정의(편차의 제곱의 평균)가 아닌 다른 방식으로 정의한다는 것이다. 즉, 표본분산은 편차의 제곱을 표본의 크기로 나누는 것이 아니라, (표본이 크기-1)로 나누어 준다.

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\bar{X}) \quad (X)$$

$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_{i}-\bar{X}) \quad (O)$$

 

 이렇게 정의하게 된 연유를 좀 찾아 보니, 자유도랑도 연관이 있는 것 같고, 여러 가지 설명들이 있더라. 그런데 자유도로 설명하는 것은 아직 내 수준에서는 도저히 이해가 안되고, 그나마 수긍이 되는 설명으로 정리해본다.

 

 먼저 불편추정량(Unbiased Estimate)이라는 것에 대해서 알아야 한다. 모집단에서 표본을 뽑았을 때 우리는 표본평균이나 표본분산 등의 표본 통계량을 계산할 수 있다. 그런데 표본을 뽑아 통계량을 계산하는 행위 자체의 근본적인 목적이 바로 모집단의 모수를 추정하는 것이다. 이런 모수를 추정하기 위한 표본 통계량들을 추정량(Estimate)이라고 한다.

 

 아마도 추정량에 대한 개념이 없이 나보고 표본평균이나 표본분산을 계산하라고 했으면 원래 일반적인 평균과 분산의 개념으로 계산을 했을 것이다. 평균은 (모든 원소들의 합/집단의 크기), (분산은 편차의 제곱의 합/집단의 크기) 이런 식으로. 그런데 앞에서 말했듯이 표본을 추출하는 것 자체가 모집단의 모수를 추정하는 것이므로, 통계학에서는 표본 통계량을 '추정량으로써' 간주하여 다르게 정의하는 듯하다. 즉, 추정량의 역할을 해야하므로 기존의 알던 정의와는 다르게 정의될 수 있다는 것을 받아들여야 마음이 편해진다. 

 

 목적 자체가 모집단의 모수를 추정하는 것이므로, 추정량은 모집단의 모수를 잘 추정할 수 있도록 정의되는 것이 좋다. 좋은 추정량의 조건이 4가지는 아래와 같다.

1) 불편성 (Unbiasedness)

2) 효율성 (Efficiency)

3) 일치성 (Consistency)

4) 충분성 (Sufficiency)

 

 여기서 표본분산을 계산할 때 $n$이 아니라 $n-1$로 나누어주는 이유와 관련이 있는 것은 1) 불편성이다. 불편성이란, 편향이 없다(Unbiased)라는 뜻이다. 그렇다면 편향이 있다 or 없다 라는 것은 무엇을 의미하는 걸까? 이런 상황을 생각해보자. 모집단의 모수를 파악하기 위해 표본을 뽑아 표본 통계량을 추정량으로 이용하려고 한다. 이 때 표본평균을 이용한다고 해보자. 표본평균은 중심극한정리에 의해 모평균을 평균으로 하는 정규분포를 따른다. 그렇기 때문에 표본을 여러번 뽑아도 표본평균들은 모평균보다 크게만 나오거나 작게만 나오지 않고 크거나 작게 균등하게 나올 것이다. 즉 표본평균은 그 자체로 편향되지 않는 불편성을 지니고 있다. 따라서 우리가 일반적으로 생각하는 평균의 정의가 아래처럼 그대로 적용될 수 있다. 

$$ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_{i} $$

 즉, 이것을 통해 불편성이라는 것을 수학적으로 정의하자면, 표본의 추정량의 기댓값이 모수와 같아야 한다고 말할 수 있다(표본평균이 그런 것처럼). 따라서 표본평균은 불편추정량으로써 다음을 만족하는 것이다($\mu$는 모평균).

$$ E(\bar{X}) = \mu $$

 하지만 표본분산은 어떨까? 표본분산도 표본평균처럼 모분산을 기준으로 크거나 작거나 균등하게 나올까? 즉 불편추정량의 조건인 다음을 만족할까?

$$ E(s^2) = \sigma^2 $$

 이것을 확인해보기 위해, 우리가 원래 알고 있던 분산의 정의, '편차제곱의 합의 평균'으로 한 번 확인해보자. 모평균은 $\mu$, 모분산은 $\sigma^2$라고 할 때,

$$\begin{matrix} E(s^2) &=& E(\frac{1}{n}\sum_{i=1}^n (X_{i} - \bar{X})^2) \\ &=& \frac{1}{n}E(\sum_{i=1}^n (X_{i}^2 - 2X_{i}\bar{X} + \bar{X}^2) \\ &=& \frac{1}{n} E(\sum_{i=1}^n X_{i}^2 - 2\bar{X}\sum_{i=1}^n X_{i} + \sum_{i=1}^n \bar{X}^2) \\ &=& \frac{1}{n} E(\sum_{i=1}^n X_{i}^2 - 2n\bar{X}^2 + n\bar{X}^2 ) \\ &=& \frac{1}{n} \sum_{i=1}^n E(X_{i}^2) - E(\bar{X}^2) \\ &=& \frac{1}{n} \sum_{i=1}^n (\mu^2 + \sigma^2) - (\mu^2 + \frac{\sigma^2}{n}) \\ &=& \frac{n-1}{n}\sigma^2 \end{matrix}$$

 계산해보니 $E(s^2) = \sigma^2$를 만족하지 않는다. 즉, 표본분산은 불편성을 만족하는 불편 추정량이 아니다! 다시 말해 표본분산은 '좋은 추정량'이 아니다. 따라서 우리는 표본분산이 좋은 추정량이 되게 하기 위해 정의를 약간 수정해주어야 한다. 그것은 바로 분모 $n$을 $n-1$로 바꾸어주는 것이다. 바꾸고 위 계산과정을 따르면 정확하게 $\sigma^2$이 나온다. 이것이 바로 표본분산을 구할 때 $n$이 아닌 $n-1$로 나누어주는 이유가 되겠다.

 

 나는 사실 이것이 상당히 불편한데, 표본분산을 정의할 때 우리가 일반적으로 알고 있는 분산의 정의와 충돌하기 때문이다. 뭔가 표본분산을 '좋은 추정량'으로 만들어주기 위해서 억지로 다시 정의해준 느낌?.... 아무튼 그렇다고 한다.

 

 통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.

 

 

 

1. 정의

 

 먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 $Q$가 따르는 확률분포이다.

$$Q = \sum_{i=1}^k Z_{i}^2$$

 $Z$는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 $Z^2$을 $k$개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. $Q$가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.

$$Q \sim \chi^2 (k) \quad or \quad Q \sim \chi_{k}^2$$

여기서 $k$는 더해지는 $Z_{i}^2$의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 $Z^2$의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.

$$f(x; k) = \begin{cases} \frac{x^{\frac{k}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}, & x>0 \\ 0, & otherwise \end{cases}$$

 확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.

 아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.

$$ E(Q) = k $$

$$ V(Q) = 2k $$

 

 

 

2. 그래프

 

 자유도 $k$가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

 그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 $k = 1$인 경우를 생각해보자. 즉, $$ Q = Z^2, \quad Q \sim \chi^2 (1)$$

 이 경우 표준정규분포의 확률밀도함수(왼쪽)와 $Q$의 확률밀도함수(오른쪽)은 아래와 같다.

 오른쪽 $Q$의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 $Q=Z^2$이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 $Q$의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 $Q$의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. $k=2$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2, \quad Q \sim \chi^2 (2) $$

$k=1$일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 $Z_{1}^2$과 $Z_{2}^2$이 더해지므로써 나타나는 당연한 현상이다($k=1$일 때 $Z_{1}^2$에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 $k=5$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2 + Z_{3}^2 + Z_{4}^2 + Z_{5}^2, \quad Q \sim \chi^2 (5) $$

 더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 $k$가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.

 

 

 

3. 성질

 

 카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 $Q$는 카이제곱분포를 따른다고 하였다.

$$ Q = \sum_{i=1}^n Z_{i}^2  \Rightarrow Q \sim \chi_{n}^2 $$

 그러면 카이제곱분포를 따르는 $Q$와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 $Q_{1}, Q_{2}, Q_{3}, \ldots, Q_{p}$의 자유도가 각각 $k_{1}, k_{2}, k_{3}, \ldots k_{p}$라고 했을 때, 아래와 같이 정의된 확률변수 $Y$는 어떤 분포를 따를까?

$$ Y = \sum_{i=1}^p Q_{i} $$

 당연하게도, 각 $Q$들이 $Z^2$들의 합이니까, $Q$들의 합도 $Z^2$의 합이 된다. 따라서,

$$ Y \sim \chi_{k_{1} + k_{2} + k_{3} + \ldots + k_{p}}^2 $$

 이것을 카이제곱분포의 additivity theorem이라고 한다.

 

 

 

4. 표준분산과의 관계

 

 모집단이 정규분포 $\mathcal{N}(\mu, \sigma^2)$을 따르고 여기서 뽑은 샘플을 $X_{1}, X_{2}, X_{3}, \ldots, X_{n}$이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$

 아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.

$$ \begin{matrix} Q &=& \sum_{i=1}^n Z_{i}^2 \\ &=& \sum_{i=1}^n (\frac{X_{i} - \mu}{\sigma})^2\end{matrix} $$

여기서 분모인 $\sigma^2$을 잠깐 떼어 놓고 보면,

$$ \begin{matrix} \sum_{i=1}^n (X_{i} - \mu)^2  &=& \sum_{i=1}^n [(X_{i} - \bar{X}) + (\bar{X} - \mu)]^2 \\ &=& \sum_{i=1}^n (X_{i} - \bar{X})^2 + \sum_{i=1}^n (\bar{X} - \mu)^2 + 2(\bar{X} - \mu)\sum_{i=1}^n(X_{i} - \bar{X}) \\ &=& \sum_{i=1}^n(X_{i} - \bar{X})^2 + n(\bar{X} - \mu)^2 \end{matrix} $$

따라서,

$$ \begin{matrix} \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} &=& \frac{\sum_{i=1}^n (X_{i} - \bar{X})^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}} \\ &=& \frac{(n-1)S^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}}\end{matrix}$$

여기서 좌항은 카이제곱분포 정의에 의해

$$ \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} \sim \chi_{n}^2 $$

이고, 중심극한정리에 의해 $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$이다. 따라서, 표준화한 $\frac{(\bar{X} - \mu)^2}{\sigma^2} \sim \chi_{1}^2$. 그러므로, 카이제곱분포의 additivity theorem에 의해,

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$ 가 성립한다. 

 

 

+ Recent posts