이번에는 t분포에 대해 정리하려고 한다.

 

 t분포는 연속확률분포의 하나로써, 정규분포인 모집단의 평균을 추정해야 하지만 표본의 크기가 작고 모집단의 분산을 알 수 없는 경우에 이용된다고 한다.

 t분포는 Student's t-distribution이라고 불리기도 하는데, 그 이유는 처음 t분포를 발견한 William Sealy Gosset이 논문을 발표할 때 Student라는 가명을 사용했기 때문이다. 왜 그랬냐하면 그가 다니던 맥주회사 기네스에서 그가 본명으로 발표하는 것을 원치 않았는데, 자신들이 t분포를 사용한다는 것을 경쟁사한테 알리고 싶지 않았던 것이다.

 

1. 정의

 

 $Z$는 표준정규분표 $\mathcal{N}(0, 1)$를 따르는 확률변수, $Q$는 자유도 $k$인 카이제곱분포를 따르는 확률변수이고 둘이 독립일 때, 다음과 같이 정의되는 확률변수 $T$는 자유도가 $k$인 t분포를 따른다. 왜 이렇게 정의되었는지는 차차 생각해보기로 하자.

$$ T = \frac{Z}{\sqrt{\frac{Q}{k}}} \Rightarrow T \sim t_k$$

 그리고 이 확률변수는 아래와 같은 확률밀도함수를 갖는다.

$$ f(t) = \frac{\Gamma[\frac{(k+1)}{2}]}{\sqrt{\pi k} \Gamma(\frac{k}{2})}\cdot\frac{1}{[\frac{t^2}{k} + 1]^{\frac{(k+1)}{2}}}, \quad -\infty < t < \infty $$

 증명은 가볍게 넘어가고(^^), 확률밀도함수의 그래프가 어떻게 생겼는지 보자.

 

 

 

2. 그래프

 

출처: 위키피디아

 왼쪽 위의 그림부터 보면, 파란색이 정규분포곡선($\mathcal{N}(0, 1)$)을 나타낸 것이고 빨간색이 자유도가 1인 t분포의 곡선을 나타낸 것이다. 두 곡선의 모양을 비교해보면 t분포는 정규본포와 비슷하게 종 모양이지만 양쪽 꼬리가 더 두껍고, 봉우리는 더 낮은 것을 볼 수 있다. 그리고 자유도가 커질수록 점점 정규분포와 가까워지며 자유도가 30(맨 오른쪽 아래)인 그림을 보면 거의 똑같아지는 것을 볼 수 있다. 그래서 여기서 자유도를 nomality parameter라고 부르기도 한다. 사실 이 부분에서 자유도가 커지면 왜 정규분포와 가까워지는지, 이게 t분포의 본질과 어떤 관련이 있는지 더 탐구해보고 싶지만.. 요즘 시간이 없어서 타협모드이므로.. 아쉽지만 넘어가기로 한다.

 

 

 

3. 표본분산과의 관계

 

 처음에 t분포를 모집단이 정규분포이고, 모평균을 추정하고 싶은데 모분산을 알 수 없고 표본의 크기가 작은 경우에 활용할 수 있다고 했다. 상황을 한 번 상상해보자.

  • 어떤 모집단이 있고, 이 모집단은 정규분포를 따르는 것 같다.
  • 이 모집단의 모평균을 추정하고 싶은데, 모분산을 몰라서 Z 통계량을 이용한 통계적 추정 방법을 없다.
  • 게다가 표본의 크기 $n$이 30보다 작아서 중심극한정리에 의해 표본평균의 분포가 정규분포라고 할 수도 없을 것 같다.

 이 상황에서 어쨌든 우리는 표본을 뽑을 수 있고, 보통은 중심극한정리와 Z 통계량을 이용해서 추정을 하였지만, 이번에는 그럴 수 없는 상황이다. 그러면 우리가 알고 있는 것은 뭔가? 우리는 표본분산 $s^2$은 알 수가 있다. 따라서 Z통계량을 아래와 같이 수정해보자.

$$ \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \Rightarrow \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} $$

 단순히 모분산을 알 수가 없으니 표본분산을 이용해서 통계량을 바꿔본 것이다. 그런데 이 바뀐 통계량을 $\sigma$로 나누어주면 다음과 같은 것을 발견할 수 있다.

$$ \frac{\frac{\bar{X} - \mu}{\sigma}}{\frac{s}{\sqrt{n}\sigma}} = \frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{s^2}{\sigma^2}}}$$

$$ \Rightarrow \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim \mathcal{N}(0, 1), \quad \frac{s^2}{\sigma^2} \sim \frac{\chi_{n-1}^2}{n-1}$$

 즉, 처음에 정의한 t분포를 따르는 확률변수의 모양 $T = \frac{Z}{\sqrt{\frac{Q}{k}}}$와 같은 형태이므로, 통계량 $\frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}}$는 자유도가 $n-1$인 t분포를 따른다. 이 통계량을 t통계량이라고 하는데, 우리는 이것을 가지고 위와 같은 상황에서 통계적 추정이나 가설검정을 해 볼 수가 있게 된다. 

 

 통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.

 

 

 

1. 정의

 

 먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 $Q$가 따르는 확률분포이다.

$$Q = \sum_{i=1}^k Z_{i}^2$$

 $Z$는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 $Z^2$을 $k$개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. $Q$가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.

$$Q \sim \chi^2 (k) \quad or \quad Q \sim \chi_{k}^2$$

여기서 $k$는 더해지는 $Z_{i}^2$의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 $Z^2$의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.

$$f(x; k) = \begin{cases} \frac{x^{\frac{k}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}, & x>0 \\ 0, & otherwise \end{cases}$$

 확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.

 아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.

$$ E(Q) = k $$

$$ V(Q) = 2k $$

 

 

 

2. 그래프

 

 자유도 $k$가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

 그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 $k = 1$인 경우를 생각해보자. 즉, $$ Q = Z^2, \quad Q \sim \chi^2 (1)$$

 이 경우 표준정규분포의 확률밀도함수(왼쪽)와 $Q$의 확률밀도함수(오른쪽)은 아래와 같다.

 오른쪽 $Q$의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 $Q=Z^2$이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 $Q$의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 $Q$의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. $k=2$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2, \quad Q \sim \chi^2 (2) $$

$k=1$일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 $Z_{1}^2$과 $Z_{2}^2$이 더해지므로써 나타나는 당연한 현상이다($k=1$일 때 $Z_{1}^2$에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 $k=5$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2 + Z_{3}^2 + Z_{4}^2 + Z_{5}^2, \quad Q \sim \chi^2 (5) $$

 더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 $k$가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.

 

 

 

3. 성질

 

 카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 $Q$는 카이제곱분포를 따른다고 하였다.

$$ Q = \sum_{i=1}^n Z_{i}^2  \Rightarrow Q \sim \chi_{n}^2 $$

 그러면 카이제곱분포를 따르는 $Q$와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 $Q_{1}, Q_{2}, Q_{3}, \ldots, Q_{p}$의 자유도가 각각 $k_{1}, k_{2}, k_{3}, \ldots k_{p}$라고 했을 때, 아래와 같이 정의된 확률변수 $Y$는 어떤 분포를 따를까?

$$ Y = \sum_{i=1}^p Q_{i} $$

 당연하게도, 각 $Q$들이 $Z^2$들의 합이니까, $Q$들의 합도 $Z^2$의 합이 된다. 따라서,

$$ Y \sim \chi_{k_{1} + k_{2} + k_{3} + \ldots + k_{p}}^2 $$

 이것을 카이제곱분포의 additivity theorem이라고 한다.

 

 

 

4. 표준분산과의 관계

 

 모집단이 정규분포 $\mathcal{N}(\mu, \sigma^2)$을 따르고 여기서 뽑은 샘플을 $X_{1}, X_{2}, X_{3}, \ldots, X_{n}$이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$

 아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.

$$ \begin{matrix} Q &=& \sum_{i=1}^n Z_{i}^2 \\ &=& \sum_{i=1}^n (\frac{X_{i} - \mu}{\sigma})^2\end{matrix} $$

여기서 분모인 $\sigma^2$을 잠깐 떼어 놓고 보면,

$$ \begin{matrix} \sum_{i=1}^n (X_{i} - \mu)^2  &=& \sum_{i=1}^n [(X_{i} - \bar{X}) + (\bar{X} - \mu)]^2 \\ &=& \sum_{i=1}^n (X_{i} - \bar{X})^2 + \sum_{i=1}^n (\bar{X} - \mu)^2 + 2(\bar{X} - \mu)\sum_{i=1}^n(X_{i} - \bar{X}) \\ &=& \sum_{i=1}^n(X_{i} - \bar{X})^2 + n(\bar{X} - \mu)^2 \end{matrix} $$

따라서,

$$ \begin{matrix} \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} &=& \frac{\sum_{i=1}^n (X_{i} - \bar{X})^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}} \\ &=& \frac{(n-1)S^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}}\end{matrix}$$

여기서 좌항은 카이제곱분포 정의에 의해

$$ \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} \sim \chi_{n}^2 $$

이고, 중심극한정리에 의해 $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$이다. 따라서, 표준화한 $\frac{(\bar{X} - \mu)^2}{\sigma^2} \sim \chi_{1}^2$. 그러므로, 카이제곱분포의 additivity theorem에 의해,

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$ 가 성립한다. 

 

 

+ Recent posts