Loading [MathJax]/jax/output/CommonHTML/jax.js

 이번에는 t분포에 대해 정리하려고 한다.

 

 t분포는 연속확률분포의 하나로써, 정규분포인 모집단의 평균을 추정해야 하지만 표본의 크기가 작고 모집단의 분산을 알 수 없는 경우에 이용된다고 한다.

 t분포는 Student's t-distribution이라고 불리기도 하는데, 그 이유는 처음 t분포를 발견한 William Sealy Gosset이 논문을 발표할 때 Student라는 가명을 사용했기 때문이다. 왜 그랬냐하면 그가 다니던 맥주회사 기네스에서 그가 본명으로 발표하는 것을 원치 않았는데, 자신들이 t분포를 사용한다는 것을 경쟁사한테 알리고 싶지 않았던 것이다.

 

1. 정의

 

 Z는 표준정규분표 N(0,1)를 따르는 확률변수, Q는 자유도 k인 카이제곱분포를 따르는 확률변수이고 둘이 독립일 때, 다음과 같이 정의되는 확률변수 T는 자유도가 k인 t분포를 따른다. 왜 이렇게 정의되었는지는 차차 생각해보기로 하자.

T=ZQkTtk

 그리고 이 확률변수는 아래와 같은 확률밀도함수를 갖는다.

f(t)=Γ[(k+1)2]πkΓ(k2)1[t2k+1](k+1)2,<t<

 증명은 가볍게 넘어가고(^^), 확률밀도함수의 그래프가 어떻게 생겼는지 보자.

 

 

 

2. 그래프

 

출처: 위키피디아

 왼쪽 위의 그림부터 보면, 파란색이 정규분포곡선(N(0,1))을 나타낸 것이고 빨간색이 자유도가 1인 t분포의 곡선을 나타낸 것이다. 두 곡선의 모양을 비교해보면 t분포는 정규본포와 비슷하게 종 모양이지만 양쪽 꼬리가 더 두껍고, 봉우리는 더 낮은 것을 볼 수 있다. 그리고 자유도가 커질수록 점점 정규분포와 가까워지며 자유도가 30(맨 오른쪽 아래)인 그림을 보면 거의 똑같아지는 것을 볼 수 있다. 그래서 여기서 자유도를 nomality parameter라고 부르기도 한다. 사실 이 부분에서 자유도가 커지면 왜 정규분포와 가까워지는지, 이게 t분포의 본질과 어떤 관련이 있는지 더 탐구해보고 싶지만.. 요즘 시간이 없어서 타협모드이므로.. 아쉽지만 넘어가기로 한다.

 

 

 

3. 표본분산과의 관계

 

 처음에 t분포를 모집단이 정규분포이고, 모평균을 추정하고 싶은데 모분산을 알 수 없고 표본의 크기가 작은 경우에 활용할 수 있다고 했다. 상황을 한 번 상상해보자.

  • 어떤 모집단이 있고, 이 모집단은 정규분포를 따르는 것 같다.
  • 이 모집단의 모평균을 추정하고 싶은데, 모분산을 몰라서 Z 통계량을 이용한 통계적 추정 방법을 없다.
  • 게다가 표본의 크기 n이 30보다 작아서 중심극한정리에 의해 표본평균의 분포가 정규분포라고 할 수도 없을 것 같다.

 이 상황에서 어쨌든 우리는 표본을 뽑을 수 있고, 보통은 중심극한정리와 Z 통계량을 이용해서 추정을 하였지만, 이번에는 그럴 수 없는 상황이다. 그러면 우리가 알고 있는 것은 뭔가? 우리는 표본분산 s2은 알 수가 있다. 따라서 Z통계량을 아래와 같이 수정해보자.

ˉXμσnˉXμsn

 단순히 모분산을 알 수가 없으니 표본분산을 이용해서 통계량을 바꿔본 것이다. 그런데 이 바뀐 통계량을 σ로 나누어주면 다음과 같은 것을 발견할 수 있다.

ˉXμσsnσ=ˉXμσns2σ2

ˉXμσnN(0,1),s2σ2χ2n1n1

 즉, 처음에 정의한 t분포를 따르는 확률변수의 모양 T=ZQk와 같은 형태이므로, 통계량 ˉXμsn는 자유도가 n1인 t분포를 따른다. 이 통계량을 t통계량이라고 하는데, 우리는 이것을 가지고 위와 같은 상황에서 통계적 추정이나 가설검정을 해 볼 수가 있게 된다. 

 

 통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.

 

 

 

1. 정의

 

 먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 Q가 따르는 확률분포이다.

Q=ki=1Z2i

 Z는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 Z2k개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. Q가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.

Qχ2(k)orQχ2k

여기서 k는 더해지는 Z2i의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 Z2의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.

f(x;k)={xk21ex22k2Γ(k2),x>00,otherwise

 확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.

 아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.

E(Q)=k

V(Q)=2k

 

 

 

2. 그래프

 

 자유도 k가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

 그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 k=1인 경우를 생각해보자. 즉, Q=Z2,Qχ2(1)

 이 경우 표준정규분포의 확률밀도함수(왼쪽)와 Q의 확률밀도함수(오른쪽)은 아래와 같다.

 오른쪽 Q의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 Q=Z2이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 Q의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 Q의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. k=2인 경우도 보자.

Q=Z21+Z22,Qχ2(2)

k=1일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 Z21Z22이 더해지므로써 나타나는 당연한 현상이다(k=1일 때 Z21에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 k=5인 경우도 보자.

Q=Z21+Z22+Z23+Z24+Z25,Qχ2(5)

 더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 k가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.

 

 

 

3. 성질

 

 카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 Q는 카이제곱분포를 따른다고 하였다.

Q=ni=1Z2iQχ2n

 그러면 카이제곱분포를 따르는 Q와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 Q1,Q2,Q3,,Qp의 자유도가 각각 k1,k2,k3,kp라고 했을 때, 아래와 같이 정의된 확률변수 Y는 어떤 분포를 따를까?

Y=pi=1Qi

 당연하게도, 각 Q들이 Z2들의 합이니까, Q들의 합도 Z2의 합이 된다. 따라서,

Yχ2k1+k2+k3++kp

 이것을 카이제곱분포의 additivity theorem이라고 한다.

 

 

 

4. 표준분산과의 관계

 

 모집단이 정규분포 N(μ,σ2)을 따르고 여기서 뽑은 샘플을 X1,X2,X3,,Xn이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.

(n1)s2σ2χ2n1

 아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.

Q=ni=1Z2i=ni=1(Xiμσ)2

여기서 분모인 σ2을 잠깐 떼어 놓고 보면,

ni=1(Xiμ)2=ni=1[(XiˉX)+(ˉXμ)]2=ni=1(XiˉX)2+ni=1(ˉXμ)2+2(ˉXμ)ni=1(XiˉX)=ni=1(XiˉX)2+n(ˉXμ)2

따라서,

ni=1(Xiμ)2σ2=ni=1(XiˉX)2σ2+(ˉXμ)2σ2n=(n1)S2σ2+(ˉXμ)2σ2n

여기서 좌항은 카이제곱분포 정의에 의해

ni=1(Xiμ)2σ2χ2n

이고, 중심극한정리에 의해 ˉXN(μ,σ2n)이다. 따라서, 표준화한 (ˉXμ)2σ2χ21. 그러므로, 카이제곱분포의 additivity theorem에 의해,

(n1)s2σ2χ2n1 가 성립한다. 

 

 

+ Recent posts