통계적 추론이란 무엇이고 어떻게 하는 것일까?
통계적 추론에는 '추정(Estimation)'과 '가설 검정(Hypothesis test)'가 있다고 한다.
이 글에서는 우선 추정에 대해서 정리한다.

다음과 같은 상황을 상상해보자.
어떤 모집단이 있다고 할 때 이 모집단의 정체를 알고 싶다. 즉, 모집단의 통계값들을 알고 싶다.
하지만 이 모집단이 너무너무 커서 모든 원소들을 하나하나 다 조사하기에는 시간도 오래 걸리고 비용도 많이 든다.
따라서 이 모집단에서 추출한 표본들만으로 모집단의 통계값들을 추정하고 싶다.
하지만 표본들은 모집단의 일부분에 불과하기 때문에 표본들로 모집단의 통계값을 추정하더라도 오차가 수반되는 것이 당연하다. 그래서 표본을 이용하여 모집단의 통계값을 추정할 때는 하나의 값으로 '점 추정(point estimation)'하기보다는 '신뢰 구간(Confidence interval)'이라고 하는 것을 이용해 '구간 추정(interval estimation)'하는 것이 대부분이다.


점 추정의 예를 들어보자.
전 세계 사람들의 평균 하루 동안의 스마트폰 사용 시간을 알고 싶다. 이 때의 모집단은 70억 명 전 세계 사람들인데 전부 다 조사하는 것은 현실적으로 불가능하다. 따라서 임의로 표본을 추출해 표본을 기반으로 모집단의 통계값을 추정하는 것이 하나의 방법이다. 예를 들어 랜덤하게 1천 명의 사람을 뽑아서, 이 집단의 평균 하루 스마트폰 사용 시간이 2.5시간이 나왔다면, 전 세계 사람들의 평균 사용 시간도 이와 같다고 추정하는 것이다. 하지만 표본의 크기가 모집단에 비해 너무 작으므로, 이 값을 신뢰하기는 어려울 것 같다. 이러한 불확실성을 보완하기 위해 구간 추정을 하게 되는 것이다.

구간으로 추정한다는 것은 말 그대로 추정하고자 하는 모집단의 평균값이 '적어도 이 구간 안에는 있어요'라고 말하는 것이다. 하지만 이것조차도 불확실성이 있으니, '적어도 이 구간 안에는 있고, $x$%만큼 신뢰할 수 있어요.'라고 보통은 표현한다. 이 때 $x$를 '신뢰도 또는 신뢰 수준(Confidence level)'이라고 한다.

그러면 어떻게 해야 이 구간이라고 하는 것을 어떻게 나타내면 좋을까?
생각해보면 점 추정에서 나온 값을 발전시킬 수 있으면 좋을 것 같다. 예를 들어, 점 추정으로 뽑은 표본의 평균이 $\bar{X}$라고 하면 '적어도 $(\bar{X} -\delta, \bar{X} +\delta)$ 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'와 같은 식으로 말할 수 있으면 좋을 것 같다.

여기서 잠시 이전 글에서 다룬 중심극한정리를 상기시켜보자.
중심극한정리에 의하면 분포를 알 수 없는 모집단의 평균이 $\mu$, 표준편차가 $\sigma$라고 할 때, 크기 $n(\ge 30)$의 표본들을 복원추출하면 표본평균의 분포는 정규분포를 따른다는 것을 알 수 있었다. 여기서 한가지 짚고 넘어가야할 점은, 이전 글에서 중심극한정리를 다룰 때 모집단의 분산은 알고 있다는 가정했다는 것이다. 즉, $\sigma$는 여기서 알고 있는 값이다. 어쨌든 그러면 표본평균 $\bar{X}$은 아래와 같은 정규분포를 따르게 된다. $$\bar{X}\sim\mathcal{N}\left( \mu, \frac{\sigma^2}{\sqrt{n}} \right)$$

결국 표본평균은 하나의 확률변수이고 모집단에서 표본을 뽑아 표본평균을 내는 것 자체가 위 정규분포에서 표본평균 하나를 샘플링 하는 것과 같다고 볼 수 있다.

다시 '적어도 $(\bar{X} -\delta, \bar{X} +\delta$) 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'라고 하고 싶은 상황에으로 되돌아 가보자.
아래 그림처럼 평균을 기준으로 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 구간이 빨간색 점선 사이라고 해보자. 그리고 표본평균을 샘플링 할 때마다 각 샘플 $\bar{X}_k\pm\delta$를 신뢰구간이라고 한다면, 아래 그림처럼 빨간색 점선 사이 안에서 샘플링되는 샘플($X_1$)은 구간 안에 모평균을 반드시 포함할 것이고, 점선 바깥에서 샘플링 되는 샘플($X_2$)는 모평균을 포함시키지 못할 것이다.

다시 말해 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$이므로 빨간색 점선 사이로 표본평균이 샘플링될 확률이 95%이고 그 샘플들은 구간 안에 모평균을 포함한다. 빨간색 점선 밖으로 표본평균이 샘플링될 확률은 5%이고 그 샘플들은 모평균을 구간 안에 포함시키지 않는다. 즉, 표본평균을 샘플링해서 신뢰구간을 만들면 100개 중 95개는 모평균을 포함하므로, 95% 신뢰할 수 있다고 말할 수 있는 것이다.
그렇다면 남은 문제는 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 $\delta$를 어떻게 구할 것인가이다. 이를 위해 다음과 같이 표준화를 한 번 해준다.

표준화를 하면 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$는 $P\left( -\delta'\le Z\le\delta' \right) = 0.95$가 되고 표준정규분포표에 의해 $\delta'$를 구하면 1.96이 나온다. 물론 이것은 신뢰수준을 95%로 했을 때의 값이고, 신뢰수준에 따라 $\delta'$값은 다르게 나온다. 주로 90%, 95%, 99%를 많이 이용한다.

여기서 잠깐! 신뢰수준이 높다는 것은 그만큼 신뢰구간이 모평균을 포함할 확률이 높다는 것이다. 모평균을 포함할 확률이 높으러면 신뢰구간이 그만큼 넓어야 한다는 것을 의미한다. 하지만 신뢰구간이 넓으면 그만큼 유용성이 떨어지게 된다. 예를 들어 '표본을 뽑아 계산해보니 전 세계 사람들의 하루 평균 스마트폰 이용 시간(모평균)은 (0, 24)시간 구간에 100%로 포함돼있어!'라고 했다고 치자. 당연히 (0, 24)구간은 모든 시간을 포함하니까 모평균이 포함될 것이다. 하지만 이렇게 추정하는 것이 무슨 의미가 있다는 것인가? 이런 trade-off 관계를 적절히 조절해서 보통은 신뢰수준 95%를 가장 흔하게 이용하는 것 같다.

결국, 통계적 추정을 할 때 통계조사를 하는 사람이 몇%의 신뢰 수준으로 추정을 하고 싶은지를 결정하면, $\delta'$값은 그에 따라 결정이 된다. 그 뒤 부등식 $-\delta'\le Z\le\delta'\Rightarrow -\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$을 모평균 $\mu$에 대해서 풀어주면 아래와 같다.$$-\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$$ $$\Rightarrow -\delta'\frac{\sigma}{\sqrt{n}}\le\bar{X}-\mu\le\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow -\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le -\mu\le -\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$
이렇게 되고 여기서 신뢰구간을 $(\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}, \bar{X} +\delta'\frac{\sigma}{\sqrt{n}})$로 표현한다.

그런데! 찝찝하게 남겨진 의문 하나가 떠오른다. 여기서는 표본의 크기가 30보다 크고 모분산을 알고 있다는 것을 전제로 하여, 중심극한정리에 의해 표본평균의 분포가 정규분포를 따른다고 하였다. 표본의 크기가 30보다 큰 것은 중심극한정리를 사용해야 하니깐 당연하다고 보면 된다. 그러나 모분산을 모르면 어떻게 할 것인가? 더군다나 모분산은 모르는 경우가 대다수일텐데 말이다.
이러한 문제와 관련한 상황을 다음과 같이 정리해 볼 수 있다.
1) 모분산을 알고 $n\ge 30$인 경우 $\Rightarrow$ 정규분포 $\mathcal{N}(\mu, \frac{\sigma^2}{\sqrt{n}})$ 활용.
2) 모분산을 모르고 $n\le 30$인 경우 $\Rightarrow$ t-분포 활용. 단, 모집단이 정규분포를 따라야 함.

t-분포에 대해서는 귀찮으므로 다음에!


참고한 곳
https://bskyvision.com/489#comment7834436

+ Recent posts