투자서적을 읽다 보니 여러 가지 적정 주가 계산 방법에 대해 나오길래 한 번 정리해 두면 좋을 것 같아 글을 쓴다. 참고한 서적은 아래와 같다.

  • [1] 채권쟁이 서준식의 다시 쓰는 주식투자 교과서, 서준식
  • [2] 현명한 초보 투자자, 야마구치 요헤이
  • [3] 이웃집 워렌 버핏, 숙향의 투자 일기, 숙향
  • [4] 재무제표 모르면 절대로 주식투자 하지마라, 사경인

 

 

 

1. 채권형 주식의 적정 주가 계산 & 투자 판단 과정 [1]

 

 먼저 다음을 만족하는 채권형 주식에 한하여, 채권형 주식을 '10년 만기 채권'으로 본다.

  • 경기민감주 혹은 경기순환주가 아닌 주식인가?
  • 대규모 설비 투자비나 연구 개발비가 들지 않는 기업의 주식인가?
  • 내가 잘 알고 잘 이해하는 기업의 주식인가?
  • 과거의 ROE 추이를 참고해 미래의 ROE를 예측할 수 있는가?

 그러면 10년 후 이 주식의 순자산 가치는 10년 뒤 확정된 복리 채권 원리금으로 볼 수 있다. 이러한 관점에서 채권형 주식의 기대수익률을 다음 과정에 따라 산정하고 투자 판단을 내릴 수 있다.

 

  STEP 1. 채권형 주식의 현재 가격과 순자산 가치를 확인한다.

  STEP 2. 과거 ROE 추이 관찰 등을 통해 향후 10년간의 평균 ROE를 추정한다(정성적 분석 포함).

  STEP 3. 10년 후 예상되는 채권형 주식의 순자산 가치를 계산한다.

           현재의 순자산 가치 * 미래 추정 ROE 10년 승수 = 10년 후 예상 순자산 가치

  STEP 4. 예상 순자산 가치를 현재 가격으로 나눈 값이 10년의 몇 퍼센트 승수인지를 찾는다.

           예상 순자산 가치 / 현재 가격 = 기대수익률 10년 승수

  STEP 5. 계산된 채권형 주식의 기대수익률이 투자자의 목표 기대수익률보다 높을 경우 채권형 주식에 투자한다.

 

 

2. 5분 안에 구하는 주식의 가치 [2]

 

 다음 4단계로 '대략적인' 주식의 가치를 구할 수 있다.

 

  STEP 1. '사업 가치'를 평가한다.

  • 영업이익의 추이와 정성적 판단을 고려하여 미래 영업이익을 예측한다.
  • 사업가치 = 영업이익 * 10 으로 계산한다.
  • 10배수 이유: 일본 실효세율 40%, 주식의 기대수익률 6%, 가치 = 이익/기대수익률 가정

  STEP 2. '재산 가치'를 평가한다.

  • 재산가치 = 유동자산 중 재산 부분 + 고정자산 중 재산 부분
  • 유동자산 중 재산 부분(사업에 필요 없는 재산) = 유동자산 - 유동부채 * 1.2
  • 1.2배수 이유: 상장기업 유동비율 고려
  • 고정자산 중 재산 부분(투자자산) = 다른 회사 주식 + 정기 예금 등

  STEP 3. 부채(빚)를 뺀다.

  • 고정부채를 뺀다.

  STEP 4. 발행 주식 수로 나눠 한 주의 가치를 산출한다.

 

 

3. 숙향의 내재가치 계산법 [3]

 

 상속세법에서 비상장주식의 가치를 평가하는 방법과 유사. 기업이 보유한 자사주는 총 발행주식에서 차감해서 계산한다.

 

  STEP 1. EPS = {(최근 연도 EPS *3) + (전년도 EPS * 2) + (전전년도 EPS *1)} / 6

  STEP 2. 내재가치 = (BPS + EPS * 10) / 2

  • EPS에 10을 곱하는 이유: 이자율을 10%로 가정 (현행 상속세법 고려)

 

4. S-RIM [4]

 

  • 기업가치 = 자기자본 + 초과이익의 현재가치 = 자기자본 + 초과이익/할인율
  • 초과이익 = 자기자본 * (ROE - 주주들의 요구수익률)
  • 할인율 = 주주들의 요구수익률
  • 즉, 기업가치 = 자기자본 + 자기자본 * (ROE - 주주들의 요구수익률) / 주주들의 요구수익률
  • 결국 알아야 할 변수는 ROE와 주주들의 요구수익률
  • ROE: 컨센서스 활용, 최근 추이(가중 평균, 하락 추이시 마지막 값 등), 정성적 평가 반영해서 결정
  • 요구수익률: BBB- 등급 5년 만기 회사채 금리(한국신용평가: www.kisrating.com)
  • 여기까지는 회사의 초과수익이 계속 지속된다고 가정한 것
  • 만약 초과수익이 시간이 지남에 따라 감소함을 반영하고 싶다면 아래와 같이 변형
  • 기업가치 = 자기자본 + 초과이익 * w / (1 + 할인율 - w)
  • 여기서 w는 지속계수를 의미함. ex) w=0.9 -> 초과이익의 90%만 지속(즉 초과이익이 10% 감소)
  • 필자는 초과이익이 매년 20%감소한다고 가정(w=0.8)했을 때 계산되는 기업가치와 주가를 비교하여, 주가가 가치보다 낮으면 '싸다'고 판단하고 매수
  • 이후 w=0.9을 가정했을 때 계산되는 기업가치에 주가가 도달하면 1/3을 매도
  • 이후 w=1(초과이익 영원히 지속)을 가정했을 때 계산되는 기업가치에 주가가 도달하면 다시 1/3 매도
  • 나머지 1/3은 지켜본 다음 충분히 올랐다고 판단되는 지점에 매도

 

'Study > 투자공부' 카테고리의 다른 글

채권 기초 개념 정리  (0) 2020.04.09

 

*이 내용은 '채권쟁이 서준식의 다시 쓰는 주식투자 교과서'를 읽고 정리한 내용입니다.

 

 

 

## 채권이란?

 정부, 공공기관, 특수법인(공기업) 및 상법상의 주식회사가 돈이 필요할 때 발행하는 채무증서. 유가증권시장에서 거래가 가능함. 예를 들어, A회사가 자금이 필요해 채권을 발행하고 내가 채권을 사면, A회사는 '채무자', 나는 '채권자'가 되는 것이고, 일정 기간 후에 A회사로부터 원리금을 받을 수 있음(원금 + 이자). 근데 나는 이 권리를 시장에 적당한 가격에 팔거나 다른 사람의 권리를 살 수도 있는 것.

 

## 채권에 적혀 있는 것?

  • 발행자: 채권을 발행해 채무를 이행하는 자
  • 만기: 쉽게 말해 돈 갚기로 한 날까지 남은 기간
  • 액면가: 이자금액 산출을 위한 기본 단위(보통 10,000원을 발행됨)
  • 표면 이율(발행 금리): 이표율이라고도 하며, 액면 금액당 지불해야 하는 이자율
  • 이자 지급 방식: 이자를 지급하는 시점이나 기준(복리, 이표, 할인)
  • 기타

 내가 A회사로부터 아래 내용이 적혀 있는 채권을 샀다고 해보자.

  • 발행자: A회사
  • 만기: 3년
  • 액면가: 10,000원
  • 표면 이율(발행 금리): 2%
  • 이자 지급 방식: 이표

 그럼 내가 만기 시 받는 금액은?

 연 2%의 이자를 받으니까, 1년에 200원을 이자로 받음. 그걸 3년 동안 받으니까 총 이자는 600원. 원금이 10,000원이니까 만기 시 받는 원리금은 10,600원.

 이런 식으로 일정 기간마다 이자를 받는 방식의 채권을 이표채라고 하는데, 여기서는 그 기간이 1년이었지만 3개월, 6개월 등도 될 수 있다. 옛날 옛적에 채권을 직접 보관하던 시절, 채권에는 쿠폰(이표)가 붙어있었는데, 이걸 떼어 발행자로부터 이자를 받았기 때문에 여기 그 이름의 유래가 있는 것이다.

 

## 잔존 만기

 2년 만기, 액면가 10,000원, 이자 2% 이표채를 내가 샀다고 치자. 이 때 만기시 원리금은 10,400원이다. 근데 1년 후 나는 이 채권을 팔고 싶어졌다. 1년 후의 원리금은 10,200원일 것이다. 즉 1년이 지난 후에는 만기 시 받는 원리금이 낮아지므로, 시장에서 가격도 다르게 평가받을 것이다.

 이렇게 '남은 기간'에 따라서 채권의 가격이 달라질 것인데, 이 '남은 기간'을 잔존 만기라고 한다.

 

## 금리와 채권의 관계

 금리에 따라 예금, 채권의 가격이 변한다.

 예로 내가 1년 만기 2% 예금에 가입을 했는데 바로 다음날 1년 만기 3% 예금이 출시됐다고 해보자. 이 경우 나는 금전적으로 손해를 본 것은 아니지만, 3% 예금에 가입할 수 있는 기회를 놓침으로써, 기회손실이 발생한다. 하지만 예금의 경우 시장에서 거래되는 것은 아니기 때문에, 그냥 눈에 보이지 않는 기회손실이 발생했을 뿐, 시장에서 가격이 떨어졌다거나 한 것은 아니다.

 그러나 채권의 경우 유가증권시장에서 거래가 되기 때문에, 이런 경우에 가격이 변동될 수 있다. 위와 같은 예로 내가 1년 만기 3%짜리 채권을 샀는데 사자마자 바로 그 채권의 금리가 4%로 오른다면, 나는 기회 손실을 입게 된다.

 조금만 늦게 샀으면 원리금 10,400원을 얻을 수 있었던 기회를, 원리금 10,300원짜리 채권을 사느라 놓쳤으므로 총 100원의 기회손실이 발생하게 된다.

 이런 상황을 다른 사람 '철수'의 입장에서 바라 보자. 철수는 시장에서 다음과 같은 선택권이 있다. 

  1. 새로 발행된 표면이율 4%짜리 채권을 액면가 10,000원에 매입한다.
  2. 나한테서 표면이율 3%짜리를 9,900원에 산다.

 철수의 입장에서 보면 지금 4%짜리 표면이율인 채권을 살 수 있는데, 나한테서 3%짜리를 액면가 10,000원 그대로 주고 살 필요는 없을 것이다. 따라서 내가 가진 채권은 액면가에서 기회손실만큼 줄어든 만큼의 가격으로 시장에서 평가 받게 된다. 즉, 금리가 오르면 채권의 가격은 하락하고, 반대로 금리가 내리면 채권의 가격은 상승한다. 

 

 

## 듀레이션

 듀레이션은 내가 투자한 원금을 회수하는데까지 걸리는 시간을 말한다. 예를 들어 내가 만기 3년에 5% 표면이율 채권을 100만원 어치 구입했다고 하자. 그러면 1년 후 5만원, 2년 후 5만원, 3년 후 105만원 총 115만원을 받게 될 것이다. 그러면 내가 투자한 100만원이라는 원금이 회수되는데까지는 만기 3년보다는 덜 걸리게 되고, 이 기간을 듀레이션이라고 한다. 듀레이션을 구하는 공식이 있는데, 여기서는 쉽게 개념적으로만 알고 넘어 간다. 결론적으로는 채권의 현금흐름(이자, 원금)이 나오는 시점부터 만기까지의 시간을 현금흐름 금액만큼 가중해 평균을 구한다.

 위 예시에서는 다음과 같이 구할 수 있다.

 

(1년 * 5만원 + 2년 * 5만원 + 3년 * 105만원)/115만원 = 2.87년

 

 이처럼 듀레이션이란, 표면이율과 잔존만기에 영향을 받게 되어있다.

 듀레이션 3년 짜리와 1년 짜리가 있다고 해보자. 시중 금리가 변했을 때, 앞으로 받을 금액의 변화가 큰 것은 당연히 이자를 받는 횟수가 많은 3년 짜리일 것이다. 이런 특성이 시장에서도 반영되어서 시중 금리가 변할 때 듀레이션이 큰 채권이 가격 변동이 더 크게 된다. 

 

 

## 채권의 위험

 채권의 위험을 결정하는 요소는 크게 두 가지가 있다.

  1. 듀레이션
  2. 신용위험

 위에서 설명한 것과 같이 듀레이션이 크면 시중금리가 변했을 때 가격 변동이 크므로 위험이 크다고 할 수 있다. 시장 참여자들은 위험이 클 수록 더 높은 기대수익률을 원하기 때문에 듀레이션이 큰 채권에 더 많은 가격이 매겨진다.

 한편 만기가 긴 채권일수록 상환에 대한 불확실성이 커지므로 위험이 증가하게 되는데, 이것을 신용위험이라고 한다. 따라서 신용등급이 낮은 회사일 수록 더 높은 표면이율로 채권을 발행하게 되는 것이다.

 국채 1년물 금리가 3%라고 한다면 이 채권의 위험은 어떠한가? 만기가 1년이므로 금리 변동에 따라 가격이 변동되는 일은 없을 것이며, 국채이므로 상환되지 못할 위험도 거의 없다고 봐야한다. 따라서 위험은 없고, 이 때의 금리 3%를 '무위험 수익률'이라고 할 수 있다.

 그러나 1년물이 아닌 5년물 국채는 듀레이션 위험이 생길 것이고, 국채가 아닌 회사채는 신용위험이 생길 것이다. 이렇게 추가되는 위험에 따라 수익률은 높아지는 것이 자연스럽다. 따라서 채권의 수익률(금리)는 다음과 같이 결정된다고 볼 수 있다.

 

 채권 수익률(금리) = 무위험수익률 + 듀레이션 프리미엄 + 신용 프리미엄

(예) 은행채 5년물 금리 4.5% = 무위험수익률 3% + 듀레이션 프리미엄 0.8% + 신용 프리미엄 0.7%

 

 

'Study > 투자공부' 카테고리의 다른 글

적정주가 계산 방법  (0) 2020.04.16

 이번에는 t분포에 대해 정리하려고 한다.

 

 t분포는 연속확률분포의 하나로써, 정규분포인 모집단의 평균을 추정해야 하지만 표본의 크기가 작고 모집단의 분산을 알 수 없는 경우에 이용된다고 한다.

 t분포는 Student's t-distribution이라고 불리기도 하는데, 그 이유는 처음 t분포를 발견한 William Sealy Gosset이 논문을 발표할 때 Student라는 가명을 사용했기 때문이다. 왜 그랬냐하면 그가 다니던 맥주회사 기네스에서 그가 본명으로 발표하는 것을 원치 않았는데, 자신들이 t분포를 사용한다는 것을 경쟁사한테 알리고 싶지 않았던 것이다.

 

1. 정의

 

 $Z$는 표준정규분표 $\mathcal{N}(0, 1)$를 따르는 확률변수, $Q$는 자유도 $k$인 카이제곱분포를 따르는 확률변수이고 둘이 독립일 때, 다음과 같이 정의되는 확률변수 $T$는 자유도가 $k$인 t분포를 따른다. 왜 이렇게 정의되었는지는 차차 생각해보기로 하자.

$$ T = \frac{Z}{\sqrt{\frac{Q}{k}}} \Rightarrow T \sim t_k$$

 그리고 이 확률변수는 아래와 같은 확률밀도함수를 갖는다.

$$ f(t) = \frac{\Gamma[\frac{(k+1)}{2}]}{\sqrt{\pi k} \Gamma(\frac{k}{2})}\cdot\frac{1}{[\frac{t^2}{k} + 1]^{\frac{(k+1)}{2}}}, \quad -\infty < t < \infty $$

 증명은 가볍게 넘어가고(^^), 확률밀도함수의 그래프가 어떻게 생겼는지 보자.

 

 

 

2. 그래프

 

출처: 위키피디아

 왼쪽 위의 그림부터 보면, 파란색이 정규분포곡선($\mathcal{N}(0, 1)$)을 나타낸 것이고 빨간색이 자유도가 1인 t분포의 곡선을 나타낸 것이다. 두 곡선의 모양을 비교해보면 t분포는 정규본포와 비슷하게 종 모양이지만 양쪽 꼬리가 더 두껍고, 봉우리는 더 낮은 것을 볼 수 있다. 그리고 자유도가 커질수록 점점 정규분포와 가까워지며 자유도가 30(맨 오른쪽 아래)인 그림을 보면 거의 똑같아지는 것을 볼 수 있다. 그래서 여기서 자유도를 nomality parameter라고 부르기도 한다. 사실 이 부분에서 자유도가 커지면 왜 정규분포와 가까워지는지, 이게 t분포의 본질과 어떤 관련이 있는지 더 탐구해보고 싶지만.. 요즘 시간이 없어서 타협모드이므로.. 아쉽지만 넘어가기로 한다.

 

 

 

3. 표본분산과의 관계

 

 처음에 t분포를 모집단이 정규분포이고, 모평균을 추정하고 싶은데 모분산을 알 수 없고 표본의 크기가 작은 경우에 활용할 수 있다고 했다. 상황을 한 번 상상해보자.

  • 어떤 모집단이 있고, 이 모집단은 정규분포를 따르는 것 같다.
  • 이 모집단의 모평균을 추정하고 싶은데, 모분산을 몰라서 Z 통계량을 이용한 통계적 추정 방법을 없다.
  • 게다가 표본의 크기 $n$이 30보다 작아서 중심극한정리에 의해 표본평균의 분포가 정규분포라고 할 수도 없을 것 같다.

 이 상황에서 어쨌든 우리는 표본을 뽑을 수 있고, 보통은 중심극한정리와 Z 통계량을 이용해서 추정을 하였지만, 이번에는 그럴 수 없는 상황이다. 그러면 우리가 알고 있는 것은 뭔가? 우리는 표본분산 $s^2$은 알 수가 있다. 따라서 Z통계량을 아래와 같이 수정해보자.

$$ \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \Rightarrow \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} $$

 단순히 모분산을 알 수가 없으니 표본분산을 이용해서 통계량을 바꿔본 것이다. 그런데 이 바뀐 통계량을 $\sigma$로 나누어주면 다음과 같은 것을 발견할 수 있다.

$$ \frac{\frac{\bar{X} - \mu}{\sigma}}{\frac{s}{\sqrt{n}\sigma}} = \frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{s^2}{\sigma^2}}}$$

$$ \Rightarrow \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim \mathcal{N}(0, 1), \quad \frac{s^2}{\sigma^2} \sim \frac{\chi_{n-1}^2}{n-1}$$

 즉, 처음에 정의한 t분포를 따르는 확률변수의 모양 $T = \frac{Z}{\sqrt{\frac{Q}{k}}}$와 같은 형태이므로, 통계량 $\frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}}$는 자유도가 $n-1$인 t분포를 따른다. 이 통계량을 t통계량이라고 하는데, 우리는 이것을 가지고 위와 같은 상황에서 통계적 추정이나 가설검정을 해 볼 수가 있게 된다. 

 

 통계를 공부하다 보니 굉장히 불편한 것을 하나 만나게 됐다.

 그것은 바로 표본에서 분산을 정의할 때 원래 알던 분산의 정의(편차의 제곱의 평균)가 아닌 다른 방식으로 정의한다는 것이다. 즉, 표본분산은 편차의 제곱을 표본의 크기로 나누는 것이 아니라, (표본이 크기-1)로 나누어 준다.

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\bar{X}) \quad (X)$$

$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_{i}-\bar{X}) \quad (O)$$

 

 이렇게 정의하게 된 연유를 좀 찾아 보니, 자유도랑도 연관이 있는 것 같고, 여러 가지 설명들이 있더라. 그런데 자유도로 설명하는 것은 아직 내 수준에서는 도저히 이해가 안되고, 그나마 수긍이 되는 설명으로 정리해본다.

 

 먼저 불편추정량(Unbiased Estimate)이라는 것에 대해서 알아야 한다. 모집단에서 표본을 뽑았을 때 우리는 표본평균이나 표본분산 등의 표본 통계량을 계산할 수 있다. 그런데 표본을 뽑아 통계량을 계산하는 행위 자체의 근본적인 목적이 바로 모집단의 모수를 추정하는 것이다. 이런 모수를 추정하기 위한 표본 통계량들을 추정량(Estimate)이라고 한다.

 

 아마도 추정량에 대한 개념이 없이 나보고 표본평균이나 표본분산을 계산하라고 했으면 원래 일반적인 평균과 분산의 개념으로 계산을 했을 것이다. 평균은 (모든 원소들의 합/집단의 크기), (분산은 편차의 제곱의 합/집단의 크기) 이런 식으로. 그런데 앞에서 말했듯이 표본을 추출하는 것 자체가 모집단의 모수를 추정하는 것이므로, 통계학에서는 표본 통계량을 '추정량으로써' 간주하여 다르게 정의하는 듯하다. 즉, 추정량의 역할을 해야하므로 기존의 알던 정의와는 다르게 정의될 수 있다는 것을 받아들여야 마음이 편해진다. 

 

 목적 자체가 모집단의 모수를 추정하는 것이므로, 추정량은 모집단의 모수를 잘 추정할 수 있도록 정의되는 것이 좋다. 좋은 추정량의 조건이 4가지는 아래와 같다.

1) 불편성 (Unbiasedness)

2) 효율성 (Efficiency)

3) 일치성 (Consistency)

4) 충분성 (Sufficiency)

 

 여기서 표본분산을 계산할 때 $n$이 아니라 $n-1$로 나누어주는 이유와 관련이 있는 것은 1) 불편성이다. 불편성이란, 편향이 없다(Unbiased)라는 뜻이다. 그렇다면 편향이 있다 or 없다 라는 것은 무엇을 의미하는 걸까? 이런 상황을 생각해보자. 모집단의 모수를 파악하기 위해 표본을 뽑아 표본 통계량을 추정량으로 이용하려고 한다. 이 때 표본평균을 이용한다고 해보자. 표본평균은 중심극한정리에 의해 모평균을 평균으로 하는 정규분포를 따른다. 그렇기 때문에 표본을 여러번 뽑아도 표본평균들은 모평균보다 크게만 나오거나 작게만 나오지 않고 크거나 작게 균등하게 나올 것이다. 즉 표본평균은 그 자체로 편향되지 않는 불편성을 지니고 있다. 따라서 우리가 일반적으로 생각하는 평균의 정의가 아래처럼 그대로 적용될 수 있다. 

$$ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_{i} $$

 즉, 이것을 통해 불편성이라는 것을 수학적으로 정의하자면, 표본의 추정량의 기댓값이 모수와 같아야 한다고 말할 수 있다(표본평균이 그런 것처럼). 따라서 표본평균은 불편추정량으로써 다음을 만족하는 것이다($\mu$는 모평균).

$$ E(\bar{X}) = \mu $$

 하지만 표본분산은 어떨까? 표본분산도 표본평균처럼 모분산을 기준으로 크거나 작거나 균등하게 나올까? 즉 불편추정량의 조건인 다음을 만족할까?

$$ E(s^2) = \sigma^2 $$

 이것을 확인해보기 위해, 우리가 원래 알고 있던 분산의 정의, '편차제곱의 합의 평균'으로 한 번 확인해보자. 모평균은 $\mu$, 모분산은 $\sigma^2$라고 할 때,

$$\begin{matrix} E(s^2) &=& E(\frac{1}{n}\sum_{i=1}^n (X_{i} - \bar{X})^2) \\ &=& \frac{1}{n}E(\sum_{i=1}^n (X_{i}^2 - 2X_{i}\bar{X} + \bar{X}^2) \\ &=& \frac{1}{n} E(\sum_{i=1}^n X_{i}^2 - 2\bar{X}\sum_{i=1}^n X_{i} + \sum_{i=1}^n \bar{X}^2) \\ &=& \frac{1}{n} E(\sum_{i=1}^n X_{i}^2 - 2n\bar{X}^2 + n\bar{X}^2 ) \\ &=& \frac{1}{n} \sum_{i=1}^n E(X_{i}^2) - E(\bar{X}^2) \\ &=& \frac{1}{n} \sum_{i=1}^n (\mu^2 + \sigma^2) - (\mu^2 + \frac{\sigma^2}{n}) \\ &=& \frac{n-1}{n}\sigma^2 \end{matrix}$$

 계산해보니 $E(s^2) = \sigma^2$를 만족하지 않는다. 즉, 표본분산은 불편성을 만족하는 불편 추정량이 아니다! 다시 말해 표본분산은 '좋은 추정량'이 아니다. 따라서 우리는 표본분산이 좋은 추정량이 되게 하기 위해 정의를 약간 수정해주어야 한다. 그것은 바로 분모 $n$을 $n-1$로 바꾸어주는 것이다. 바꾸고 위 계산과정을 따르면 정확하게 $\sigma^2$이 나온다. 이것이 바로 표본분산을 구할 때 $n$이 아닌 $n-1$로 나누어주는 이유가 되겠다.

 

 나는 사실 이것이 상당히 불편한데, 표본분산을 정의할 때 우리가 일반적으로 알고 있는 분산의 정의와 충돌하기 때문이다. 뭔가 표본분산을 '좋은 추정량'으로 만들어주기 위해서 억지로 다시 정의해준 느낌?.... 아무튼 그렇다고 한다.

 

 통계를 공부하다보니 정규분포 말고도 다양한 확률분포들이 나온다. 이 글에서는 카이제곱분포에 대해 간단히 정리해보려고 한다.

 

 

 

1. 정의

 

 먼저 정의부터 살펴 보면, 카이제곱분포란 다음과 같이 정의되는 확률변수 $Q$가 따르는 확률분포이다.

$$Q = \sum_{i=1}^k Z_{i}^2$$

 $Z$는 표준정규분포를 따르는 확률변수이다. 즉, 표준정규분포를 따르는 $Z^2$을 $k$개 더한 것으로 정의되는 확률변수는 카이제곱분포를 따른다. $Q$가 카이제곱분포를 따른다는 표현은 아래와 같이 한다.

$$Q \sim \chi^2 (k) \quad or \quad Q \sim \chi_{k}^2$$

여기서 $k$는 더해지는 $Z_{i}^2$의 개수인데, 자유도(degree-of-freedom)라고 한다. 자유도의 정확한 의미에 대해서 찾아봤는데 제대로 이해하기가 상당히 어려운 개념인 것 같다. 일단 여기서는 '더해지는 $Z^2$의 개수'라고 이해해도 별 문제는 없으니, 자유도에 대한 심도있는 이해는 잠깐 미루도록 한다. 확률밀도 함수는 아래와 같다.

$$f(x; k) = \begin{cases} \frac{x^{\frac{k}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}, & x>0 \\ 0, & otherwise \end{cases}$$

 확률밀도함수가 왜 저렇게 유도되는지에 대한 수학적인 내용에는 흥미가 없다. 수학적인 내용보다는, 이러한 확률변수를 왜 정의하게 되었는지, 그리고 이게 왜 중요하고 어떻게 사용되는지에 더 관심이 많다. 그런 내용을 살펴보기 전에 잠깐 그래프에 대한 직관은 짚고 넘어가고 싶다.

 아참, 기댓값과 분산은 구해보면 아래와 같이 나온다고 한다.

$$ E(Q) = k $$

$$ V(Q) = 2k $$

 

 

 

2. 그래프

 

 자유도 $k$가 1, 2, 5, 10일 때의 그래프는 아래와 같다.

 그래프에 대한 직관을 얻기 위해 위 그래프를 자유도에 따라 하나씩 살펴보자. 먼저 자유도 $k = 1$인 경우를 생각해보자. 즉, $$ Q = Z^2, \quad Q \sim \chi^2 (1)$$

 이 경우 표준정규분포의 확률밀도함수(왼쪽)와 $Q$의 확률밀도함수(오른쪽)은 아래와 같다.

 오른쪽 $Q$의 그래프에서 가장 먼저 보이는 점은, x축이 양수라는 점이다. 이것은 $Q=Z^2$이니까 당연하다. 그리고 표준정규분포는 평균이 0이기 때문에 0 주변의 수가 가장 많이 샘플링될 것이다. 0 주변의 값들은 제곱하면 더 0에 가까워질 것이다. 다시 말해 0 주변의 값들이 많이 샘플링된다는 것은 $Q$의 입장에서 보면 더 극단적으로 0과 가까운 값들이 샘플링된다는 것이다. 따라서 $Q$의 확률밀도함수는 오른쪽 그래프처럼 그려지게 될 것이다. $k=2$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2, \quad Q \sim \chi^2 (2) $$

$k=1$일 때보다 완만해지고 꼬리가 좀 더 두꺼워 진 것을 볼 수 있다. 이것은 $Z_{1}^2$과 $Z_{2}^2$이 더해지므로써 나타나는 당연한 현상이다($k=1$일 때 $Z_{1}^2$에서만 샘플링되던 어떤 수에 다른 양수가 더해지는 것이니깐). 이어서 $k=5$인 경우도 보자.

$$ Q = Z_{1}^2 + Z_{2}^2 + Z_{3}^2 + Z_{4}^2 + Z_{5}^2, \quad Q \sim \chi^2 (5) $$

 더해지는 수가 많아지니까 당연히 봉우리가 오른쪽으로 점점 옮겨져간다. 계속 가면 어떻게 될까? 통상적으로 $k$가 30이 넘으면 대칭성을 갖춘 정규분포와 가까워진다고 한다.

 

 

 

3. 성질

 

 카이제곱분포의 가장 기본적인 성질에 대해 짚고 넘어간다. 잠깐 정의를 돌이켜보면 표준정규분포를 따르는 확률변수의 제곱의 합인 $Q$는 카이제곱분포를 따른다고 하였다.

$$ Q = \sum_{i=1}^n Z_{i}^2  \Rightarrow Q \sim \chi_{n}^2 $$

 그러면 카이제곱분포를 따르는 $Q$와 같은 서로 독립인 확률변수들을 더한 확률변수는 어떻게 될까? 다시 말해, 카이제곱분포를 따르는 $Q_{1}, Q_{2}, Q_{3}, \ldots, Q_{p}$의 자유도가 각각 $k_{1}, k_{2}, k_{3}, \ldots k_{p}$라고 했을 때, 아래와 같이 정의된 확률변수 $Y$는 어떤 분포를 따를까?

$$ Y = \sum_{i=1}^p Q_{i} $$

 당연하게도, 각 $Q$들이 $Z^2$들의 합이니까, $Q$들의 합도 $Z^2$의 합이 된다. 따라서,

$$ Y \sim \chi_{k_{1} + k_{2} + k_{3} + \ldots + k_{p}}^2 $$

 이것을 카이제곱분포의 additivity theorem이라고 한다.

 

 

 

4. 표준분산과의 관계

 

 모집단이 정규분포 $\mathcal{N}(\mu, \sigma^2)$을 따르고 여기서 뽑은 샘플을 $X_{1}, X_{2}, X_{3}, \ldots, X_{n}$이라고 할 때, 표본분산과 관련된 아래와 같은 값이 카이제곱분포를 따른다고 한다.

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$

 아직까지는 이게 왜 중요한지는 모르겠다. 나중에 알게 될 것이라고 기대한다. 일단은 봐도 딱히 어떤 의미가 있는지 모르겠으니 수학적인 증명만 해놓고 넘어가기로 하자. 증명은 카이제곱분포의 정의부터 시작한다.

$$ \begin{matrix} Q &=& \sum_{i=1}^n Z_{i}^2 \\ &=& \sum_{i=1}^n (\frac{X_{i} - \mu}{\sigma})^2\end{matrix} $$

여기서 분모인 $\sigma^2$을 잠깐 떼어 놓고 보면,

$$ \begin{matrix} \sum_{i=1}^n (X_{i} - \mu)^2  &=& \sum_{i=1}^n [(X_{i} - \bar{X}) + (\bar{X} - \mu)]^2 \\ &=& \sum_{i=1}^n (X_{i} - \bar{X})^2 + \sum_{i=1}^n (\bar{X} - \mu)^2 + 2(\bar{X} - \mu)\sum_{i=1}^n(X_{i} - \bar{X}) \\ &=& \sum_{i=1}^n(X_{i} - \bar{X})^2 + n(\bar{X} - \mu)^2 \end{matrix} $$

따라서,

$$ \begin{matrix} \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} &=& \frac{\sum_{i=1}^n (X_{i} - \bar{X})^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}} \\ &=& \frac{(n-1)S^2}{\sigma^2} + \frac{(\bar{X} - \mu)^2}{\frac{\sigma^2}{n}}\end{matrix}$$

여기서 좌항은 카이제곱분포 정의에 의해

$$ \frac{\sum_{i=1}^n (X_{i} - \mu)^2}{\sigma^2} \sim \chi_{n}^2 $$

이고, 중심극한정리에 의해 $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$이다. 따라서, 표준화한 $\frac{(\bar{X} - \mu)^2}{\sigma^2} \sim \chi_{1}^2$. 그러므로, 카이제곱분포의 additivity theorem에 의해,

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2 $$ 가 성립한다. 

 

 

지난 글에서는 가설검정 중에서 1표본 Z검정에 대해서 정리하였다.

즉, 하나의 모집단과 표본에 대한 가설검정만 다루었다.

 

이번에는 두 모집단과 표본에 대해서 가설검정 하는 내용을 다루려고 한다(2표본 Z검정).

이 글은 훌륭한 유튜브 강의 영상인 손으로만 푸는 통계 내용을 많이 참조하였음을 밝힌다.

 

이번에는 어떤 두 모집단 A, B가 있다고 하자. 이때 각 모집단의 모분산 $\sigma_{A}^2$와 $\sigma_{B}^2$는 알려져있다고 가정한다.

그런데 누군가가 모집단 A의 평균 $\mu_{A}$와 모집단 B의 평균 $\mu_{B}$가 같다고 하는 의심스러운 주장을 하고 있다. 이런 의심스러운 주장(가설)을 통계적으로 검정해보려고 한다. 다르게 말하면 우리는 $\mu_{A} = \mu_{B}$임을 주장하고 싶다. 그럼 여기서 귀무가설과 대립가설은 어떻게 될까? 아래와 같이 된다.

귀무가설 $\mathcal{H_{0}}$: $\mu_{A} = \mu_{B}$

대립가설 $\mathcal{H_{1}}$: $\mu_{B} \ne \mu_{B}$  

 

 

가설 검정의 기본적인 원리는 1표본 Z검정 때와 같다. 모집단 전체를 조사하기 어려우니까 각각 표본을 뽑아 조사하도록 하고, 아래와 같이 표본을 뽑는다. 이번에도 모집단 A와 B의 모분산이 알려져 있고, 표본의 크기 $n_A$와 $n_B$는 30보다 크다고 가정한다.

표본의 크기가 30보다 크므로, 중심극한 정리에 의해, 다음이 성립한다.

$$\bar{X_{A}}\sim\mathcal{N}(\mu_{A}, \frac{\sigma_{A}^2}{n_{A}}),$$ $$\bar{X_{B}}\sim\mathcal{N}(\mu_{B}, \frac{\sigma_{B}^2}{n_{B}})$$

 

이전에 1표본 Z검정에서는 모집단의 평균이 특정 값인지 아닌지를 따지는 것이어서 $E(\bar{X})$를 특정 값 $\mu'$인 정규분포로 놓고 표준정규분포를 이용해 p-value를 구하고 유의수준 $\alpha$와 비교했다. 근데 여기서는 귀무가설 자체가 어떤 특정 값과 비교하는 것이 아니고, 값을 모르는 두 모집단의 평균이 같다라는 것이기 때문에 이전과 같이 할 수가 없다. 그래서 약간의 기술을 사용하는데, 다음과 같이 변수를 새로 정의한다. $$Y = \bar{X}_{A} - \bar{X}_{B}$$

이렇게 해주는 이유는 어차피 $\mu_{A}$와 $\mu_{B}$를 알 수 없으니, 둘의 차이를 새로운 관점으로 해서 접근해보겠다는 것이다.

그러면 귀무가설은 $$\mu_{A} = \mu_{B}$$ $$\Leftrightarrow E(Y) = \mu_{A} - \mu_{B} = 0$$

이 된다. 그런데 $\bar{X}_{A}$와 $\bar{X}_{B}$가 각각 정규분포를 따르므로, $Y$는 다음과 같은 정규분포를 따른다. $Y$가 아래와 같은 정규분포를 따른다는 것은 수학적 증명이 필요한데, 자세한 증명은 손으로만 푸는 통계 채널을 참고하도록 하고 여기서는 생략한다. $$Y\sim\mathcal{N}(0, \frac{\sigma_{A}^2}{n_{A}} + \frac{\sigma_{B}^2}{n_{B}})$$

모집단 A, B에서 각각 뽑은 표본의 평균을 $\bar{X_{A, 1}}, \bar{X_{B, 1}}$이라고 하면 $Y_{1} = \bar{X}_{A, 1} - \bar{X}_{B, 1}$이다. 즉, 모집단 A, B에서 표본을 하나씩 뽑으면 위 정규분포에서도 $Y$에 대한 표본을 하나 뽑은 것과 같다. 유의수준 $\alpha$를 0.05로 정했다고 하고, 어쨌든 이 상태에서 $Y$의 분포에 대한 평균과 분산을 알고 있으니 표준정규분포를 이용해서 $Y_{1}$에 대한 p-value를 구할 수가 있다. 만약 구한 p-value가 $\alpha$보다 작으면, 즉 표본이 기각역 안에 있으면 귀무가설을 기각하고 대립가설을 채택할 수가 있게 된다.

 

다시 말해서, 두 모집단 A, B의 평균의 차이가 0이다 라는 귀무가설이 참이라고 했을 때, 표본을 추출해봤더니 뽑힐 확률이 5%미만인 표본이 나왔다면, 귀무가설이 잘못되었다고 볼 수 있는 것이다. 

이번엔 가설 검정에 대해 정리하려고 한다.

정리하려고 여러 자료를 찾아보던 중 엄청나게 설명을 잘 해놓은 유튜브 영상이 있어, 이 영상에 나온 내용 위주로 정리하려고 한다. 정말이지 너무 설명을 깔끔하게 잘 해놔서 존경스럽다. 나도 이렇게 명확하고 깔끔하게 잘 설명할 수 있으면 좋으련만. 영상 주소는 여기. 나처럼 통계를 공부해보려는 사람에게 아주 유용한 강의가 채널에 잔뜩 올라와있다. 강추!!

 

 

그럼 가설 검정에 대한 이야기를 시작해보자.

가설 검정이란, 말그대로 어떤 '가설'이 있을 때, 그 가설이 맞는지 틀린지 통계적인 관점에서 '검정'해보는 것이다.

먼저 어떤 상황에서 가설 검정을 하게 되는지를 보면 좀 더 순조롭게 이해가 된다.

 

상황 X)

어떤 분포를 알 수 없는 모집단이 있을 때, 어떤 사람 A가 와서 이 모집단의 평균값이 $\mu'$라고 밑도 끝도 없는 주장을 해대고 있다. 나는 대충 어림잡아 봐도 $\mu'$은 아닐 것 같아 상당의 의심이 드는데, 이 사람이 사기꾼인지 아닌지 알아보기 위해 통계적인 방법으로 A의 '가설'을 검증해보려고 한다.

 

여기서 A의 주장을 즉 가설을 '귀무가설(Null hypothesis)'이라고 한다.

그 이름도 어려운 귀무가설은 돌아갈 , 없을 를 써서 무無로 돌아갈 가설을 의미한다. 즉, 터무니 없는 가설이므로 기각될 가설이라는 뜻이다. 기호로는 보통 $\mathcal{H_{0}}$로 표현한다.

아무리 터무니없어 보여도 귀무가설이 참이 확률이 있다. 따라서 귀무가설은 기각될 수도 있고 채택될 수도 있다. 쉽게 말해 통계적으로 검정을 해보았을 때 기각된다 함은 '옳지 않은 가능성이 높다고 판단'한다는 것이고 채택된다는 것은 '옳을 가능성이 높은 것으로 판단'한다는 것이다.

 

귀무가설이 기각될 때 채택하는 가설로 '대립가설(Alternative hypothesis)'이라는 것이 있다. 이름 alternative에서 알 수 있듯이 단순히 귀무가설이 기각되면 채택하는 가설이다. 기호로는 보통 $\mathcal{H_{1}}$로 표현한다.

예를 들어 귀무가설이 '이 모집단의 평균이 100입니다!'라고 했을 때 대립가설은 '이 모집단의 평균은 100이 아니다.' 또는 '이 모집단의 평균은 100보다 크다.' 따위가 될 수 있다.

그렇다면 위의 상황 X에서 귀무가설과 대립가설을 정의해보면 어떻게 될까? 아래처럼 될 것이다.

귀무가설 $\mathcal{H_{0}}$: 모집단의 평균값이 $\mu'$이다.

대립가설 $\mathcal{H_{1}}$: 모집단의 평균값이 $\mu'$가 아니다.

 

자 그러면 어떤 방식으로 통계적 가설 검정을 하는 것일까?

먼저 이전 글에서 다룬 중심극한정리통계적 추정에 대한 내용이 숙지되어 있어야 한다.

 

A라는 사람이 모집단의 평균이 $\mu'$라고 주장하고 있다. 가장 좋은 방법은 이 모집단을 전수조사해서 평균을 내보는 것이지만 모집단이 너무 커서 시간적으로나 비용적으로나 불가능하다. 이런 상황에서는 통계적 추정에서 그랬던 것처럼 표본을 뽑아서 추론해보는 수밖에 없다.

그러니까 이사람 말대로라면 모집단의 평균이 $\mu'$라는 거니까, 중심극한정리에 의하면 표본평균의 평균 역시도 $\mu'$이어야 한다. 즉, 수학적으로 이 상황의 귀무가설과 대립가설을 수학적으로 표현해보면 아래와 같다.

귀무가설 $\mathcal{H_{0}}: E(\bar{X}) = \mu'$

대립가설 $\mathcal{H_{1}}: E(\bar{X}) \ne\mu'$

 

그럼 이제 표본을 뽑아보자.

아래 그림처럼 모집단에서 랜덤 샘플링한 표본의 평균을 $\bar{X_{1}}$, 분산을 $s^2$이라고 하자. 여기서는 모집단의 분산 $\sigma^2$이 알려져 있다고 가정하겠다.

중심극한정리에 의하면, 표본의 크기가 충분히 클 때(30 이상일 때) 표본평균의 분포는 다음과 같은 정규분포를 따른다고 했다. $$\bar{X}\sim\mathcal{N}(\mu, \frac{\sigma^2}{\sqrt{n}})$$

그러니까 지금처럼 표본을 하나 뽑는 행위는 아래 그림처럼 정규분포에서 표본평균을 하나 뽑는 것과 같다고 지난 글에서도 이야기했었다. 

다시 말해, 만약 A의 가설이 옳아 모집단의 평균이 $\mu'$가 맞다면 $\mu'$를 평균으로 하는 정규분포에서 샘플링을 하는 것이기 때문에, 높은 확률로 $\mu'$근처의 표본 평균이 샘플링될 것이고, 낮은 확률로 양 끝에 있는 표본평균이 샘플링될 것이다.

따라서 만약 추출한 표본의 평균 $\bar{X_{1}}$가 위 그림처럼 오른쪽 끝에 있는 놈이라면, 그 상황은 다음 두 가지로 생각해볼 수 있다.

1) A의 가설이 옳고, 낮은 확률로 $\bar{X_{1}}$가 뽑힌 것이다.

2) $\bar{X_{1}}$가 뽑힐 확률이 너무 낮으니까, A의 가설이 틀렸다고 봐야 한다. 즉, 저런 정규분포가 아닐 것이다.

 

'낮은 확률'의 기준을 정하는 것은 사용자의 몫이다. A의 가설이 옳다고 했을 때 $\bar{X_{1}}$가 뽑힐 확률이 1% 미만이면 A의 가설이 틀렸다고 할 수도 있고 1%가 아니라 5%, 10% 정하기 나름이다. 보통은 5%를 많이 쓰는 것 같다. 이 때의 '낮은 확률'을 '유의 수준 $\alpha$(Significant level)'라고 하며 이것을 5%로 정했다고 했을 때 $\alpha = 0.05$가 된다. 5% 미만의 확률로 뽑히는 영역 즉 $\alpha = 0.05$인 부분이 아래 그림과 같다고 했을 때, 저 영역을 $\alpha=0.05$에 해당하는 '기각역'이라고 한다. 저기서 표본평균이 뽑힌다면 귀무가설이 틀렸다고 기각할거니깐.

우리가 뽑은 표본의 평균 $\bar{X}$가 기각역 안에 있다고 해보자. 즉 사용자가 기각하기로 한 유의수준보다 낮은 확률로 뽑히는 곳에 있다(보라색 영역). 이 영역의 확률을 '유의 확률(Significant probability)' 또는 'p-value'라고 한다. 만약 보라색 영역의 확률이 2%라면 p-value=0.02가 된다.

p-value를 이용해서 귀무가설이 기각될 조건을 다시 한 번 써보면 p-value < $\frac{\alpha}{2}$라고 할 수 있다(2로 나눠주는 이유는 기각역이 양쪽 끝에 있으므로).

 

위 정규분포에서 p-value 즉 $\bar{X_{1}}$가 뽑힐 확률을 계산하는 것은 간단하다. 표준화를 해서 표준정규분포표를 이용하면 된다. 참고로 이런 식으로 표본 하나와 표준정규분포를 이용해 검정하는 방법을 '1표본 Z검정'이라고 한다고 한다.  

 

 

 

통계적 추론이란 무엇이고 어떻게 하는 것일까?
통계적 추론에는 '추정(Estimation)'과 '가설 검정(Hypothesis test)'가 있다고 한다.
이 글에서는 우선 추정에 대해서 정리한다.

다음과 같은 상황을 상상해보자.
어떤 모집단이 있다고 할 때 이 모집단의 정체를 알고 싶다. 즉, 모집단의 통계값들을 알고 싶다.
하지만 이 모집단이 너무너무 커서 모든 원소들을 하나하나 다 조사하기에는 시간도 오래 걸리고 비용도 많이 든다.
따라서 이 모집단에서 추출한 표본들만으로 모집단의 통계값들을 추정하고 싶다.
하지만 표본들은 모집단의 일부분에 불과하기 때문에 표본들로 모집단의 통계값을 추정하더라도 오차가 수반되는 것이 당연하다. 그래서 표본을 이용하여 모집단의 통계값을 추정할 때는 하나의 값으로 '점 추정(point estimation)'하기보다는 '신뢰 구간(Confidence interval)'이라고 하는 것을 이용해 '구간 추정(interval estimation)'하는 것이 대부분이다.


점 추정의 예를 들어보자.
전 세계 사람들의 평균 하루 동안의 스마트폰 사용 시간을 알고 싶다. 이 때의 모집단은 70억 명 전 세계 사람들인데 전부 다 조사하는 것은 현실적으로 불가능하다. 따라서 임의로 표본을 추출해 표본을 기반으로 모집단의 통계값을 추정하는 것이 하나의 방법이다. 예를 들어 랜덤하게 1천 명의 사람을 뽑아서, 이 집단의 평균 하루 스마트폰 사용 시간이 2.5시간이 나왔다면, 전 세계 사람들의 평균 사용 시간도 이와 같다고 추정하는 것이다. 하지만 표본의 크기가 모집단에 비해 너무 작으므로, 이 값을 신뢰하기는 어려울 것 같다. 이러한 불확실성을 보완하기 위해 구간 추정을 하게 되는 것이다.

구간으로 추정한다는 것은 말 그대로 추정하고자 하는 모집단의 평균값이 '적어도 이 구간 안에는 있어요'라고 말하는 것이다. 하지만 이것조차도 불확실성이 있으니, '적어도 이 구간 안에는 있고, $x$%만큼 신뢰할 수 있어요.'라고 보통은 표현한다. 이 때 $x$를 '신뢰도 또는 신뢰 수준(Confidence level)'이라고 한다.

그러면 어떻게 해야 이 구간이라고 하는 것을 어떻게 나타내면 좋을까?
생각해보면 점 추정에서 나온 값을 발전시킬 수 있으면 좋을 것 같다. 예를 들어, 점 추정으로 뽑은 표본의 평균이 $\bar{X}$라고 하면 '적어도 $(\bar{X} -\delta, \bar{X} +\delta)$ 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'와 같은 식으로 말할 수 있으면 좋을 것 같다.

여기서 잠시 이전 글에서 다룬 중심극한정리를 상기시켜보자.
중심극한정리에 의하면 분포를 알 수 없는 모집단의 평균이 $\mu$, 표준편차가 $\sigma$라고 할 때, 크기 $n(\ge 30)$의 표본들을 복원추출하면 표본평균의 분포는 정규분포를 따른다는 것을 알 수 있었다. 여기서 한가지 짚고 넘어가야할 점은, 이전 글에서 중심극한정리를 다룰 때 모집단의 분산은 알고 있다는 가정했다는 것이다. 즉, $\sigma$는 여기서 알고 있는 값이다. 어쨌든 그러면 표본평균 $\bar{X}$은 아래와 같은 정규분포를 따르게 된다. $$\bar{X}\sim\mathcal{N}\left( \mu, \frac{\sigma^2}{\sqrt{n}} \right)$$

결국 표본평균은 하나의 확률변수이고 모집단에서 표본을 뽑아 표본평균을 내는 것 자체가 위 정규분포에서 표본평균 하나를 샘플링 하는 것과 같다고 볼 수 있다.

다시 '적어도 $(\bar{X} -\delta, \bar{X} +\delta$) 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'라고 하고 싶은 상황에으로 되돌아 가보자.
아래 그림처럼 평균을 기준으로 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 구간이 빨간색 점선 사이라고 해보자. 그리고 표본평균을 샘플링 할 때마다 각 샘플 $\bar{X}_k\pm\delta$를 신뢰구간이라고 한다면, 아래 그림처럼 빨간색 점선 사이 안에서 샘플링되는 샘플($X_1$)은 구간 안에 모평균을 반드시 포함할 것이고, 점선 바깥에서 샘플링 되는 샘플($X_2$)는 모평균을 포함시키지 못할 것이다.

다시 말해 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$이므로 빨간색 점선 사이로 표본평균이 샘플링될 확률이 95%이고 그 샘플들은 구간 안에 모평균을 포함한다. 빨간색 점선 밖으로 표본평균이 샘플링될 확률은 5%이고 그 샘플들은 모평균을 구간 안에 포함시키지 않는다. 즉, 표본평균을 샘플링해서 신뢰구간을 만들면 100개 중 95개는 모평균을 포함하므로, 95% 신뢰할 수 있다고 말할 수 있는 것이다.
그렇다면 남은 문제는 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 $\delta$를 어떻게 구할 것인가이다. 이를 위해 다음과 같이 표준화를 한 번 해준다.

표준화를 하면 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$는 $P\left( -\delta'\le Z\le\delta' \right) = 0.95$가 되고 표준정규분포표에 의해 $\delta'$를 구하면 1.96이 나온다. 물론 이것은 신뢰수준을 95%로 했을 때의 값이고, 신뢰수준에 따라 $\delta'$값은 다르게 나온다. 주로 90%, 95%, 99%를 많이 이용한다.

여기서 잠깐! 신뢰수준이 높다는 것은 그만큼 신뢰구간이 모평균을 포함할 확률이 높다는 것이다. 모평균을 포함할 확률이 높으러면 신뢰구간이 그만큼 넓어야 한다는 것을 의미한다. 하지만 신뢰구간이 넓으면 그만큼 유용성이 떨어지게 된다. 예를 들어 '표본을 뽑아 계산해보니 전 세계 사람들의 하루 평균 스마트폰 이용 시간(모평균)은 (0, 24)시간 구간에 100%로 포함돼있어!'라고 했다고 치자. 당연히 (0, 24)구간은 모든 시간을 포함하니까 모평균이 포함될 것이다. 하지만 이렇게 추정하는 것이 무슨 의미가 있다는 것인가? 이런 trade-off 관계를 적절히 조절해서 보통은 신뢰수준 95%를 가장 흔하게 이용하는 것 같다.

결국, 통계적 추정을 할 때 통계조사를 하는 사람이 몇%의 신뢰 수준으로 추정을 하고 싶은지를 결정하면, $\delta'$값은 그에 따라 결정이 된다. 그 뒤 부등식 $-\delta'\le Z\le\delta'\Rightarrow -\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$을 모평균 $\mu$에 대해서 풀어주면 아래와 같다.$$-\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$$ $$\Rightarrow -\delta'\frac{\sigma}{\sqrt{n}}\le\bar{X}-\mu\le\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow -\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le -\mu\le -\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$
이렇게 되고 여기서 신뢰구간을 $(\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}, \bar{X} +\delta'\frac{\sigma}{\sqrt{n}})$로 표현한다.

그런데! 찝찝하게 남겨진 의문 하나가 떠오른다. 여기서는 표본의 크기가 30보다 크고 모분산을 알고 있다는 것을 전제로 하여, 중심극한정리에 의해 표본평균의 분포가 정규분포를 따른다고 하였다. 표본의 크기가 30보다 큰 것은 중심극한정리를 사용해야 하니깐 당연하다고 보면 된다. 그러나 모분산을 모르면 어떻게 할 것인가? 더군다나 모분산은 모르는 경우가 대다수일텐데 말이다.
이러한 문제와 관련한 상황을 다음과 같이 정리해 볼 수 있다.
1) 모분산을 알고 $n\ge 30$인 경우 $\Rightarrow$ 정규분포 $\mathcal{N}(\mu, \frac{\sigma^2}{\sqrt{n}})$ 활용.
2) 모분산을 모르고 $n\le 30$인 경우 $\Rightarrow$ t-분포 활용. 단, 모집단이 정규분포를 따라야 함.

t-분포에 대해서는 귀찮으므로 다음에!


참고한 곳
https://bskyvision.com/489#comment7834436

+ Recent posts