지난 글에서는 가설검정 중에서 1표본 Z검정에 대해서 정리하였다.

즉, 하나의 모집단과 표본에 대한 가설검정만 다루었다.

 

이번에는 두 모집단과 표본에 대해서 가설검정 하는 내용을 다루려고 한다(2표본 Z검정).

이 글은 훌륭한 유튜브 강의 영상인 손으로만 푸는 통계 내용을 많이 참조하였음을 밝힌다.

 

이번에는 어떤 두 모집단 A, B가 있다고 하자. 이때 각 모집단의 모분산 $\sigma_{A}^2$와 $\sigma_{B}^2$는 알려져있다고 가정한다.

그런데 누군가가 모집단 A의 평균 $\mu_{A}$와 모집단 B의 평균 $\mu_{B}$가 같다고 하는 의심스러운 주장을 하고 있다. 이런 의심스러운 주장(가설)을 통계적으로 검정해보려고 한다. 다르게 말하면 우리는 $\mu_{A} = \mu_{B}$임을 주장하고 싶다. 그럼 여기서 귀무가설과 대립가설은 어떻게 될까? 아래와 같이 된다.

귀무가설 $\mathcal{H_{0}}$: $\mu_{A} = \mu_{B}$

대립가설 $\mathcal{H_{1}}$: $\mu_{B} \ne \mu_{B}$  

 

 

가설 검정의 기본적인 원리는 1표본 Z검정 때와 같다. 모집단 전체를 조사하기 어려우니까 각각 표본을 뽑아 조사하도록 하고, 아래와 같이 표본을 뽑는다. 이번에도 모집단 A와 B의 모분산이 알려져 있고, 표본의 크기 $n_A$와 $n_B$는 30보다 크다고 가정한다.

표본의 크기가 30보다 크므로, 중심극한 정리에 의해, 다음이 성립한다.

$$\bar{X_{A}}\sim\mathcal{N}(\mu_{A}, \frac{\sigma_{A}^2}{n_{A}}),$$ $$\bar{X_{B}}\sim\mathcal{N}(\mu_{B}, \frac{\sigma_{B}^2}{n_{B}})$$

 

이전에 1표본 Z검정에서는 모집단의 평균이 특정 값인지 아닌지를 따지는 것이어서 $E(\bar{X})$를 특정 값 $\mu'$인 정규분포로 놓고 표준정규분포를 이용해 p-value를 구하고 유의수준 $\alpha$와 비교했다. 근데 여기서는 귀무가설 자체가 어떤 특정 값과 비교하는 것이 아니고, 값을 모르는 두 모집단의 평균이 같다라는 것이기 때문에 이전과 같이 할 수가 없다. 그래서 약간의 기술을 사용하는데, 다음과 같이 변수를 새로 정의한다. $$Y = \bar{X}_{A} - \bar{X}_{B}$$

이렇게 해주는 이유는 어차피 $\mu_{A}$와 $\mu_{B}$를 알 수 없으니, 둘의 차이를 새로운 관점으로 해서 접근해보겠다는 것이다.

그러면 귀무가설은 $$\mu_{A} = \mu_{B}$$ $$\Leftrightarrow E(Y) = \mu_{A} - \mu_{B} = 0$$

이 된다. 그런데 $\bar{X}_{A}$와 $\bar{X}_{B}$가 각각 정규분포를 따르므로, $Y$는 다음과 같은 정규분포를 따른다. $Y$가 아래와 같은 정규분포를 따른다는 것은 수학적 증명이 필요한데, 자세한 증명은 손으로만 푸는 통계 채널을 참고하도록 하고 여기서는 생략한다. $$Y\sim\mathcal{N}(0, \frac{\sigma_{A}^2}{n_{A}} + \frac{\sigma_{B}^2}{n_{B}})$$

모집단 A, B에서 각각 뽑은 표본의 평균을 $\bar{X_{A, 1}}, \bar{X_{B, 1}}$이라고 하면 $Y_{1} = \bar{X}_{A, 1} - \bar{X}_{B, 1}$이다. 즉, 모집단 A, B에서 표본을 하나씩 뽑으면 위 정규분포에서도 $Y$에 대한 표본을 하나 뽑은 것과 같다. 유의수준 $\alpha$를 0.05로 정했다고 하고, 어쨌든 이 상태에서 $Y$의 분포에 대한 평균과 분산을 알고 있으니 표준정규분포를 이용해서 $Y_{1}$에 대한 p-value를 구할 수가 있다. 만약 구한 p-value가 $\alpha$보다 작으면, 즉 표본이 기각역 안에 있으면 귀무가설을 기각하고 대립가설을 채택할 수가 있게 된다.

 

다시 말해서, 두 모집단 A, B의 평균의 차이가 0이다 라는 귀무가설이 참이라고 했을 때, 표본을 추출해봤더니 뽑힐 확률이 5%미만인 표본이 나왔다면, 귀무가설이 잘못되었다고 볼 수 있는 것이다. 

이번엔 가설 검정에 대해 정리하려고 한다.

정리하려고 여러 자료를 찾아보던 중 엄청나게 설명을 잘 해놓은 유튜브 영상이 있어, 이 영상에 나온 내용 위주로 정리하려고 한다. 정말이지 너무 설명을 깔끔하게 잘 해놔서 존경스럽다. 나도 이렇게 명확하고 깔끔하게 잘 설명할 수 있으면 좋으련만. 영상 주소는 여기. 나처럼 통계를 공부해보려는 사람에게 아주 유용한 강의가 채널에 잔뜩 올라와있다. 강추!!

 

 

그럼 가설 검정에 대한 이야기를 시작해보자.

가설 검정이란, 말그대로 어떤 '가설'이 있을 때, 그 가설이 맞는지 틀린지 통계적인 관점에서 '검정'해보는 것이다.

먼저 어떤 상황에서 가설 검정을 하게 되는지를 보면 좀 더 순조롭게 이해가 된다.

 

상황 X)

어떤 분포를 알 수 없는 모집단이 있을 때, 어떤 사람 A가 와서 이 모집단의 평균값이 $\mu'$라고 밑도 끝도 없는 주장을 해대고 있다. 나는 대충 어림잡아 봐도 $\mu'$은 아닐 것 같아 상당의 의심이 드는데, 이 사람이 사기꾼인지 아닌지 알아보기 위해 통계적인 방법으로 A의 '가설'을 검증해보려고 한다.

 

여기서 A의 주장을 즉 가설을 '귀무가설(Null hypothesis)'이라고 한다.

그 이름도 어려운 귀무가설은 돌아갈 , 없을 를 써서 무無로 돌아갈 가설을 의미한다. 즉, 터무니 없는 가설이므로 기각될 가설이라는 뜻이다. 기호로는 보통 $\mathcal{H_{0}}$로 표현한다.

아무리 터무니없어 보여도 귀무가설이 참이 확률이 있다. 따라서 귀무가설은 기각될 수도 있고 채택될 수도 있다. 쉽게 말해 통계적으로 검정을 해보았을 때 기각된다 함은 '옳지 않은 가능성이 높다고 판단'한다는 것이고 채택된다는 것은 '옳을 가능성이 높은 것으로 판단'한다는 것이다.

 

귀무가설이 기각될 때 채택하는 가설로 '대립가설(Alternative hypothesis)'이라는 것이 있다. 이름 alternative에서 알 수 있듯이 단순히 귀무가설이 기각되면 채택하는 가설이다. 기호로는 보통 $\mathcal{H_{1}}$로 표현한다.

예를 들어 귀무가설이 '이 모집단의 평균이 100입니다!'라고 했을 때 대립가설은 '이 모집단의 평균은 100이 아니다.' 또는 '이 모집단의 평균은 100보다 크다.' 따위가 될 수 있다.

그렇다면 위의 상황 X에서 귀무가설과 대립가설을 정의해보면 어떻게 될까? 아래처럼 될 것이다.

귀무가설 $\mathcal{H_{0}}$: 모집단의 평균값이 $\mu'$이다.

대립가설 $\mathcal{H_{1}}$: 모집단의 평균값이 $\mu'$가 아니다.

 

자 그러면 어떤 방식으로 통계적 가설 검정을 하는 것일까?

먼저 이전 글에서 다룬 중심극한정리통계적 추정에 대한 내용이 숙지되어 있어야 한다.

 

A라는 사람이 모집단의 평균이 $\mu'$라고 주장하고 있다. 가장 좋은 방법은 이 모집단을 전수조사해서 평균을 내보는 것이지만 모집단이 너무 커서 시간적으로나 비용적으로나 불가능하다. 이런 상황에서는 통계적 추정에서 그랬던 것처럼 표본을 뽑아서 추론해보는 수밖에 없다.

그러니까 이사람 말대로라면 모집단의 평균이 $\mu'$라는 거니까, 중심극한정리에 의하면 표본평균의 평균 역시도 $\mu'$이어야 한다. 즉, 수학적으로 이 상황의 귀무가설과 대립가설을 수학적으로 표현해보면 아래와 같다.

귀무가설 $\mathcal{H_{0}}: E(\bar{X}) = \mu'$

대립가설 $\mathcal{H_{1}}: E(\bar{X}) \ne\mu'$

 

그럼 이제 표본을 뽑아보자.

아래 그림처럼 모집단에서 랜덤 샘플링한 표본의 평균을 $\bar{X_{1}}$, 분산을 $s^2$이라고 하자. 여기서는 모집단의 분산 $\sigma^2$이 알려져 있다고 가정하겠다.

중심극한정리에 의하면, 표본의 크기가 충분히 클 때(30 이상일 때) 표본평균의 분포는 다음과 같은 정규분포를 따른다고 했다. $$\bar{X}\sim\mathcal{N}(\mu, \frac{\sigma^2}{\sqrt{n}})$$

그러니까 지금처럼 표본을 하나 뽑는 행위는 아래 그림처럼 정규분포에서 표본평균을 하나 뽑는 것과 같다고 지난 글에서도 이야기했었다. 

다시 말해, 만약 A의 가설이 옳아 모집단의 평균이 $\mu'$가 맞다면 $\mu'$를 평균으로 하는 정규분포에서 샘플링을 하는 것이기 때문에, 높은 확률로 $\mu'$근처의 표본 평균이 샘플링될 것이고, 낮은 확률로 양 끝에 있는 표본평균이 샘플링될 것이다.

따라서 만약 추출한 표본의 평균 $\bar{X_{1}}$가 위 그림처럼 오른쪽 끝에 있는 놈이라면, 그 상황은 다음 두 가지로 생각해볼 수 있다.

1) A의 가설이 옳고, 낮은 확률로 $\bar{X_{1}}$가 뽑힌 것이다.

2) $\bar{X_{1}}$가 뽑힐 확률이 너무 낮으니까, A의 가설이 틀렸다고 봐야 한다. 즉, 저런 정규분포가 아닐 것이다.

 

'낮은 확률'의 기준을 정하는 것은 사용자의 몫이다. A의 가설이 옳다고 했을 때 $\bar{X_{1}}$가 뽑힐 확률이 1% 미만이면 A의 가설이 틀렸다고 할 수도 있고 1%가 아니라 5%, 10% 정하기 나름이다. 보통은 5%를 많이 쓰는 것 같다. 이 때의 '낮은 확률'을 '유의 수준 $\alpha$(Significant level)'라고 하며 이것을 5%로 정했다고 했을 때 $\alpha = 0.05$가 된다. 5% 미만의 확률로 뽑히는 영역 즉 $\alpha = 0.05$인 부분이 아래 그림과 같다고 했을 때, 저 영역을 $\alpha=0.05$에 해당하는 '기각역'이라고 한다. 저기서 표본평균이 뽑힌다면 귀무가설이 틀렸다고 기각할거니깐.

우리가 뽑은 표본의 평균 $\bar{X}$가 기각역 안에 있다고 해보자. 즉 사용자가 기각하기로 한 유의수준보다 낮은 확률로 뽑히는 곳에 있다(보라색 영역). 이 영역의 확률을 '유의 확률(Significant probability)' 또는 'p-value'라고 한다. 만약 보라색 영역의 확률이 2%라면 p-value=0.02가 된다.

p-value를 이용해서 귀무가설이 기각될 조건을 다시 한 번 써보면 p-value < $\frac{\alpha}{2}$라고 할 수 있다(2로 나눠주는 이유는 기각역이 양쪽 끝에 있으므로).

 

위 정규분포에서 p-value 즉 $\bar{X_{1}}$가 뽑힐 확률을 계산하는 것은 간단하다. 표준화를 해서 표준정규분포표를 이용하면 된다. 참고로 이런 식으로 표본 하나와 표준정규분포를 이용해 검정하는 방법을 '1표본 Z검정'이라고 한다고 한다.  

 

 

 

투자서적 50권 읽기 5번째

 

횡설수설 서평

 

 워렌 버핏에게 영향을 많이 준 인물이라 관심이 갔다. 읽어 보니 정성적 평가에 기반한 성장주 투자에 관한 책이라는 생각이 든다. 굉장히 합리적이라는 생각이 들었고 이런 방법론이 주식투자의 왕도가 아닐까 하는 생각이 든다. 주식투자로 돈 벌 수 있는 방법들, 가치투자부터 기술적 투자까지 굉장히 다양한 방법들이 있지만 필립 피셔의 방식이 가장 주식투자의 근본? 취지?와 잘 맞는 것 같다고 느껴진다.

 

 그러나 문제는, 이러한 방법을 쉽게 따라할 수가 없다는 것이다. 성장주를 발굴하기 위해 가장 중요한 것이 저 15가지 포인트에 맞는 기업을 찾는 것인데, 이런 원칙에 부합하는지 확인하기 위해서는 '사실 수집(scuttlebutt)'이라는 것을 해야 한다. 여기서 말하는 사실 수집이란 내가 하듯이 인터넷에서 깨작깨작 찾아보는 것이 아니고, 실제 현장에 있는 사람들(경영진, 경쟁업체 사람들, 컨설팅 회사 사람들, 그 방면에 밝은 투자자 등)에게 '적절한 질문'을 던져서 정보를 파악하는 것이다. 사실상 나뿐만 아니라 직업투자자가 아닌 개인 투자자들은 이런 방법이 현실적으로 힘들지 않을까 싶다. 적절한 질문을 던지기 위해서 많은 공부와 통찰력이 필요한데 내가 과연 훗날에라도 이런 수준에 도달 할 수 있을까?

 

 이러한 생각을 갖고부터는 이 책에 대한 흥미도가 많이 떨어졌다. 그래서 뒷 내용은 그렇게 재미있게 읽지도 않았고 기억에 잘 남지도 않는다. 그런데 이 책의 제일 마지막 부분, 필립 피셔의 아들 케네스 피셔가 쓴 글이 인상적이었다. 필립 피셔와 가장 가까이 지낸 둘째 아들의 입장에서 아버지의 모습을 묘사하였다. 나는 저자가 사실 수집을 강조하길래 굉장히 활동적이고 외향적인 사람이라고 상상했었는데, 그와는 다르게 굉장히 비사교적이고 평생 동안 사귄 친구도 거의 없고 혼자 있는 것을 좋아했다고 한다. 또한 책 읽는 것을 좋아하고 검소하고 변화를 굉장히 싫어하는 사람이었다고. 노년에는 알츠하이머와 치매로 고생했다고 한다. 이렇게 대단한 사람도 젊은 시절의 총명함과 위대함은 온데간데 없이 나이를 이기지 못하고 쇠약해져 가는 모습을 보며 세월의 무서움을 느낀다. 

 

 

기억하고 싶은 내용

 

-어떤 주식을 살 것인가: 투자 대상 기업을 찾는 15가지 포인트

1. 적어도 향후 몇 년간 매출액이 상당히 늘어날 수 있는 충분한 시장 잠재력을 가진 제품이나 서비스를 갖고 있는가?

2. 최고 경영진은 현재의 매력적인 성장 잠재력을 가진 제품 생산라인이 더 이상 확대되기 어려워졌을 때에도 회사의 전체 매출액을 추가로 늘릴 수 있는 신제품이나 신기술을 개발하고자 하는 결의를 갖고 있는가?

3. 기업의 연구개발 노력은 회사 규모를 감안할 때 얼마나 생산적인가?

4. 평균 수준 이상의 영업 조직을 가지고 있는가?

5. 영업이익률은 충분히 거두고 있는가?

6. 영업이익률 개선을 위해 무엇을 하고 있는가? (공장 시설, 제조 공정, 원가 절감에 대한 연구)

7. 돋보이는 노사 관계를 갖고 있는가?

8. 임원들간에 훌륭한 관계가 유지되고 있는가?

9. 두터운 기업 경영진을 갖고 있는가? (경영진을 키워낼 수 있어야 함)

10. 원가 분석과 회계 관리 능력은 얼마나 우수한가?

11. 해당 업종에서 아주 특별한 의미를 지니는 별도의 사업 부문을 갖고 있으며, 이는 경쟁업체에 비해 얼마나 뛰어난 기업인가를 알려주는 중요한 단서를 제공하는가?

12. 이익을 바라보는 시각이 단기적인가 아니면 장기적인가?

13. 성장에 필요한 자금 조달을 위해 가까운 장래에 증자를 할 계획이 있으며, 이로 인해 현재의 주주가 누리는 이익이 상당 부분 희석될 가능성은 없는가?

14. 경영진은 모든 것이 순조로울 때는 투자자들과 자유롭게 대화하지만 문제가 발생하거나 실망스러운 일이 벌어졌을 때는 입을 꾹 다물어버리지 않는가?

15. 의문의 여지가 없을 정도로 진실한 치고 경영진을 갖고 이있는가?

-위대한 기업에 투자하라, 3장-

 

 

-언제 팔 것인가, 그리고 언제 팔지 말 것인가

앞서 설명했던 투자 원칙에 따라 처음부터 제대로 선정한 주식이라면 팔아야 할 이유는 정확히 세 가지밖에 없다.

1) 처음에 주식을 매수할 때 실수를 저질렀고, 또 투자한 회사가 가지고 있다고 믿었던 우수한 점이 자세히 살펴 볼수록 훨씬 덜 하다는 사실이 명백해질 때. 투자자는 감정을 통제하고 자신에게 솔직해져야 함.

2) 시간이 지남에 따라 15가지 포인트를 충족시킬 만큼 우수한 조건을 이제 더 이상 갖추지 못하는 상황으로 변했을 때. 계속 관찰해야 함. 경영진의 능력 저하(자만, 교체로 인한), 주력 제품 전망 안 좋아짐. 

3) 다른 매력적인 종목을 찾았을 때(15가지 원칙을 따랐다면 이런 기회는 굉장히 오기 힘듦).

-위대한 기업에 투자하라, 6장-

 

 

-성장주 발굴시 분명히 확인해야 할 두 가지

"그렇다면 핵심적인 문제란 무엇인가? 우선 어떤 기업이 앞서 소개한 15가지 포인트를 충족시키는지 파악하는 것이다. 여기서는 특히 두 가지 사항을  미리 분명하게 확인하는 게 중요하다.

1) 그 기업의 주된 사업은 돋보일 정도로 매출액 성장률을 지속하기에 충분한가?

2) 주된 사업이 속해 있는 산업 전반이 성장하게 되면 새로운 경쟁업체가 등장해 그 기업의 시장 선도적인 지위를 위협하기가 용이하지 않은가? 만약 그 기업이 주력으로 하는 사업 자체가 경쟁업체의 신규 진입을 막을 수 없다면 비록 빠르게 성장하는 기업이라 해도 투자 가치는 비교적 작다고 할 수 있다."

-위대한 기업에 투자하라, 238p-

 

 

 

 

통계적 추론이란 무엇이고 어떻게 하는 것일까?
통계적 추론에는 '추정(Estimation)'과 '가설 검정(Hypothesis test)'가 있다고 한다.
이 글에서는 우선 추정에 대해서 정리한다.

다음과 같은 상황을 상상해보자.
어떤 모집단이 있다고 할 때 이 모집단의 정체를 알고 싶다. 즉, 모집단의 통계값들을 알고 싶다.
하지만 이 모집단이 너무너무 커서 모든 원소들을 하나하나 다 조사하기에는 시간도 오래 걸리고 비용도 많이 든다.
따라서 이 모집단에서 추출한 표본들만으로 모집단의 통계값들을 추정하고 싶다.
하지만 표본들은 모집단의 일부분에 불과하기 때문에 표본들로 모집단의 통계값을 추정하더라도 오차가 수반되는 것이 당연하다. 그래서 표본을 이용하여 모집단의 통계값을 추정할 때는 하나의 값으로 '점 추정(point estimation)'하기보다는 '신뢰 구간(Confidence interval)'이라고 하는 것을 이용해 '구간 추정(interval estimation)'하는 것이 대부분이다.


점 추정의 예를 들어보자.
전 세계 사람들의 평균 하루 동안의 스마트폰 사용 시간을 알고 싶다. 이 때의 모집단은 70억 명 전 세계 사람들인데 전부 다 조사하는 것은 현실적으로 불가능하다. 따라서 임의로 표본을 추출해 표본을 기반으로 모집단의 통계값을 추정하는 것이 하나의 방법이다. 예를 들어 랜덤하게 1천 명의 사람을 뽑아서, 이 집단의 평균 하루 스마트폰 사용 시간이 2.5시간이 나왔다면, 전 세계 사람들의 평균 사용 시간도 이와 같다고 추정하는 것이다. 하지만 표본의 크기가 모집단에 비해 너무 작으므로, 이 값을 신뢰하기는 어려울 것 같다. 이러한 불확실성을 보완하기 위해 구간 추정을 하게 되는 것이다.

구간으로 추정한다는 것은 말 그대로 추정하고자 하는 모집단의 평균값이 '적어도 이 구간 안에는 있어요'라고 말하는 것이다. 하지만 이것조차도 불확실성이 있으니, '적어도 이 구간 안에는 있고, $x$%만큼 신뢰할 수 있어요.'라고 보통은 표현한다. 이 때 $x$를 '신뢰도 또는 신뢰 수준(Confidence level)'이라고 한다.

그러면 어떻게 해야 이 구간이라고 하는 것을 어떻게 나타내면 좋을까?
생각해보면 점 추정에서 나온 값을 발전시킬 수 있으면 좋을 것 같다. 예를 들어, 점 추정으로 뽑은 표본의 평균이 $\bar{X}$라고 하면 '적어도 $(\bar{X} -\delta, \bar{X} +\delta)$ 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'와 같은 식으로 말할 수 있으면 좋을 것 같다.

여기서 잠시 이전 글에서 다룬 중심극한정리를 상기시켜보자.
중심극한정리에 의하면 분포를 알 수 없는 모집단의 평균이 $\mu$, 표준편차가 $\sigma$라고 할 때, 크기 $n(\ge 30)$의 표본들을 복원추출하면 표본평균의 분포는 정규분포를 따른다는 것을 알 수 있었다. 여기서 한가지 짚고 넘어가야할 점은, 이전 글에서 중심극한정리를 다룰 때 모집단의 분산은 알고 있다는 가정했다는 것이다. 즉, $\sigma$는 여기서 알고 있는 값이다. 어쨌든 그러면 표본평균 $\bar{X}$은 아래와 같은 정규분포를 따르게 된다. $$\bar{X}\sim\mathcal{N}\left( \mu, \frac{\sigma^2}{\sqrt{n}} \right)$$

결국 표본평균은 하나의 확률변수이고 모집단에서 표본을 뽑아 표본평균을 내는 것 자체가 위 정규분포에서 표본평균 하나를 샘플링 하는 것과 같다고 볼 수 있다.

다시 '적어도 $(\bar{X} -\delta, \bar{X} +\delta$) 안에는 모평균이 있고, 95%정도 신뢰할 수 있어요.'라고 하고 싶은 상황에으로 되돌아 가보자.
아래 그림처럼 평균을 기준으로 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 구간이 빨간색 점선 사이라고 해보자. 그리고 표본평균을 샘플링 할 때마다 각 샘플 $\bar{X}_k\pm\delta$를 신뢰구간이라고 한다면, 아래 그림처럼 빨간색 점선 사이 안에서 샘플링되는 샘플($X_1$)은 구간 안에 모평균을 반드시 포함할 것이고, 점선 바깥에서 샘플링 되는 샘플($X_2$)는 모평균을 포함시키지 못할 것이다.

다시 말해 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$이므로 빨간색 점선 사이로 표본평균이 샘플링될 확률이 95%이고 그 샘플들은 구간 안에 모평균을 포함한다. 빨간색 점선 밖으로 표본평균이 샘플링될 확률은 5%이고 그 샘플들은 모평균을 구간 안에 포함시키지 않는다. 즉, 표본평균을 샘플링해서 신뢰구간을 만들면 100개 중 95개는 모평균을 포함하므로, 95% 신뢰할 수 있다고 말할 수 있는 것이다.
그렇다면 남은 문제는 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$가 되는 $\delta$를 어떻게 구할 것인가이다. 이를 위해 다음과 같이 표준화를 한 번 해준다.

표준화를 하면 $P\left( \mu-\delta\le\bar{X}\le\mu+\delta \right) = 0.95$는 $P\left( -\delta'\le Z\le\delta' \right) = 0.95$가 되고 표준정규분포표에 의해 $\delta'$를 구하면 1.96이 나온다. 물론 이것은 신뢰수준을 95%로 했을 때의 값이고, 신뢰수준에 따라 $\delta'$값은 다르게 나온다. 주로 90%, 95%, 99%를 많이 이용한다.

여기서 잠깐! 신뢰수준이 높다는 것은 그만큼 신뢰구간이 모평균을 포함할 확률이 높다는 것이다. 모평균을 포함할 확률이 높으러면 신뢰구간이 그만큼 넓어야 한다는 것을 의미한다. 하지만 신뢰구간이 넓으면 그만큼 유용성이 떨어지게 된다. 예를 들어 '표본을 뽑아 계산해보니 전 세계 사람들의 하루 평균 스마트폰 이용 시간(모평균)은 (0, 24)시간 구간에 100%로 포함돼있어!'라고 했다고 치자. 당연히 (0, 24)구간은 모든 시간을 포함하니까 모평균이 포함될 것이다. 하지만 이렇게 추정하는 것이 무슨 의미가 있다는 것인가? 이런 trade-off 관계를 적절히 조절해서 보통은 신뢰수준 95%를 가장 흔하게 이용하는 것 같다.

결국, 통계적 추정을 할 때 통계조사를 하는 사람이 몇%의 신뢰 수준으로 추정을 하고 싶은지를 결정하면, $\delta'$값은 그에 따라 결정이 된다. 그 뒤 부등식 $-\delta'\le Z\le\delta'\Rightarrow -\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$을 모평균 $\mu$에 대해서 풀어주면 아래와 같다.$$-\delta'\le\frac{\bar{X}-\mu}{\sigma\over\sqrt{n}}\le\delta'$$ $$\Rightarrow -\delta'\frac{\sigma}{\sqrt{n}}\le\bar{X}-\mu\le\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow -\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le -\mu\le -\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$ $$\Rightarrow\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X} +\delta'\frac{\sigma}{\sqrt{n}}$$
이렇게 되고 여기서 신뢰구간을 $(\bar{X} -\delta'\frac{\sigma}{\sqrt{n}}, \bar{X} +\delta'\frac{\sigma}{\sqrt{n}})$로 표현한다.

그런데! 찝찝하게 남겨진 의문 하나가 떠오른다. 여기서는 표본의 크기가 30보다 크고 모분산을 알고 있다는 것을 전제로 하여, 중심극한정리에 의해 표본평균의 분포가 정규분포를 따른다고 하였다. 표본의 크기가 30보다 큰 것은 중심극한정리를 사용해야 하니깐 당연하다고 보면 된다. 그러나 모분산을 모르면 어떻게 할 것인가? 더군다나 모분산은 모르는 경우가 대다수일텐데 말이다.
이러한 문제와 관련한 상황을 다음과 같이 정리해 볼 수 있다.
1) 모분산을 알고 $n\ge 30$인 경우 $\Rightarrow$ 정규분포 $\mathcal{N}(\mu, \frac{\sigma^2}{\sqrt{n}})$ 활용.
2) 모분산을 모르고 $n\le 30$인 경우 $\Rightarrow$ t-분포 활용. 단, 모집단이 정규분포를 따라야 함.

t-분포에 대해서는 귀찮으므로 다음에!


참고한 곳
https://bskyvision.com/489#comment7834436

 통계학에서 중요하게 다뤄지는 중심극한정리의 개념에 대해 간단하게 정리하고자 한다. 나는 수학을 못하기 때문에 해봤자 와 닿지도 않는 수학적 증명과 수식은 제끼기로 했다. 위대하신 수학자님들이 잘 해놓으셨다고 하니 그냥 믿기로 하고, 실험을 통해 몸으로 느껴보기로 한다. 여러 자료를 읽어본 결과 중심극한 정리는 한 마디로 다음과 같이 정리할 수 있을 것 같다.

 

"모집단에서 크기 30 이상의 표본들을 복원추출하면, 모집단의 분포와 상관없이 이 표본들의 평균의 분포가 근사적으로 정규분포를 이루며, 이 때의 평균은 모집단의 평균과 같고 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같다."

 

 여기서 왜 하필 30인지는 모르겠는데, 구글에서 검색해보면 그냥 통계학계에서의 관행이라는 것 같다.

 

 실제로 이 사실이 맞는지 확인하기 위해, 다음과 같이 간단한 실험을 한다.

1) 모집단의 분포를 정한다.

2) 모집단에서 크기 30의 표본을 복원추출한다.

3) 추출된 표본들의 평균의 분포가 정규분포와 가까운지 본다.

 

 모집단의 확률 분포는 Uniform, Norm, Gamma, Exponential, Poisson, Binom, Bernoulli로 해보기로 했다. 확률분포들은 이 링크를 참고하여 만들었다. 돌려본 결과는 아래와 같다. 왼쪽 그림은 해당 확률 분포의 확률밀도(질량)함수이고, 오른쪽이 표본평균의 분포이다.

 

 오른쪽 그림들에서 표본평균의 분포를 보면 정규분포와 비슷하게 보인다. 표본의 개수를 늘리면 점점 더 정규분포와 가까워진다. 

 그럼 이제 직관적인 이해를 한 번 해보자. 어떤 모집단이 있을 때, 그 모집단은 어떤 평균치를 가지고 있을 것이다. 이 모집단에서 랜덤하게 표본을 하나 샘플링하면, 이 표본의 분포는 모집단에서 어떤 원소들이 선택되느냐에 따라서 모집단과 비슷할 수도 있고, 아닐 수도 있다. 그리고 분포가 비슷하면 평균도 비슷할 것이고, 안 비슷하면 평균도 안 비슷할것이다. 그러나 아무래도 모집단의 분포를 고려하면 뽑힐 확률이 큰, 그러니까 다르게 표현하면 확률밀도(질량)함수의 함숫값이 큰 원소들이 더 많이 뽑힐 것이고, 그런 원소들의 평균은 모집단의 평균과 가까울 가능성이 클 것 같다. 따라서 복원추출을 하면, 모집단의 평균과 가까운 평균을 갖는 표본들이 많이 뽑힐 것이고 따라서 표본평균의 분포가 정규분포를 따르는 것이 자연스러워 보인다.

 그런데 모집단의 평균과 표본평균의 평균이 같아지는 것은 직관적으로 쉽게 이해가 되는데, 표본분산은 모분산을 표본의 크기로 나누어주는 것은 어떻게 이해해야 할까. 분산, 또는 표준편차는 평균으로부터 얼마나 퍼져 있는지를 나타낸다. 표본분산 = 모분산/표본의 크기 라는 것은 일단 표본분산이 모분산보다는 작다는 것이고 즉, 평균에 더 몰려있다는 뜻이고 이러한 경향은 표본의 크기가 클 수록 커진다는 것이다. 왜 그럴까? 한 번 상상을 해보자. 일단 모집단이 정규분포를 따르고 표본의 크기가 1인 경우를 가정해보자. 표본의 크기가 1이기 때문에 표본평균은 그냥 그 원소의 값이 될 것이고 그러면 표본평균의 분산이 결국 모집단에서 뽑은 원소들의 분산이 될 것이니까, 표본의 개수가 커질수록 표본평균의 분산은 모집단의 분산과 같아질 것임을 알 수 있다. 여기서 표본의 크기를 1에서 더 늘려본다고 상상해보자. 한 가지 기억할 사실은 정규분포에서 표본을 추출해서 그 원소들을 살펴보면, 모집단의 평균과 가까운 원소들이 평균과 먼 원소들보다 많을 것이라는 것이다. 따라서 표본의 크기를 늘려 한 번에 여러 개의 원소를 추출해서 평균을 내면, 평균에서 머~얼리 떨어진 원소보다는 평균에 가깝게 될 것이다. 그렇기 때문에 표본평균의 분포는 모집단보다 더 평균에 밀집된 형태를 가질 것이고, 따라서 분산이 더 작아질 수 밖에 없는 것이다.

 이와 같은 맥락에서 또 한 가지 생각해 볼 것은, 표본의 크기가 커질수록 표본의 평균의 모집단의 평균과 같을 확률이 높아진다는 것이다. 즉, 모집단에서 어떤 표본을 뽑아서 평균을 구했을 때, 표본의 크기가 크면 클수록 모집단의 평균과 가까울 것이라는 것이 자연스레 이해가 된다. 모집단에서 표본을 뽑아 평균을 구하는 행위를 표본평균을 하나 샘플링하는 것과 같다고 보는 관점에서, 표본의 크기가 클수록 평균 근처의 값이 더 많이 샘플링되니까 표본평균의 분포의 분산이 더 작아지는 것이다.

 

 직관적으로는 이렇고, 수학적인 증명과정은 여기여기서 찾아볼 수 있다.

 

 

 여기까지 중심극한정리가 어떤 것인지 알아보았다. 그런데 아직 남은 의문. 이게 왜 그렇게 중요한 걸까? 이건 귀찮으니 다음에 알아보도록 한다.

 

 

기억하고 싶은 내용

 

1. 배당주 투자가 좋은 이유

- 배당주 투자는 배당과 시세차익을 동시에 노릴 수 있다.

- 배당주 투자는 좀 더 안전하다: 배당을 꾸준히 준다 -> 사업이 잘 되고 있다는 것.

- 배당주 투자는 쉽다: 배당을 잘 주는 기업으로 한정 -> 대부분 재무가 안정적. 경영진 리스크 적음. 배당을 투자 신호로 활용 가능.

 

2. 한국의 배당성향은 다른 나라에 비해 낮은 편. 그러나 늘어나는 추세

- 전 세계 평균은 44.6%, 한국은 19.4%.

- 국민연금이 배당하도록 압박

 

3. 배당주 투자의 7가지 체크 포인트

- 사업현황

- 사업의 수익성 & 재무건전성

- 배당현황

- 지배구조 & 경영진 평판

- 주가 수준(저평가 여부)

- 금융시장의 상황

- 우선주 발행 여부

 

4. 대주주의 지분율이 높을수록 배당성향이 높은 경향이 있다.

 

5. 시가배당률법

- 시가배당률(배당수익률) = 주당배당금 / 주가

- 시가배당률은 기업의 실적이 좋아져 주당배당금이 늘거나, 실적은 그대로인데 시장이 하락했을 때 올라간다.

- 시가배당률이 낮을 때를 저평가되었다고 판단하고 매수, 높을 때는 고평가되었다고 판단하고 매도하는 방법

- 주로 시세차익이 목표

 

6. 시가배당률법으로 알짜 종목 찾는 방법

- 좋은 기업을 선별: 모든 주식투자의 기본, 실적이 좋고 앞으로도 더욱 좋아질 종목을 찾는다.

- 선별된 기업 중에서 배당을 중시하며, 배당성향이 좋은 기업을 고른다.

- 과거 시가배당률의 저점과 고점을 찾아낸다.

- 시가배당률이 고점에 이르렀거나, 고점을 넘은 기업의 주식을 매수한다(주가가 저평가되었기 때문)

- 주가가 상승해서 시가배당률이 역사적 저점에 이르게 되면 팔아서 차익을 실현한다.

 

7. 국채시가배당률법 - 이 책의 핵심

- 저자는 한국쉘석유를 보던 중, 시가배당률법으로는 설명이 안되는 현상 발견: 시가배당률이 낮아졌는데도 주가가 계속 급등

- 이를 설명할 수 있는 원인 중 시중금리 하락에 주목함

- 시중금리가 하락하면 상대적으로 배당주의 매력이 커짐, 반대로 상승하면 배당주 매력이 상대적으로 낮아짐.

- 시가배당률은 이러한 시중금리의 영향을 효과적으로 반영하지 못함

- 따라서 국채시가배당률 = 배당수익률 / 시중금리(3년 국고채 금리)를 투자지표로 활용 

- 이 지표를 6의 과정에 시가배당률 대신 적용한 것이 국채시가배당률법

- 국채금리를 활용하는 이유?: 3년 만기 국고채 금리는 장기금리의 흐름을 보여주는 대표 지표로 쓰이며 그 나라 시중금리의 기본금리가 된다고 함.

 

8. 배당주 ETF에 대한 맹신이 위험한 이유

- 변동성이 적을 것 같지만 딱히 그렇지 않음.

- 금융위기 같은 환경에서 검증되지 않음: 금융위기가 오면 잘 성장하던 기업도 실적이 일시적 악화. 보통 금융위기가 지나가고 잘 회복하지만 그 한 번으로 인해서 ETF 포트폴리오 조건에 안맞아 탈락해버릴 수도 있음. 

 

9. 금리에 대하여

- 스프레드(spread)는 비교대상(base)과 얼마나 차이가 벌어져 있는지를 표현할 때 사용되는 금융용어.

- 대출금리 = 기준금리 + 가산금리

- 대출금리의 기준금리는 COFIX 기준금리 사용, 가산금리는 개인의 신용도에 따라 다르게 적용.

- 채권금리 = 시간가치(기준금리) + 신용스프레드(가산금리)

- 시간가치: 대출은 미래의 돈을 끌어다 쓰는 것과 같으므로 시간 차이의 가치만큼 비용을 지불 -> 이게 채권금리에서 기준금리가 됨

- 신용스프레드: 빌리는 측(채무자)의 신용도도 금리에 반영. 즉, 상환 가능성을 반영. 

- 신용도가 높다 -> 가산금리가 더 낮음(why?)

 

10. 경기과열

- 자본주의에서 경기는 확장과 수축을 반복하기 마련.

- 경기 확장 국면: 산업 전반의 수요 증가 -> 추가 공급을 위한 설비투자 활발 -> 자금 수요 증가 -> (기준)금리 상승

- 경기 수축 국면: 수요 감소 -> 과잉 공급으로 인한 공급 위축 -> 투자와 자금수요 감소 -> (기준)금리 하락

- 신용스프레드: 경기가 좋을 때 하락, 경기가 나쁠 때 상승 -> 불경기에는 채무 불이행 확률이 높아지므로(신용도가 낮으므로).

- 장단기 금리 스프레드: 단기(1년) 국채금리와 장기(10년) 국채금리의 차이

- 경기 호황기에는 자금을 길게 융퉁하고 싶으므로 장기채권 선호 -> 장기자금 수요 늘어남 -> 장기채권 금리 상승 -> 장단기 금리 스프레드 확대

- 경기 수축기에는 단기 자금 선호 -> 장단기 금리 스프레드 감소

- 장단기 금리가 역전되면 위험 신호. 경기 전망 매우 부정적

 

11. 불경기 위험 경고

- 민스키 모멘트: 자산시장이 안정적이고 수익률 높음 -> 레버리지 활발 -> 자산 가격 상승 -> 레버리지 더욱 활성화 -> 부채 증가하면서 거품 많아짐 -> 한계에 봉착하면 부채상환 능력이 없는 자산 처분 -> 거품 터짐.

- 이러한 민스키 모멘트를 감지할 수 있는 지표는 신용거래 융자잔고

- 신용거래 융자잔고(신용잔고): 주식시장의 신용대출 변화를 나타내는 대표적인 지표

- 신용잔고의 증가 속도 = log(신용잔고 / 직전 240일 신용잔고의 평균치)

- 보통 이 값이 -1 ~ 1 사이로 움직임. 즉, 신용잔고가 1년 평균치의 1/2 ~ 2배 사이에서 움직임

- 2008년의 경우 1을 강하게 뚫고 올라감 -> 거품이 많았다는 것을 의미 -> 이후 -1을 뚫고 하락

 

12. 포트폴리오 자산배분 투자전략

- 음의 상관관계를 보이는 자산군을 같이 포트폴리오에 넣으면 위험과 변동성을 줄일 수 있음.

- 배당주와 음의 상관관계: 배당주는 결국 코스피 -> 코스피와 반대로 움직이는 것은 달러화 혹은 달러 표시 채권

- 즉, 코스피지수와 달러원 환율은 반대로 움직임.

 


처음 이 책을 내 메모장(읽을 책 목록)에 추가했던 것은, 어디선가 책 소개를 보았을 때였다.

정확히 어떤 내용이었는지도 기억은 잘 안나는데, 아무튼 주인공이 진리를 찾아 떠나는 여정이 닮긴 책이라고 말했었던 것 같고

그 단순한 문장에 꼭 읽어보고 싶다는 생각을 했던 것 같다.


나중에 여자친구가 말해줘서 알게 된 것인데, 

고타마 싯다르타가 부처의 본명(?) 이라고 하더라. 고타마와 싯다르타는 각기 다른 인물로 소설에서 등장하지만, 결국 둘 다 완성자로 거듭난다. 아마도 부처의 깨달음을 얻는 과정, 생애를 각색해서 소설로 쓰지 않았을까 싶다.


주변의 존경과 사랑을 받고 완벽한 엄친아 같은 주인공임에도 어딘가 불만족을 느낀다. 주인공은 완전한 내면의 평화, 자아를 찾아 여행을 떠난다. 사문 생활을 하기도 하고, 완성자인 고타마의 가르침을 받다가도 그곳을 떠나 세속적인 생활을 하다가 결국에는 완전한 꺠달음을 얻는 것으로 결론이 난다. 


처음에는 싯다르타의 대사나 생각이 어느정도 이해가 되고 공감이 되다가도, 점점 난해하고 와 닿지 않았다. 뭔가 시간의 무의미함, 세계의 단일성 따위의 말들이 반복해서 나오는 걸 보면 이런 것들을 강조하고 싶은 것 같은데, 난 잘 이해가 되지 않더라.


진리는 가르칠 수 없다. 이 책에서 헤르만 헤세가 말하고 싶었던 것이라고 한다. 이 말에는 어느 정도 공감이 된다. 

비단 진리 뿐만 아니라 어떤 지식을 배울 때도 나는 비슷한 경험을 한다. 어떤 개념을 이해한 사람이 그것을 다른 사람에게 아무리 잘 설명한다고 하더라도, 배우는 사람이 그것을 잘 곱씹고 스스로 그 과정을 되짚어보지 않으면 자기 것이 되지 않는다. 또는 들으면서는 이해가 됐다고 착각하면서 그냥 넘어가 버리는 경우도 허다하다.

고작 별 거 아닌 지식이나 개념도 저러한데, 진리는 그 정도가 얼마나 더할까. 스스로 사색하고 체험하지 않으면 진리에는 도달할 수 없을 것 같은 생각이 든다. 


진리를 깨달은 사람이 말로써 이것을 전달하려고 할 때, 말의 불완전성에 대해서도 저자는 언급한다.

그 부분을 읽으면서, 종교에서 교리와 문자에만 집착하는 사람들이 떠올랐다. 진리를 전달하기 위해 어쩔수 없이 '말'로써 만들어놓은 것들에 너무 집착한 나머지 정작 중요한 것들을 놓쳐버려서는 안 될 것이다. 마치 달을 가리키는데 손가락만 쳐다보는 것처럼.


 

+ Recent posts