5. 통계적 가설검정

Ch3. 가설검정

통계적 가설검정은 어떤 가설을 세우고 그 가설이 사실일 가능성과 사실이 아닐 가능성을 비교해서 의사결정을 하는 하나의 추론과정입니다. 그리고 언제나 강조하지만, 가능성은 곧 확률로 표현되고 확률을 계산하기 위해서는 확률분포가 필요합니다. 결국 추정량의 확률분포를 가정하거나 근사시키는 방법으로 구간추정과 동일한 아이디어, 동일한 결과를 보여줍니다. 가설검정을 이해하기 위해서는 몇 가지 용어에 대한 학습이 필요합니다. 정리해 보도록 하겠습니다.

가설검정과 관련된 용어

귀무가설(Null Hypothesis, $H_0$ )

귀무가설은 분석자가 검정하기를 원하는 가설입니다. 또한 통계적 가설검정의 시작이자 끝입니다. 왜 그런지는 가설검정의 과정을 간단하게 요약하면 다음과 같습니다.

얻어진 표본을 이용해 귀무가설 하에서 가정되는 확률분포를 계산할 수 있는 형태를 만듭니다.
귀무가설 하에서 가정되는 확률분포를 검토해서 의사결정을 합니다.

귀무가설이 사실일 것 같으면 '귀무가설을 기각하지 못한다' 라고 표현하며 그렇지 않으면 '귀무가설을 기각한다' 라고 표현합니다. 위의 표현을 보면 알 수 있듯이 모든 가설검정은 귀무가설 중심으로 이루어집니다. 이는 통계적으로 매우 중요한 관점입니다. 검정의 모든 과정은 귀무가설이 사실이라는 가정하에 이루어지고 일반적으로 우리의 목표는 귀무가설이 사실이 아니라는 것을 증명하는 것입니다. 그렇기에 귀무가설을 기각하지 못한다고 하더라도 귀무가설이 사실이라고 해석하기 보다는 '귀무가설이 틀렸다는 확실한 증거를 찾지 못했다' 정도로 생각하시는게 정확한 시각입니다.

대립가설(Alternative hypothesis, $H_1$ )

대립가설은 귀무가설이 기각 되었을 때 받아들여지는 가설입니다. 그렇기에 당연하게도 귀무가설과 수학적으로 배타적입니다(exclusive). 두 가설의 교집합은 없고 두 가설의 합집합은 전체집합입니다. 대립가설은 검정의 대상이 아닙니다. 다만 우리가 선택한 귀무가설에 반하는 결과가 나올 시 선택되는 것 뿐이죠. 그래서 대부분 대립가설은 귀무가설은 사실이 아니다( $H_1 : not\; H_0$ ) 라고 표현하곤 합니다.

제 1종 오류(type 1 error)와 제 2종 오류(type 2 error) 그리고 유의수준(significance levele)

1종 오류는 귀무가설이 사실일 때 귀무가설을 기각할 확률이고, 일반적으로 $\alpha$ 라고 표현합니다.
2종 오류는 귀무가설이 사실이 아닐 때, 귀무가설을 기각하지 않을 확률이고 $\beta$ 라고 표현합니다.

즉, 두 경우 모두 분석자가 잘못된 선택을 하게 될 확률(오류율)입니다.

	H0 : TRUE	H1 : TRUE
H0 기각 못함	정확한 선택	2종 오류
H0 기각	1종 오류	정확한 선택

오류(Error)는 어떤 오류를 막론하고 일단은 낮은 것이 중요합니다. 하지만 같은 표본 핳에서 우리는 이 두가지의 오류를 동시에 줄이지 못합니다. 흔히 Trade - off관계라고 할 수 있습니다. $\alpha$ 를 줄이려고 하면 $\beta$ 가 늘어나며, 반대로 $\beta$ 를 줄이려고 하면 $\alpha$ 가 늘어나게 됩니다. 이 두 경우를 동시에 줄이는 방법은 오로지 표본 수 n을 늘려가는 방법밖에 없습니다.

그렇기에 고정된 표본 수 하에서 우리는 하나의 오류율을 고정시키고 분석을 진행합니다. 우리가 관심있는 것은 언제나 귀무가설이므로 일반적으로 귀무가설이 사실일 때 귀무가설을 기각할 확률, 즉 1종 오류를 고정시킵니다. 여기서 고정시킨다는 것은 그 한계치를 정해둔다는 의미입니다.

가설검정을 할 때 $\alpha = 0.05$ 혹은 $\alpha = 0.1$ 과 같은 문구들을 보았을 것입니다. 여기서 알파가 바로 제 1종오류의 허용치입니다. 귀무가설이 사실일 때 귀무가설을 기각할 확률의 한계치를 5% 혹은 10%로 고정시키고 분석을 하는 것이죠. 이 최대 허용치를 유의수준이라고 부릅니다.

일반적으로 유의수준과 1종오류는 같지만 이산형과 같이 확률을 연속적으로 컨트롤할 수 없는 경우에는 유의수준보다 1종오류가 작을 수 있습니다. 하지만 우리는 대부분 연속형 검정을 다루기 때문에 대부분 같다고 생각하시면 될 것 같습니다.

검정통계량(test statistic)

검정통계량은 검정에 사용되는 통계량입니다. 이 역시 하나의 통계량이므로 표본들의 함수입니다. 표본들의 함수라는 말을 조금 가볍게 표현하면 표본들을 이리 저리 조합해서 만든다는 말이죠. 그렇다면 여기서 하나의 궁금증이 생기게 됩니다. '이리 저리 조합'하는 기준은 뭘까요? 즉, 검정통계량의 형태에 대한 궁금증입니다. 어렵게 생각하시지 마시고 위에서 학습한 구간추정과 같은 아이디어라고 생각하시면 편합니다. 귀무가설 하에서 우리가 원하는 확률분포를 따르도록 조합하는 것입니다. 그리고 그 조합의 결과물이 검정통계량인 것이죠. 이는 확률을 계산하기 위한 핵심 아이디어 입니다.

유의확률(significance probability, p-value)

유의확률은 귀무가설 하에서 계산된 검정통계량 값보다 더 극단적인 값이 나올 확률입니다. 흔히 pvalue 혹은 p값이라고 부르며 가설검정에서 의사선택을 하게 해주는 중요한 지표라고 할 수 있습니다. 귀무가설 하에서 검정통계량은 분석자가 의도했던 확률분포를 따르기 때문에 우리가 계산한 검정통계량이 그 확률 구조에서 어느 영역에 포함되어 있는지 알 수 있습니다. 그리고 그 검정통계량보다 더 극단적인 영역에 있을 확률이 바로 유의확률입니다. (만약 오른쪽 검정을 한다면 더 오른쪽에 있을 확률이고 양측 검정을 한다면 양쪽 극단에 있을 확률일겁니다.)

예시를 통해 조금 더 설명을 해보도록 하겠습니다. 대한민국 남성의 키를 추정하고자하는 예시를 이용하도록 하겠습니다.

정규모집단에서 100명의 표본을 뽑아서 모평균이 167.5이 맞는지 인 검정을 하려합니다. (참고로 이는 일표본 t검정이라 불리는 가설검정입니다.)

표본평균은 170, 표본표준편차는 10이 나왔습니다. 정리하면 다음과 같습니다.

n = 100 \; ,\;\overline{X}=170\;,\;s=10

H_0 : \mu = 167.5 \;\;\;\; H_1:\mu \neq 167.5 \;\;\; \alpha = 0.05

귀무가설은 모평균이 167.5인 경우이고 대립가설은 167.5가 아닌 경우입니다. 즉, 대립가설은 167.5보다 큰 경우도167.5보다 작은 경우도 포함합니다.(이를 양측 검정이라고 부릅니다)

위에서 말씀드렸던 것처럼 가설검정을 하기 위해서는 확률 구조가 필요하기 때문에 우리가 아는 확률분포를 따르도록 표본들을 조합해서 검정통계량을 만들어야 합니다. 확률 구조를 알아보기 위해 구간추정의 경우와 마찬가지로 스튜던트 정리를 이용해서 검정통계량을 구하도록 하겠습니다.

(\frac{\overline{X}-\mu}{s/\sqrt{n}})\sim t(n-1)

만약 귀무가설이 사실이라면, $\mu= 167.5$ 일겁니다. 그렇다면,

(\frac{\overline{X}-167.5}{s/\sqrt{n}})\sim t(n-1)

다음의 식이 성립하게 됩니다. 여기서 n = 100이므로, 위의 검정통계량은 자유도가 99인 t분포를 따를 것입니다.

(\frac{170-167.5}{10/\sqrt{100}}) = 2.5

계산된 검정통계량 값을 t(99)의 그래프 상에 이를 표현해 보겠습니다.

보시는 바와 같이 t(99)의 분포에서 2보다 더 극단적인 값을 나올 확률은 오른쪽에서 0.007입니다. 우리는 양측검정을 하였으니 반대쪽도 계산해 주어야 합니다.

$H_1 : \mu \neq 167.5$ 이란 말은 곧 $H_1:\mu > 167.5 \; or\; \mu < 167,5$ 을 의미하기 때문입니다. t분포는 대칭분포이니 같은 확률을 보이며, 우리가 구한 값보다 더 극단적인 값이 나올 확률(유의확률, p-value)는 0.014 즉, 1.4%가 됩니다.

조금 넓은 의미에서 해석해보자면, p값은 (귀무가설이 사실일 때) 우리가 얻은 표본들이 일반적으로 나올 법한 표본들이냐 아니냐를 말해주는 값입니다.

즉, 모평균이 정말 167.5일 때, 우리가 구한 170은 그것보다 극단적인 값이 나올 확률이 1.4% 정도 밖에 안될 정도로 꽤나 이상한 값이라는 뜻입니다.
다시 말해 귀무가설이 사실이어도 우연히 나올 수 있는 값이긴 하지만 그 확률이 1.4% 정도 밖에 안된다는 말이죠.

우리는 귀무가설이 사실일 때 귀무가설을 기각할 확률의 허용한계를 0.05로 고정하였기 때문에 이 예에서의 p값 0.014는 우리가 허용할만한 수준이 아닙니다. 그렇다면 귀무가설이 사실이 아니라는 결론을 내리고 기각하게 되는 것입니다.

만약 p값이 큰 값이 나왔다면 귀무가설 하에서 충분히 나올 만한 값이라고 판단할 수 있으므로 귀무가설을 기각하지 않게 될 것입니다.

가설검정은 결국 단순비교를 통해 맞냐 아니냐를 결정하는 것이 아닌 추정량의 분포를 반영하여 변동을 포함해도 맞을 수 있냐 아니냐를 결정하는 것입니다. 즉, 추정량과 그 추정량의 분포를 반영하는 구간추정과 아이디어의 방향이 똑같습니다. 실제로 이 둘은 같은 분포를 이용했다면 정확히 같은 결과를 알려줍니다.

구간추정에서 신뢰구간이 포함하고 있는 값은 (주어진 신뢰도 하에서) 분포를 반영하여도 충분히 나올 수 있는 값이라는 뜻입니다. 위에서 설명한 가설검정과 같은 의미죠. 그래서 신뢰구간에 포함된 값들은 가설검정을 하여도 전부 귀무가설을 기각할 수 없습니다. 반대로 신뢰구간이 포함하지 않는 값들은 가설검정에도 기각될 값들입니다. 이번 예제를 통해 간단히 확인할 수 있습니다. 같은 표본분포(자유도 99의 t분포)를 활용한 구간추정의 경우 신뢰구간이 [168.016, 171,984]이었습니다. 우리가 이번에 검정한 값은 167.5 였죠. 구간에 포함되어있지 않고 그렇기에 당연히 $\mu = 167.5$ 라는 귀무가설은 기각되었습니다. 이는 다른 수를 넣어봐도 같은 결과를 보일겁니다. 계산이 그리 복잡하니 않으니 몇 가지를 넣어서 확인해보시기 바랍니다.

재미라도 꿈꾸자

이 블로그 검색