NLP/AI/Statistics

[통계분석]가설 설정 및 가설 검정 방법 (+ 주요용어) 본문

Statistics/통계분석

[통계분석]가설 설정 및 가설 검정 방법 (+ 주요용어)

Danbi Cho 2020. 10. 5. 10:28

하나의 예시를 들어 가설설정 및 가설검정 방법에 대하여 설명해보기로 한다.

 

연구문제: 서울 지역과 대전 지역의 고등학교 남학생들의 키 차이 분석

 

모집단: 서울 지역과 대전 지역의 모든 남자 고등학생

표본집단: 서울 지역과 대전 지역 각각의 일부 남자 고등학생

 

가설 검정을 위한 통계분석 데이터로는 표본집단의 데이터를 사용한다.

(#. 모집단의 데이터를 구하기에 시간적, 경제적 문제가 있기 때문)

 

가설 설정

귀무 가설: 서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 없다.

대립 가설: 서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 있다.

 

# 귀무 가설: 기존에 알고 있는 사실 혹은 증명되지 않았던 사실

# 대립 가설: 기존에 알고 있던 사실이 다르거나 혹은 새롭게 주장하고 싶은 것

 

위와 같이 설정한 가설에 대하여 하나를 채택하게 되며, 

 

귀무 가설이 사실이라고 가정한 상태에서 

 

표본집단이 귀무가설에 적합하다는 근거가 충분하지 않을 경우 귀무 가설이 기각(= 대립 가설이 채택)된다. 

 

위의 예시에 따라 나타내면,

 

서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 없다는 것이 사실이라고 가정하고, (귀무가설)

 

통계분석을 진행하게 된다. 이후, 이를 충족시키지 못할 경우 서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 있다고 분석한다. (= 귀무 가설 기각, 대립 가설 채택)

 

대부분의 통계 분석에서 대립가설을 연구가설로 설정하여 진행하며,

 

가설을 기각하는 것을 가설검정이라고 한다.

 

[주요 용어]

 

검정 통계량

검정에 이용되는 통계량

즉, 모집단에 대한 표본을 통해 검정에 필요한 통계량을 구한 그 값을 말한다.

 

유의 수준

귀무 가설을 기각한다, 채택한다에 대한 판단 기준이다.

일반적으로 귀무 가설이 옳다는 전제하에서 표본관찰에 의해 구한 검정통계량의 값이 나타날 가능성이 크면 귀무 가설을 채택, 가능성이 작으면 기각한다. 이 때의 가능성이 크고 작고의 판단기준을 일컫는다.

유의 수준이 5%(.05) 미만일 경우 귀무 가설을 기각하고 대립가설을 채택한다. 

즉, 귀무 가설이 옳다는 전제가 5% 미만일 경우 이 전제가 충족되지 못한다는 기준을 설정한 것이다.

 

유의확률 (p-value 값)

표본집단으로부터 검정통계량의 관측값에 대하여 귀무가설을 기각시킬 수 있는 최소의 유의수준을 말한다.

즉, 앞에서 언급한 바와 같이 일반적으로 유의 수준은 .05 를 기준으로 가설검정을 판단하며,

이 때 유의확률 값이 .05보다 작을 경우 대립가설을 채택하게 된다.

(#. 유의확률이 .05보다 작을 경우 *이 한 개, 0.01보다 작을 경우 *이 두 개, 0.001보다 작을 경우 *이 세 개 나타난다.)

 

 

Comments