NLP/AI/Statistics

[통계분석]통계분석 방법론2 - 집단이 2개인 경우 [독립 T-test, 대응 T-test, 카이제곱 검정, 공변량 분석] 본문

Statistics/통계분석

[통계분석]통계분석 방법론2 - 집단이 2개인 경우 [독립 T-test, 대응 T-test, 카이제곱 검정, 공변량 분석]

Danbi Cho 2020. 10. 7. 15:14

집단이 1개인 경우: 단일 표본 T검정 을 사용하며, 이에 대한 예시는 지난 글에서 소개하였다.

 

집단이 2개인 경우: 독립 T검정, 대응 T검정, 카이제곱 검정, 공변량분석(ANCOVA)

 

집단이 2개인 경우는 1개인 경우보다 분석할 수 있는 통계 분석 방법론이 많이 존재한다.

 

독립 T검정, 대응 T검정, 카이제곱 검정, 공변량분석(ANCOVA) 방법론에 대하여 각각의 특징을 비교하고

 

각각 어떤 연구 문제에 대하여 주로 분석 방법론으로 사용되는지 예시를 통해 설명하고자 한다.

 

우선적으로, 위의 통계 분석 방법론들은 하나의 집단에 대하여 행위의 전, 후를 비교하는 것이 아닌 

 

두 개의 집단으로 표본을 나누어 조사하고 두 개의 집단이 연구 문제에 대하여 차이가 있는지를 검정할 때 사용된다.

 

독립 T검정(Independent T-test)

 

예시1) 

 

연구문제: 대학교의 남학생과 여학생의 생활만족도에 차이가 있는가

 

표본 집단: 대학교의 남학생 집단 + 대학교의 여학생 집단 (집단 2개)

 

귀무가설: 남학생과 여학생은 생활만족도에 차이가 없다.

대립가설: 남학생과 여학생은 생활만족도에 차이가 있다.

 

조사도구: 객관식 설문 (성별은 무엇인가? , 생활에 대한 만족도는 어떠한가? - 5점 척도)

 

해당 예시는 개개인의 성별, 생활만족도를 통계화하여 분석할 수 있으며, 특히 개개인의 생활만족도에 관한 여러 항목의 설문을 진행한 후, 평균내어 한 사람의 생활만족도를 통계량으로 사용할 수 있다.

 

예시 2)

 

연구문제: 실험집단과 통제집단의 몸무게는 서로 차이가 있는가

 

표본 집단: 실험집단 + 통제집단 (집단 2개)

 

#. 실험집단은 특정 행위(다이어트 식품 섭취)를 취하도록 하고, 통제집단은 특정 행위를 취하지 않도록 하여 두 집단의 데이터를 비교한다. 이 때 특정 행위에 대한 여부 이외의 요인의 차이는 없다고 가정한다.

 

귀무가설: 실험집단과 통제집단의 몸무게는 차이가 없다.

대립가설: 실험집단과 통제집단의 몸무게는 차이가 있다.

 

#. 즉, 실험집단은 특정행위를 취하였고 통제집단은 특정행위를 취하지 않았으며, 실험집단이 특정행위를 취하기 이전의 실험집단과 통제집단의 몸무게는 통계적으로 차이가 없다는 것이 입증되었다고 가정한다.

 

조사도구: 객관식 설문(실험집단과 통제집단 구분) + 주관식 설문(특정 행위 기간 이후의 몸무게)

 

예시2) 도 예시1) 과 같이 집단 2개에 대하여 연구문제를 다루었다.

 

이처럼 독립  T검정은 비교하고자 하는 집단이 2개이며, 

 

두 집단이 서로 다른 집단으로써, 상호 독립적인 개념일 때 사용하는 비교 분석방법론이다.

 

 

대응 T검정(Paired T-test)

 

예시1)

 

연구문제: 생활만족 개선프로그램 교육을 받기 전 생활만족도와 교육을 받은 후의 생활만족도는 차이가 있는가?

 

표본 집단: 사전집단 + 사후집단 (집단 2개)

> 사전집단: 특정행위(생활만족 개선프로그램 교육)을 실시하기 이전의 집단

> 사후집단: 특정행위(생활만족 개선프로그램 교육)을 실시한 이후의 집단

 

#. 대응 T검정에서의 두 집단은 특정 행위를 실시하기 이전의 집단(사전집단)과 특정 행위를 실시한 이후의 집단(사후집단)을 비교하는 것으로, 이 때 조사도구와 조사 대상자는 동일해야한다.

 

귀무가설: 사전집단과 사후집단의 생활만족도는 차이가 없다.

대립가설: 사전집단과 사후집단의 생활만족도는 차이가 있다.

 

조사도구: 객관식 설문 (생활에 대한 만족도는 어떠한가 - 5점척도)

 

#. 즉, 동일한 조사 대상자에 대하여 특정 행위를 실시하기 이전에 진행한 조사도구의 데이터(사전집단)와 특정 행위를 실시한 이후에 진행한 조사도구의 데이터(사후집단)을 비교 분석하는 것이다.

 

조사도구를 통해 얻어지는 사전집단의 통계량을 사전 평균점수, 사후집단의 통계량을 사후 평균점수라고 할 때,

 

각 평균 점수를 비교하여 통계분석을 진행할 수 있다.

 

예시2)

 

연구문제: 다이어트 식품 섭취 전과 후의 차이가 있는가?

 

표본 집단: 사전집단 + 사후집단 (집단 2개)

> 사전집단: 특정행위(다이어트 식품 섭취)을 실시하기 이전의 집단

> 사후집단: 특정행위(다이어트 식품 섭취)을 실시한 이후의 집단

 

귀무가설: 사전집단과 사후집단의 몸무게는 차이가 없다.

대립가설: 사전집단과 사후집단의 몸무게는 차이가 있다.

 

조사도구: 주관식 설문 (현재 몸무게)

 

예시2) 도 예시1) 과 같이 동일한 조사도구와 동일한 조사 대상자에 대하여 특정 행위을 실시하기 이전의 집단(사전집단), 이후의 집단(사후집단)을 구분하고, 각각의 집단에 대하여 얻어지는 조사도구의 데이터(평균점수)를 이용하여 비교 분석한다.

 

카이제곱 검정(Chi-square test)

 

예시1)

 

연구문제: 남녀 간 아침식사 여부에 빈도(분포) 차이가 있는가

 

표본 집단: 남자 + 여자

 

귀무가설: 남자와 여자 간에 아침식사 여부는 차이가 없다.

대립가설: 남자와 여자 간에 아침식사 여부는 차이가 있다.

 

조사도구: 객관식 설문(성별, 아침식사 여부)

 

남자와 여자 집단에 대하여 아침식사 여부에 따른 빈도의 차이를 비교하는 통계 분석으로, 

 

성별과 아침식사 여부가 독립적인 변수로 사용된다.

 

설문을 통해 다음과 같이 4개의 집단을 구분할 수 있으며 이에 대한 빈도와 %를 통해 분포를 나타낼 수 있다.

 

1) 남자 + 아침식사 O

2) 남자 + 아침식사 X

3) 여자 + 아침식사 O

4) 여자 + 아침식사 X

 

각 그룹들의 분포를 통해 차이가 있는지 비교 분석할 수 있으며 

 

이처럼 집단 간 분포를 이용하여 차이를 검정할 경우 카이제곱 검정을 사용한다.

 

이 때, 분포가 서로 다를 경우 "집단 간 독립"이라고 표현하며,

 

위의 예시에서는 남자와 여자 간 아침식사 여부의 차이뿐만 아니라, 식사여부 간 남자와 여자의 차이까지 분석할 수 있다. 

 

또한, 카이제곱 검정은 2개 이상의 집단에 대하여 검정이 가능하며 집단의 수와 변수에서 나타나는 집단의 수에 따라 조사 집단이 형성된다.

 

예) 성별(2, [남자, 여자]) x 아침식사여부(2, [O, X]) = 4 개의 집단

     학력(3, [중졸, 고졸, 대졸]) x 생활수준(3, [상, 중, 하]) = 9 개의 집단

 

#. 카이제곱 검정은 2개 이상의 집단에 대하여 검정이 가능하지만,

   2 개의 변수로만 분석이 가능하다. (성별, 아침식사여부) 혹은 (학력, 생활수준)

 

공변량분석(ANCOVA)

 

공변량 분석은 하나의 집단을 통제하고 두 집단 간의 차이를 보는 통계방법론이다.

 

이에 대한 예시와 구체적인 설명은 추후에 설명할 예정이다.

 

[요약]

 

- 집단이 2개인 경우: 독립 T검정, 대응 T검정, 카이제곱 검정, 공변량 분석

- 독립 T검정: 독립적인 집단에 대한 비교

- 대응 T검정: 동일한 조사 대상자에 대하여 사전, 사후 집단 비교

- 카이제곱 검정: 2개의 변수에 대하여 집단 간 분포 비교

Comments