일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- cs231n
- Vim
- seq2seq
- Stanford
- deeplearning
- natural_language_processing
- paper_review
- tab
- slideshare
- github
- cs224n
- Standford
- terminal
- git
- error
- linux
- install
- Ai
- code
- computer
- review
- nlp
- json
- machinelearning
- language_model
- Statistics
- gensim
- text
- computer_setting
- pip
- Today
- Total
NLP/AI/Statistics
[통계분석]기초통계분석 (범주형, 연속형) 본문
통계에서 데이터 형태에 따라 분석하고자 하는 자료의 특성이 다르게 나타난다.
특정 부류와 같이 category에 의해 분류되는 자료를 범주형 자료라고 하며
숫자 자체로서 의미를 갖고 통계적 지표로 사용되는 데이터를 연속형 자료라고 한다.
범주형 자료
범주형 자료는 1. 초등생, 2. 중등생, 3. 고등생 과 같이 특정 소속에 따라 문항을 구분짓는 형태이다.
범주형 자료에는 리커드 척도와 같이 단순히 범주형으로 보기보다는 점수에 의미를 두는 데이터를 사용하기도 하는데,
이는 최근 점수를 의미하는 측면이 강해 연속형 자료로 받아들여지고 있다.
#. 리커드 척도(Likert scale): 범주형 중 순서척도(ordinary scale)에 해당한다.
특정 요인에 대한 점수를 산출할 때 사용된다.
예시) 1. 매우 낮음 , 2. 낮음 , 3. 보통 , 4. 높음 , 5. 매우 높음
범주형 자료는 빈도와 퍼센트를 이용하여 분석되어 진다.
연속형 자료
연속형 자료는 범주형 자료와 달리 평균, 중위수, 최빈값, 표준편차, 분산, 범위, 사분위수, 첨도, 왜도 등의
기술통계량으로 나타난다.
기술통계량은 데이터의 정보 손실을 최소화하면서 데이터를 가장 효율적으로 요약하고자 한다.
이를 정리하면 아래와 같이 구분된다.
1. 중심경향값(평균, 중위수, 최빈값): 데이터의 분포
- 평균: $Mean = \frac {1}{n} \sum_{i=1}^{n}$
모집단의 평균을 모평균, 표본집단의 평균을 표본평균이라고 한다.
#. 표본평균은 모평균과 통계적인 차이가 없는 상태라는 전제고전이 갖추어져야
평균에 대한 통계적 분석이 가능하며, 이를 위해 반드시 랜덤추출을 기본으로 해야한다.
만약 전체 데이터들의 발생확률이 평균을 중심으로 일정한 거리만큼 떨어진 정도(표준편차)를 갖는 형태를 '정규분포'라고 하며 이를 일반화하여 평균이 0, 표준편차가 1인 상태를 표준정규분포 라고 한다.
#. 연속형 데이터라고 해서 무조건 정규분포를 가정할 수 없다.
데이터의 수가 적을 경우 정규분포의 중심을 잡아주는 평균 자체의 의미가 퇴색될 수 있다.
#. 데이터의 수가 적을 경우 평균에 '중심극한정리'를 적용할 수 없다.
#. 중심극한정리: 데이터가 많을수록 평균이 중심이 되는 정규분포에 가까워진다는 증명.
- 중위수: 데이터의 정중앙에 있는 값. (= 중앙값)
#. 데이터의 수가 짝수일 경우, 가운데 두 값의 평균을 중위수로 본다.
중위수를 사용하여 데이터를 분석할 경우,
극단값이 존재할지라도 순서에 의해서 데이터를 정렬하여 사용하기 때문에
중위수를 계산하는 데 영향을 주지 않게 된다.
이러한 특성을 고려하여, 데이터의 수가 적을 경우 평균이 아닌 중위수를 사용하여 데이터의 중심을 나타낸다.
또한, 평균이나 표준편차를 기준으로 계산하는 모수적 방법과 상반되는
비모수 검정의 주된 통계량으로 사용된다.
- 최빈값: 가장 빈번하게 나타나는 값.
최빈값은 모든 데이터 값 중 가장 빈도가 높은 값을 의미하며,
만약 모든 데이터의 빈도가 1일 경우, 최빈값은 없다고 표현한다.
2. 산포도(표준편차, 분산, 범위, 사분위범위) : 분포의 퍼짐정도
- 분산, 표준편차: 실제값과 평균값과의 차이가 나타내는 표준값.
모분산: $ variance = \frac{1}{n} \sum_{i=1}^{n}(x_{i} - mean)$
모표준편차: $ standard\ deviation = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_{i} - mean)} $
표본분산: $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_{i} - mean)$
표본표준편차: $ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_{i} - mean)} $
분산과 표준편차는 데이터 값이 평균으로부터 얼마나 분포되어 있는지를 나타내는 지표로,
분산과 표준편차가 클 경우 평균으로부터 데이터들의 떨어진 정도가 크다고 하며,
상대적으로 평균중심에 데이터들이 몰리는 경향이 적다고 판단한다.
- 범위: 관측값의 (최댓값 - 최솟값)
- 사분위범위: 관측값의 상위 25%, 하위 25%.
3. 분포도(왜도, 첨도): 분포의 모양
#. 분포도는 특정 기준값을 벗어나느냐 그렇지 않느냐 하는 방식의 대략적인 상황을 묘사해주는 값으로 사용된다.
- 왜도: 좌우대칭 여부
x > 0 : 오른쪽으로 기운상태.
x < 0 : 왼쪽으로 기운상태.
- 첨도: 뾰족한 정도
x > 0 : 뾰족한 상태
x < 0 : 평평한 상태
'Statistics > 통계분석' 카테고리의 다른 글
[통계분석]신뢰도 분석 (0) | 2020.10.15 |
---|---|
[통계분석]변수 간 영향성: 회귀분석 (0) | 2020.10.13 |
[통계분석]변수 간 상관성: 상관분석 (0) | 2020.10.13 |
[통계분석]통계분석 방법론3 - 집단이 3개 이상인 경우 [분산 분석, 카이제곱 검정] (0) | 2020.10.12 |
[통계분석]통계분석 방법론2 - 집단이 2개인 경우 [독립 T-test, 대응 T-test, 카이제곱 검정, 공변량 분석] (0) | 2020.10.07 |