일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- paper_review
- Vim
- review
- git
- Stanford
- github
- deeplearning
- text
- Standford
- gensim
- linux
- seq2seq
- cs224n
- language_model
- error
- computer
- tab
- code
- computer_setting
- install
- json
- terminal
- cs231n
- slideshare
- nlp
- pip
- Ai
- machinelearning
- natural_language_processing
- Statistics
- Today
- Total
NLP/AI/Statistics
[통계분석]통계 기초 개념 및 용어 정리 본문
통계: 특정 집단에 대하여 조사나 실험을 통해 얻어진 수치
즉, 특정 집단을 구성하는 각각의 정보를 하나의 요약된 값으로 표현한 것.
기본적인 예시는 다음과 같다.
서울 시민들의 직업을 통계적 수치로 확인하기 위해
[특정 집단] - [자료수집] - [요약] 의 단계로 조사가 이루어진다.
서울 시민(특정 집단)으로부터 직업을 조사(자료 수집)하고 수집된 자료를 토대로 직업들의 분포를 퍼센트로 확인(요약)하여 정보를 확인할 수 있다.
통계학: 통계를 이용하여 불확실한 현상에 대하여 추정(estimatoin), 검정(testing), 예측(forecasting)하여 합리적인 결과 해석 및 의사결정을 할 수 있도록 돕는 학문
통계학은 불확실한 현상을 자료 수집, 모형 설정, 추론 과정을 통해 정보를 객관화하여 분석한다.
통계학은 크게 두 가지로 나뉜다.
1. 수리통계학: 확률론, 추론 등 통계학의 기본적인 이론을 다루는 학문 분야
2. 응용통계학: 수리통계학에서 정립된 이론을 바탕으로 실제 자료 분석에 응용하는 방법을 연구하는 학문 분야
[주요 용어]
- 정규 분포
기본적으로 통계 분석에서 수집된 자료가 정규 분포를 따른다는 가정 하에 추정하기 때문에 중요한 단어로 사용된다.
정규 분포는 종모양의 곡선으로, 평균을 중심으로 양쪽에 무한한 값을 갖도록 하는 분포를 나타낸다. 즉, 평균을 중심으로 좌우 대칭인 경우를 정규분포라고 한다.
- 정규성
"정규 분포를 따른다."라는 뜻으로 분석하고자 하는 집단의 값들이 정규 분포를 따를 경우 "정규성을 가지고 있다."라고 표현한다.
- 표본(표본조사)/모집단/모수/통계량
통계 분석 과정에서 사실상 데이터의 크기가 클수록 일반화의 특성을 갖기 때문에 좋지만, 현실적으로 시간적, 비용적 문제가 발생한다. 이를 감안하여 표본이라는 단어가 나왔으며, 전체 집단을 모집단이라고 할 때 그 모집단의 일부 집단을 표본이라고 한다. 이 표본을 통해 실시되는 조사를 표본조사라고 한다.
표본 조사를 통해 얻어지는 대푯값(평균, 퍼센트, 표준편차 등)을 통계량이라고 하며, 표본의 통계량을 통해 모집단의 특성을 나타내는 값을 모수라고 한다.
- 통계분석
통계분석은 실질적 자료에서 유용한 정보를 구하는 과정을 일컫으며,
[자료 수집] - [수집된 자료의 요약] - [모수의 추정] - [검정] - [모형분석] 순으로 이루어진다.
- 평균
데이터들의 합을 데이터의 수만큼 나눈 값이다. (대푯값을 의미)
$$ mean = \frac{1}{n} \sum_{i=1}^{n} x_{i} $$
- 분산
집단의 값들이 평균으로부터 얼만큼 퍼져있는지에 대한 척도이다.
데이터의 수가 n일 때,
$$ variance = \sum_{i=1}^n \frac{(x_{i} - mean)}{n} $$
여기서 주의해야할 점은 분산은 모집단의 특성을 보이기 때문에 표본으로부터 얻은 데이터에 대한 분산에서는
$$ variance' = \sum_{i=1}^n \frac{(x_{i} - mean)}{n-1} $$
와 같이 분모를 데이터의 수(n)-1 로 해야한다.
이는 표본이 모집단의 특성을 완전히 나타내지 못하기 때문에 그만큼의 오류는 수용하겠다는 의미로 볼 수 있다.
- 표준편차
분산과 동일하게 값이 퍼져있는 정도를 나타내는 척도이며, 아래와 같이 계산된다.
$$ standard\ deviation = \sqrt{variance} $$
- 등분산
등분산은 집단 A와 집단 B의 분산이 같음을 의미하며, 대부분의 통계 분석에서는 서로 다른 데이터의 대푯값을 비교하기 위해 등분산성이 가정되어야한다.
- 중위수
평균과 같은 대푯값으로, 데이터를 정렬한 상태에서 순위를 부여하였을 때 중간(절반)의 위치에 있는 값을 의미한다.
(중위수와 평균을 헷갈리지 않아야한다!)
- 비모수
데이터가 특정 분포를 따르지 않아 일반적인 모수적 방법론으로 비교할 수 없는 경우를 말한다. 이 경우 중위수를 통한 통계량을 산출하여 분석한다.
- 변수
어떤 특정한 값들을 대표하는 명칭이다.
'Statistics > 통계분석' 카테고리의 다른 글
[통계분석]변수 간 상관성: 상관분석 (0) | 2020.10.13 |
---|---|
[통계분석]통계분석 방법론3 - 집단이 3개 이상인 경우 [분산 분석, 카이제곱 검정] (0) | 2020.10.12 |
[통계분석]통계분석 방법론2 - 집단이 2개인 경우 [독립 T-test, 대응 T-test, 카이제곱 검정, 공변량 분석] (0) | 2020.10.07 |
[통계분석]통계분석 방법론1 - 집단이 1개인 경우 [단일 T-test] (2) | 2020.10.06 |
[통계분석]가설 설정 및 가설 검정 방법 (+ 주요용어) (0) | 2020.10.05 |