일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- install
- github
- review
- cs224n
- tab
- nlp
- terminal
- linux
- Statistics
- gensim
- Vim
- pip
- Standford
- text
- natural_language_processing
- cs231n
- json
- error
- paper_review
- slideshare
- computer
- language_model
- deeplearning
- Ai
- machinelearning
- computer_setting
- seq2seq
- Stanford
- git
- code
- Today
- Total
목록Statistics/통계분석 (9)
NLP/AI/Statistics
통계 분석을 진행하기 이전에, 데이터를 수집하기 위해 실행하는 조사도구에 대한 신뢰성이 보장되어야한다. 이 때 통계 분석을 위한 조사도구에 대한 응답이 신뢰할 수 있는지를 검정하는 것을 신뢰도 분석 이라고 한다. 신뢰도 분석은 주로 5점 척도를 이용하여 점수화시킨다. 대부분의 5점 척도는 ('매우 아니다', '아니다', '보통이다', '그렇다', '매우 그렇다') 와 같이 이루어지는데, 이 때 무조건적으로 '매우 그렇다'를 5점으로 취급하지 않는다. 문항을 의도적으로 역질문하여 '매우 그렇다'이지만 사실 상 '매우 아니다'를 의미하는 문항을 넣을 수 있다. 이를 '역문항'이라고 하며, 응답자가 성실하게 답하였는가를 판단하기 위해 사용된다. 하나의 요인에 대하여 여러 가지 문항에 대한 설문을 진행한 후, ..
통계에서 데이터 형태에 따라 분석하고자 하는 자료의 특성이 다르게 나타난다. 특정 부류와 같이 category에 의해 분류되는 자료를 범주형 자료라고 하며 숫자 자체로서 의미를 갖고 통계적 지표로 사용되는 데이터를 연속형 자료라고 한다. 범주형 자료 범주형 자료는 1. 초등생, 2. 중등생, 3. 고등생 과 같이 특정 소속에 따라 문항을 구분짓는 형태이다. 범주형 자료에는 리커드 척도와 같이 단순히 범주형으로 보기보다는 점수에 의미를 두는 데이터를 사용하기도 하는데, 이는 최근 점수를 의미하는 측면이 강해 연속형 자료로 받아들여지고 있다. #. 리커드 척도(Likert scale): 범주형 중 순서척도(ordinary scale)에 해당한다. 특정 요인에 대한 점수를 산출할 때 사용된다. 예시) 1. 매..
이전에 설명한 상관분석은 두 변수 간 상호적인 상관성이 존재하는지에 대한 분석 방법이다. 반면, 하나의 변수가 또다른 하나의 변수에 영향을 미치는지에 대한 분석을 할 때 회귀분석을 이용하여 통계 분석을 진행한다. 예시1) 연구문제: 학생들의 생활만족도는 건강만족도에 영향을 미치는가. 귀무가설: 학생들의 생활만족도는 건강만족도에 영향을 미치지 않는다. 대립가설: 학생들의 생활만족도는 건강만족도에 영향을 미친다. 조사도구: 객관식 설문(생활만족도, 건강만족도 - 5점척도) 상관분석과 회귀분석은 전체적인 가설 설정과 연구문제가 유사하나, 상관분석은 두 변수의 상관성을, 회귀분석은 한 변수가 다른 변수에 미치는 영향력을 분석하고자 하기 때문에 분석하고자 하는 중점이 다르게 나타난다. 회귀 분석에서도 상관 분석과..
데이터 분석에서 데이터가 표현하는 변수(특징) 간 상관성은 주된 분석 방법으로 활용된다. 데이터 내의 변수 간 상관성을 분석한다면, 양의 상관성을 보이는 변수들 간의 영향력과 음의 상관성을 보여주는 변수들 간의 영향력을 파악하기에 용이하다. 상관성을 분석하기 위한 통계 분석 방법을 상관분석이라고 하며, 대표적으로 피어슨 상관분석(pearson correlation)이 있다. 예시1) 연구문제: 학생들의 생활만족도와 건강만족도는 서로 상관이 있는가. 귀무가설: 학생들의 생활만족도와 건강만족도는 서로 상관이 없다. 대립가설: 학생들의 생활만족도와 건간만족도는 서로 상관이 있다. #. "상관이 있다"는 생활만족도와 건강만족도가 비례적, 혹은 반비례적 특성을 보인다는 것을 의미한다. 조사도구: 객관식 설문(생활..
앞에서 집단이 1개인 경우와 2개인 경우 사용되는 통계 분석 방법론에 대하여 설명했다. 3개 이상의 집단을 조사할 때 집단 간 차이가 나는지 검정하기 위해 다음과 같은 분석 방법론을 사용한다. [일원배치 분산분석, 이원배치 분산분석, 반복측정 분산분석, 카이제곱 검정] 각각의 특성을 예시와 함께 비교해보고자 한다. 일원배치 분산분석(One-way ANOVA) 예시1) 연구문제: 서울, 대전, 울산 지역의 모의고사 점수의 차이가 있는가. 귀무가설: 세 지역의 모의고사 점수는 같다. 대립가설: 세 지역 중 적어도 하나 이상의 지역에서 모의고사 점수 차이가 있다. #. 3개 이상의 집단을 비교할 때 대립가설은 "적어도 하나 이상의 ~에서 차이가 있는가"를 검정하는 것이다. 조사도구: 객관식 설문(지역 선택) ..
집단이 1개인 경우: 단일 표본 T검정 을 사용하며, 이에 대한 예시는 지난 글에서 소개하였다. 집단이 2개인 경우: 독립 T검정, 대응 T검정, 카이제곱 검정, 공변량분석(ANCOVA) 집단이 2개인 경우는 1개인 경우보다 분석할 수 있는 통계 분석 방법론이 많이 존재한다. 독립 T검정, 대응 T검정, 카이제곱 검정, 공변량분석(ANCOVA) 방법론에 대하여 각각의 특징을 비교하고 각각 어떤 연구 문제에 대하여 주로 분석 방법론으로 사용되는지 예시를 통해 설명하고자 한다. 우선적으로, 위의 통계 분석 방법론들은 하나의 집단에 대하여 행위의 전, 후를 비교하는 것이 아닌 두 개의 집단으로 표본을 나누어 조사하고 두 개의 집단이 연구 문제에 대하여 차이가 있는지를 검정할 때 사용된다. 독립 T검정(Inde..
연구문제와 데이터의 형태에 따라 적합한 통계 분석 기법을 사용하는 것은 중요하다. 예시를 통해 데이터의 유형에 따라 주로 사용되는 통계분석 기법을 설명하고자 한다. 집단이 1개인 경우: 단일 표본 T검정 데이터들의 요약값이 특정 수준보다 높은지 혹은 낮은지 검정해야하는 경우를 단일표본 검정이라고 하며 조사된 집단이 1개인 경우가 이에 속한다. 예시는 다음과 같다. 연구문제: 남학생들을 대상으로 다이어트 식품을 섭취하였을 때 다이어트 효과 여부 귀무가설: A 대학교 남학생들의 평균 몸무게(78kg)와 B 식품 섭취 후의 남학생들 몸무게는 차이가 없다. 대립가설: A 대학교 남학생들의 평균 몸무게(78kg)보다 B 식품 섭취 후의 남학생들 몸무게가 더 낮다. 조사도구: 주관형 설문조사 ("현재 몸무게는 몇 ..
하나의 예시를 들어 가설설정 및 가설검정 방법에 대하여 설명해보기로 한다. 연구문제: 서울 지역과 대전 지역의 고등학교 남학생들의 키 차이 분석 모집단: 서울 지역과 대전 지역의 모든 남자 고등학생 표본집단: 서울 지역과 대전 지역 각각의 일부 남자 고등학생 가설 검정을 위한 통계분석 데이터로는 표본집단의 데이터를 사용한다. (#. 모집단의 데이터를 구하기에 시간적, 경제적 문제가 있기 때문) 가설 설정 귀무 가설: 서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 없다. 대립 가설: 서울 지역과 대전 지역의 고등학교 남학생들의 키는 서로 차이가 있다. # 귀무 가설: 기존에 알고 있는 사실 혹은 증명되지 않았던 사실 # 대립 가설: 기존에 알고 있던 사실이 다르거나 혹은 새롭게 주장하고 싶..

통계: 특정 집단에 대하여 조사나 실험을 통해 얻어진 수치 즉, 특정 집단을 구성하는 각각의 정보를 하나의 요약된 값으로 표현한 것. 기본적인 예시는 다음과 같다. 서울 시민들의 직업을 통계적 수치로 확인하기 위해 [특정 집단] - [자료수집] - [요약] 의 단계로 조사가 이루어진다. 서울 시민(특정 집단)으로부터 직업을 조사(자료 수집)하고 수집된 자료를 토대로 직업들의 분포를 퍼센트로 확인(요약)하여 정보를 확인할 수 있다. 통계학: 통계를 이용하여 불확실한 현상에 대하여 추정(estimatoin), 검정(testing), 예측(forecasting)하여 합리적인 결과 해석 및 의사결정을 할 수 있도록 돕는 학문 통계학은 불확실한 현상을 자료 수집, 모형 설정, 추론 과정을 통해 정보를 객관화하여 ..