NLP/AI/Statistics

[수리통계] Chap.6 점추정1 본문

Statistics/수리통계

[수리통계] Chap.6 점추정1

Danbi Cho 2020. 11. 27. 13:09

Chap.6에서는 점추정에 대하여 설명한다.

 

점추정이란 추정하고자 하는 모집단에서 임의로 추출된 n개 표본의 확률변수로 하나의 통계량을 만들고

주어진 표본으로부터 그 값을 계산하여 하나의 수치를 제시하기 위한 것이다. 

 

점추정에 대하여 아래와 같은 목차로 설명할 예정이다.

 

6.1) 기술통계학

6.2) 순서통계량

6.3) 최우추정

6.4) 충분통계량

6.5) 베이지안 추정

 

이번 글에서는 각 통계량의 특성과 정의에 대하여 정리하면서 추정량과 추정치에 대하여 설명하기 때문에 이전보다 이해하기 쉬울 것으로 보인다.

 

6.1) 기술통계학

 

사전적으로 기술통계학은 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법을 의미한다. - wikipedia

 

실제로 확률실험을 n번 실행하여 얻은 n개의 관측값 $x_{1}, x_{2}, ..., x_{n}$을 표본(sample)이라고 하며

 

각 관측치에 $\frac{1}{n}$의 가중치를 부여하여 인위적으로 만든 확률분포를 경험분포(empirical distribution)이라고 한다. 

 

경험분포의 평균과 분산은 아래와 같다.

 

- 평균

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i}$$

- 분산

$$v = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$

- 표본분산

$$s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} = \frac{1}{n-1}(\sum_{i=1}^{n}x_{i}^{2} - n\bar{x}^{2})$$

 

예제1)

"주사위를 5번 던져서 다음과 같은 관측값들을 얻었다.

$$x_{1} = 3, x_{2} = 1, x_{3} = 2, x_{4} = 6, x_{5} = 3$$

 

이 때 $\bar{x}, s^{2}$는?"

 

$$\bar{x} = \frac{1}{5}3 + \frac{1}{5}1 + ... + \frac{1}{5}3 = 3$$

$$s^{2} = \frac{1}{4}\sum_{i=1}^{5}(x_{i}-3)^{2} = \frac{1}{4}(0+4+1+9+0) = \frac{14}{4} = 3.5$$

 

6.2) 순서통계량

 

n개의 표본 관측값 $x_{1}, x_{2}, ..., x_{n}$을 작은 것부터 차례로 배열하여 순서화한 관측값 $y_{1} \leq y_{2} \leq ... \leq y_{n}$을 표본의 순서통계량 (order statistics) 값이라고 한다.

 

순서통계량의 분포는 다음과 같이 정의된다.

 

$Y_{1} < Y_{2} < ... < Y_{n}$는 분포함수가 $F(x)$이고 pdf가 $F'(x) = f(x)$이며

$a < x < b$에서 $0 < F(x) < 1$, $ F(a) = 0, F(b) = 1$인 연속형 분포에서 얻는 $n$개의 독립 관측값들의 순서통계량이라 할 때, $r$번째 순서통계량 $Y_{r}$의 cdf와 pdf는 다음과 같다.

 

$$G_{r}(y) = P(Y_{r} < y) = \sum_{k=r}^{n}\left(\begin{array}{rr} n\\k \end{array}\right)[F(y)]^{k}[1-F(y)]^{n-k}$$

$$ = \sum_{k=r}^{n-1}\left(\begin{array}{rr} n\\k \end{array}\right)[F(y)]^{k}[1-F(y)]^{n-k} + [F(y)]^{n}$$

$$g_{r}(y) = \frac{n!}{(r-1)!(n-r)!} [F(r)]^{r-1}[1-F(y)]^{n-r} f(y), \ \ a < y < b$$

 

순서통계량에서 $Y_{r}$은 $r = (n+1)p$일 때 표본 (100p) 백분위수이다.

 

이 때 $F$는 비감소함수이며

 

$$W_{1} = F(Y_{1}) < W_{2} = F(Y_{2}) < ... < W_{n} = F(Y_{n})$$

 

$W_{1}, W_{2}, ..., W_{n}$은 균일분포로부터 $n$개의 독립 관측값들의 순서통계량이다. 

 

$G(w) = w, \ 0 < w < 1$에 대하여 $W_{r}$의 pdf는 다음과 같다.

 

$$h_{r}(w) = \frac{n!}{(n-1)!(n-r)!}w^{r-1}(1-w)^{n-r}, \ 0 < w < 1$$

$$E(W_{r}) = \frac{r}{n+1}, \ \ r = 1, 2, 3, ..., n$$

 

추가적으로 순서통계량에 대한 통계 정보를 아래와 같이 정리하였다.

 

a) $Y_{r}$ 이하의 $f(x)$의 누적확률: $W_{r} = F(Y_{r})$

 

b) $Y_{r-1}$과 $Y_{r}$ 사이의 확률면적 = $F(Y_{r} - F(Y_{r-1})$

 

이 때, 확률면적의 평균: $E[F(Y_{r}) - F(Y_{r-1})] = \frac{1}{n+1}$

 

c) $p = \frac{r}{n+1}$일 때 $Y_{r} = \pi_{p}$의 추정량

 

d) 표본중위수

$$\hat{m} = \cases{\frac{Y_{n+1}}{2},\ \  n이\ 홀수일\ 때\\ \frac{Y_{n/2} + Y_{(n/2)+1}}{2},\ \  n이\ 짝수일\ 때}$$

 

순서통계량의 표본분위수를 표현하기 위한 방법으로 Q-Q plot이 있다.

 

$y_{1}, y_{2}, ..., y_{n}$이 표본 $x_{1}, x_{2}, ..., x_{n}$의 순서통계량이라고 하면, 

 

$y_{r}$은 $\frac{r}{n+1}$차 표본분위수 (sample quantile of order $\frac{r}{n+1}$) 혹은

 

$\frac{100r}{n+1}$표본백분위수 라고 한다. 

 

$\pi_{p}$가 이론분포의 $p$차 분위수

 

$y_{r}$가 표본의 $p = \frac{r}{n+1}$차 분위수일 때,

 

표본이 이론분포를 잘 따른다면, $y_{r} \approx \pi_{p}$이고 $(y_{r}, \pi_{p})$의 기울기 1, 그리고 원점을 통과하는 직선과 가깝게 위치한다고 한다.

 

Q-Q plot은 아래와 같이 표현된다.

 

 

#. 그림은 '수리통계학 - Robert V.Hogg'의 책에서 발췌하였습니다.

Comments