NLP/AI/Statistics

[수리통계] Chap.6 점추정2 본문

Statistics/수리통계

[수리통계] Chap.6 점추정2

Danbi Cho 2020. 12. 2. 16:00

지난 글에서 점추정에 대하여 기술통계학, 순서통계량에 대하여 설명하였다.

 

이번에는 그 이후의 목차인

 

6.3) 최우추정

6.4) 충분통계량

6.5) 베이지안 추정

 

에 대하여 설명할 예정이다.

 

6.3) 최우추정 (Maximum likelihood estimation)

 

표본 평균 $\bar{x}$ = $m$의 추정치,

표본 분산 $s^{2}$ = 분산 $\sigma^{2}$의 추정치로 사용된다.

 

이 때 이러한 추정치들이 모수에 어느정도 정확한가를 보기 위해 최우추정을 한다.

 

모수공간(paramete space)란 확률밀도함수가 의존하는 모수의 공간을 의미한다.

 

$$f(x;\theta) = (\frac{1}{\theta})e^{-\frac{x}{\theta}}, \ \ 0 < x < \infty$$

$$\theta \in \Omega = {\theta:0 < \theta < \infty}$$

 

이 때 $\theta$에 대한 정보를 얻기 위해 독립적으로 $n$번 반복하여 확률 표본 $X_{1}, X_{2}, ..., X_{n}$을 관측하고 $x_{1}, x_{2}, ..., x_{n}$을 관측치로 얻는다.

 

이에 대한 추정량, 추정치, 점추정량은 다음과 같이 정의된다.

 

a) 추정량 (estimator): $u(X_{1}, X_{2}, ..., X_{n})$

b) 추정치 (estimate): $u(x_{1}, x_{2}, ..., x_{n})$가 $\theta$에 근접하기를 바라는 값

c) 점추정량 (point estimator): 모수공간에 있는 $\theta$ 중 한 값을 추정

 

 

#. $x_{1}, x_{2}, ..., x_{n}$이 $p$에 대한 좋은 점추정치가 되는 추정량 $u(X_{1}, X_{2}, ..., X_{n}$을 어떻게 찾을 것인가?

$$P(X_{1} = x_{1}, ..., x_{n}, X_{n} = x_{n}) = \prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}} = p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}$$

 

즉, 관측치에서 평가된 $X_{1}, ..., X_{n}$의 결합 pmf에 대하여

위의 확률을 $p$의 함수라고 할 때, 이를 최대화하는 $p$를 구한다.

 

결합 pmf를 $p$의 함수로 간주할 때 이를 우도함수(likelihood function)이라고 한다.

 

$$L(p) = L(p;x_{1}, ..., x_{n})$$

$$ = f(x_{1};p) ... f(x_{n};p)$$

$$ p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}, \ \ 0 \leq p \leq 1$$

 

이 때 $L(p)$를 최대화하는 $p \in \Omega = {p:0 \leq p \leq 1}$값을 구한다.

 

즉,

 

$$\hat{p} = \frac{1}{n}\sum_{i=1}^{n} X_{i} = \bar{X}$$

최우추정량(maximum likelihood estimator; MLE)라고 한다.

 

경우에 따라 $L(p)$의 최대값보다 $ln L(p)$의 최대값을 구하는 것이 더 쉬울 때가 있다.

 

우도함수와 최우추정량, 최우추정치를 다시 한번 정의하자면,

 

$X_{1}, X_{2}, ..., X_{n}$이 하나 혹은 그 이상의 모수 $\theta_{1}, \theta_{2}, ..., \theta{m}$에 의존하는 pmf 혹은 pdf, $f(x: \theta_{1}, ..., \theta_{m})$을 가진 확률표본에서 추출된 확률표본이라고 할 때,

 

$(\theta_{1}, \theta_{2}, \theta_{m})$은 모수공간 $\Omega$에 제한되어 있다고 가정한다.

 

이에 대한 가정에서, 결합 pmf 

$$L(\theta_{1}, ..., \theta_{m}) = \prod_{i=1}^{n} f(x_{i}; \theta_{1}, ..., \theta_{m}), \ \ (\theta_{1}, ..., \theta_{m}) \in \Omega$$

는 $\theta_{i}$들의 함수로 간주될 때 우도함수라고 한다. 

 

$$\hat{\theta_{j}} = u_{j}(X_{1}, ..., X_{n}),\ \ j = 1, 2, ..., m$$

는 $\theta_{j}$의 최우추정량이며, 

 

이들 통계량에 해당되는 관측치 $u_{j}(x_{1}, ..., x_{n})$은 최우추정치(maximum likelihood estimates)라고 한다. 

 

#. 만약 $E[u(X_{1}, ..., X_{n})] = \theta$이면 통계량 $u(X_{1}, ..., X_{n})$은 $\theta$의 불편추정량(unbiased estimator)라고 하고 그렇지 않으면 편의(bias)를 가졌다고 한다. 

 

6.4) 충분통계량 (Sufficient statistics)

 

확률표본 $X_{1}, ..., X_{n}$의 결합 pmf 혹은 pdf가 $f(x_{1}, ..., x_{n};\theta)$일 때,

 

통계량 $Y = u(X_{1}, X_{2}, ..., X_{n})$이 충분통계량일 필요충분조건은 

 

결합 pmf 혹은 pdf가 오직 $u(x_{1}, x_{2}, ..., x_{n})$을 통하여 $x_{1}, ..., x_{n}$에 의존하는 함수인

$\phi [u(x_{1}, x_{2}, ..., x_{n}); \theta] h(x_{1}, x_{2}, ..., x_{n})$ 와 같이 나타나는 것을 의미한다. 

 

#. 충분통계량이 존재하는 경우 충분통계량이 주어진다면 조건부 분포는 모수에 대한 더 이상의 정보가 남아있지 않다.

그렇기 때문에 모수추정과 통계적 가설검정을 포함한 모든 통계적 추론은 충분통계량에 근거한다. 

 

$X_{1}, X_{2}, ..., X_{n}$이 다음과 같은 지수형태의 pdf 혹은 pdf 

$$f(x;\theta) = exp[K(x)p(\theta) + S(x) + q(\theta)]$$

를 갖는 분포의 확률표본이라 하고 

 

pdf 혹은 pmf 공간이 $\theta$에 의존하지 않으면 통계량 $\sum_{i=1}^{n}K(X_{i})$는 $\theta$에 대하여 충분통계량이다.

 

결합충분통계량은 아래와 같이 정의된다.

 

두 개의 모수 $\theta_{1}, \theta_{2}$에 대하여 결합 pdf 혹은 pmf가

 

$$f(x_{1}, ..., x_{n};\theta_{1}, \theta_{2}) = \phi[u_{1}(x_{1}, ..., x_{n}), u_{2}(x_{1}, x_{2}, ..., x_{n}); \theta_{1}, \theta_{2}] h(x_{1}, ..., x_{n})$$

과 같다고 할 때

$$u_{1}(X_{1}, X_{2}, ..., X_{n}), u_{2}(X_{1}, X_{2}, ..., X_{n})$$는 

$\theta_{1}, \theta_{2}$에 대한 결합충분통계량(joint sufficient statistics)이다.

 

6.5) 베이지안 추정

 

베이지안 추정은 사전 확률과 추가적인 정보를 통해 특정 표본에 대한 사후확률을 추론하는 방법이다. 

 

예제1)

 

"평균 $\lambda$가 2 혹은 4인 포아송분포로부터 하나의 관측값을 선택하는 실험에서 $\lambda = 4$에 비해 $\lambda = 2$가 4배 정도 더 일어날 가능성이 있다고 사전에 알고 있다. 즉, $P(\lambda = 2) = 0.8, P(\lambda = 4) = 0.2$이다. 이 실험에서 $x = 6$이 관측되었다고 할 때, $\lambda = 2$인 분포에서 나왔을 확률은?"

 

#. $P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}$

 

포아송분포 $f(x) = \frac{\lambda^{x}e^{-\lambda}}{x!}$에 대하여 

 

$$P(\lambda = 2|x = 6) = \frac{P(x = 6|\lambda = 2)P(\lambda = 2)}{P(x = 6)}$$

$$ = \frac{P(x = 6|\lambda = 2)P(\lambda = 2)}{P(x = 6|\lambda = 2)P(\lambda = 2) + P(x = 6|\lambda = 4)P(\lambda = 4)} = 0.316$$

 

모수 공간에서 사전 pdf $h(\theta)$를 통해 확률을 할당할 수 있다.

 

(a) $h(\theta)$: 사전 pdf (prior pdf)

(b) $h(\theta)$가 균일분포라면 무정보(noninformative) 사전 분포는 아래의 정보를 갖는다.

    - 통계량 $Y$의 pdf: $g(y|\theta)$

    - $Y$와 $\theta$의 결합 pdf: $k(y, \theta) = g(y|\theta)h(\theta)$

    - $Y$의 주변 pdf: $k_{1}(y) = \int_{-\infty}^{\infty} h(\theta)g(y|\theta)d\theta$

(c) 이 때, $\theta$의 사후 pdf (posterior pdf): $k(\theta|y) = \frac{k(y, \theta)}{k_{1}(y)} = \frac{g(y|\theta)h(\theta)}{k_{1}(y)}$

Comments