일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- github
- json
- git
- review
- computer
- terminal
- Vim
- text
- linux
- language_model
- Ai
- install
- nlp
- paper_review
- code
- natural_language_processing
- tab
- computer_setting
- cs224n
- deeplearning
- gensim
- Statistics
- cs231n
- slideshare
- Standford
- machinelearning
- seq2seq
- pip
- error
- Stanford
- Today
- Total
NLP/AI/Statistics
[수리통계] Chap.6 점추정2 본문
지난 글에서 점추정에 대하여 기술통계학, 순서통계량에 대하여 설명하였다.
이번에는 그 이후의 목차인
6.3) 최우추정
6.4) 충분통계량
6.5) 베이지안 추정
에 대하여 설명할 예정이다.
6.3) 최우추정 (Maximum likelihood estimation)
표본 평균 $\bar{x}$ = $m$의 추정치,
표본 분산 $s^{2}$ = 분산 $\sigma^{2}$의 추정치로 사용된다.
이 때 이러한 추정치들이 모수에 어느정도 정확한가를 보기 위해 최우추정을 한다.
모수공간(paramete space)란 확률밀도함수가 의존하는 모수의 공간을 의미한다.
$$f(x;\theta) = (\frac{1}{\theta})e^{-\frac{x}{\theta}}, \ \ 0 < x < \infty$$
$$\theta \in \Omega = {\theta:0 < \theta < \infty}$$
이 때 $\theta$에 대한 정보를 얻기 위해 독립적으로 $n$번 반복하여 확률 표본 $X_{1}, X_{2}, ..., X_{n}$을 관측하고 $x_{1}, x_{2}, ..., x_{n}$을 관측치로 얻는다.
이에 대한 추정량, 추정치, 점추정량은 다음과 같이 정의된다.
a) 추정량 (estimator): $u(X_{1}, X_{2}, ..., X_{n})$
b) 추정치 (estimate): $u(x_{1}, x_{2}, ..., x_{n})$가 $\theta$에 근접하기를 바라는 값
c) 점추정량 (point estimator): 모수공간에 있는 $\theta$ 중 한 값을 추정
#. $x_{1}, x_{2}, ..., x_{n}$이 $p$에 대한 좋은 점추정치가 되는 추정량 $u(X_{1}, X_{2}, ..., X_{n}$을 어떻게 찾을 것인가?
$$P(X_{1} = x_{1}, ..., x_{n}, X_{n} = x_{n}) = \prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}} = p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}$$
즉, 관측치에서 평가된 $X_{1}, ..., X_{n}$의 결합 pmf에 대하여
위의 확률을 $p$의 함수라고 할 때, 이를 최대화하는 $p$를 구한다.
결합 pmf를 $p$의 함수로 간주할 때 이를 우도함수(likelihood function)이라고 한다.
$$L(p) = L(p;x_{1}, ..., x_{n})$$
$$ = f(x_{1};p) ... f(x_{n};p)$$
$$ p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}, \ \ 0 \leq p \leq 1$$
이 때 $L(p)$를 최대화하는 $p \in \Omega = {p:0 \leq p \leq 1}$값을 구한다.
즉,
$$\hat{p} = \frac{1}{n}\sum_{i=1}^{n} X_{i} = \bar{X}$$
를 최우추정량(maximum likelihood estimator; MLE)라고 한다.
경우에 따라 $L(p)$의 최대값보다 $ln L(p)$의 최대값을 구하는 것이 더 쉬울 때가 있다.
우도함수와 최우추정량, 최우추정치를 다시 한번 정의하자면,
$X_{1}, X_{2}, ..., X_{n}$이 하나 혹은 그 이상의 모수 $\theta_{1}, \theta_{2}, ..., \theta{m}$에 의존하는 pmf 혹은 pdf, $f(x: \theta_{1}, ..., \theta_{m})$을 가진 확률표본에서 추출된 확률표본이라고 할 때,
$(\theta_{1}, \theta_{2}, \theta_{m})$은 모수공간 $\Omega$에 제한되어 있다고 가정한다.
이에 대한 가정에서, 결합 pmf
$$L(\theta_{1}, ..., \theta_{m}) = \prod_{i=1}^{n} f(x_{i}; \theta_{1}, ..., \theta_{m}), \ \ (\theta_{1}, ..., \theta_{m}) \in \Omega$$
는 $\theta_{i}$들의 함수로 간주될 때 우도함수라고 한다.
$$\hat{\theta_{j}} = u_{j}(X_{1}, ..., X_{n}),\ \ j = 1, 2, ..., m$$
는 $\theta_{j}$의 최우추정량이며,
이들 통계량에 해당되는 관측치 $u_{j}(x_{1}, ..., x_{n})$은 최우추정치(maximum likelihood estimates)라고 한다.
#. 만약 $E[u(X_{1}, ..., X_{n})] = \theta$이면 통계량 $u(X_{1}, ..., X_{n})$은 $\theta$의 불편추정량(unbiased estimator)라고 하고 그렇지 않으면 편의(bias)를 가졌다고 한다.
6.4) 충분통계량 (Sufficient statistics)
확률표본 $X_{1}, ..., X_{n}$의 결합 pmf 혹은 pdf가 $f(x_{1}, ..., x_{n};\theta)$일 때,
통계량 $Y = u(X_{1}, X_{2}, ..., X_{n})$이 충분통계량일 필요충분조건은
결합 pmf 혹은 pdf가 오직 $u(x_{1}, x_{2}, ..., x_{n})$을 통하여 $x_{1}, ..., x_{n}$에 의존하는 함수인
$\phi [u(x_{1}, x_{2}, ..., x_{n}); \theta] h(x_{1}, x_{2}, ..., x_{n})$ 와 같이 나타나는 것을 의미한다.
#. 충분통계량이 존재하는 경우 충분통계량이 주어진다면 조건부 분포는 모수에 대한 더 이상의 정보가 남아있지 않다.
그렇기 때문에 모수추정과 통계적 가설검정을 포함한 모든 통계적 추론은 충분통계량에 근거한다.
$X_{1}, X_{2}, ..., X_{n}$이 다음과 같은 지수형태의 pdf 혹은 pdf
$$f(x;\theta) = exp[K(x)p(\theta) + S(x) + q(\theta)]$$
를 갖는 분포의 확률표본이라 하고
pdf 혹은 pmf 공간이 $\theta$에 의존하지 않으면 통계량 $\sum_{i=1}^{n}K(X_{i})$는 $\theta$에 대하여 충분통계량이다.
결합충분통계량은 아래와 같이 정의된다.
두 개의 모수 $\theta_{1}, \theta_{2}$에 대하여 결합 pdf 혹은 pmf가
$$f(x_{1}, ..., x_{n};\theta_{1}, \theta_{2}) = \phi[u_{1}(x_{1}, ..., x_{n}), u_{2}(x_{1}, x_{2}, ..., x_{n}); \theta_{1}, \theta_{2}] h(x_{1}, ..., x_{n})$$
과 같다고 할 때
$$u_{1}(X_{1}, X_{2}, ..., X_{n}), u_{2}(X_{1}, X_{2}, ..., X_{n})$$는
$\theta_{1}, \theta_{2}$에 대한 결합충분통계량(joint sufficient statistics)이다.
6.5) 베이지안 추정
베이지안 추정은 사전 확률과 추가적인 정보를 통해 특정 표본에 대한 사후확률을 추론하는 방법이다.
예제1)
"평균 $\lambda$가 2 혹은 4인 포아송분포로부터 하나의 관측값을 선택하는 실험에서 $\lambda = 4$에 비해 $\lambda = 2$가 4배 정도 더 일어날 가능성이 있다고 사전에 알고 있다. 즉, $P(\lambda = 2) = 0.8, P(\lambda = 4) = 0.2$이다. 이 실험에서 $x = 6$이 관측되었다고 할 때, $\lambda = 2$인 분포에서 나왔을 확률은?"
#. $P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}$
포아송분포 $f(x) = \frac{\lambda^{x}e^{-\lambda}}{x!}$에 대하여
$$P(\lambda = 2|x = 6) = \frac{P(x = 6|\lambda = 2)P(\lambda = 2)}{P(x = 6)}$$
$$ = \frac{P(x = 6|\lambda = 2)P(\lambda = 2)}{P(x = 6|\lambda = 2)P(\lambda = 2) + P(x = 6|\lambda = 4)P(\lambda = 4)} = 0.316$$
모수 공간에서 사전 pdf $h(\theta)$를 통해 확률을 할당할 수 있다.
(a) $h(\theta)$: 사전 pdf (prior pdf)
(b) $h(\theta)$가 균일분포라면 무정보(noninformative) 사전 분포는 아래의 정보를 갖는다.
- 통계량 $Y$의 pdf: $g(y|\theta)$
- $Y$와 $\theta$의 결합 pdf: $k(y, \theta) = g(y|\theta)h(\theta)$
- $Y$의 주변 pdf: $k_{1}(y) = \int_{-\infty}^{\infty} h(\theta)g(y|\theta)d\theta$
(c) 이 때, $\theta$의 사후 pdf (posterior pdf): $k(\theta|y) = \frac{k(y, \theta)}{k_{1}(y)} = \frac{g(y|\theta)h(\theta)}{k_{1}(y)}$
'Statistics > 수리통계' 카테고리의 다른 글
[수리통계] Chap.6 점추정1 (0) | 2020.11.27 |
---|---|
[수리통계]Chap.5 확률변수의 분포3 (0) | 2020.11.25 |
[수리통계]Chap.5 확률변수의 분포2 (0) | 2020.11.19 |
[수리통계]Chap.5 확률변수의 분포1 (0) | 2020.11.16 |
[수리통계]Chap.4 이변량 분포 2(조건부 분포) (0) | 2020.11.12 |