일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- git
- slideshare
- text
- terminal
- github
- review
- paper_review
- json
- Stanford
- computer
- error
- pip
- cs231n
- Standford
- computer_setting
- tab
- gensim
- code
- Ai
- deeplearning
- Vim
- seq2seq
- natural_language_processing
- linux
- install
- Statistics
- machinelearning
- nlp
- cs224n
- language_model
- Today
- Total
NLP/AI/Statistics
[수리통계]Chap.3 연속형 확률분포 본문
Chap3에서는 연속형 확률분포에 대하여 설명하고자 한다.
연속형 확률변수에 대하여 아래와 같이 설명할 예정이다.
3.1) 연속형 확률변수 (균일분포, 확률밀도함수, 백분위수)
3.2) 지수, 감마, 카이제곱분포 (지수분포, 감마분포, 카이제곱분포)
3.3) 정규분포 (정규분포, 표준정규분포)
3.1) 연속형 확률변수
정수와 같이 명확한 값을 변수값으로 갖는 이산형 확률변수와 달리,
연속형 확률변수는 명확한 값을 갖지 않는다.
확률 변수 $X$가 구간 $[a,b], -\infty < a < b < \infty$로부터 임의로 선택된 하나의 점의 위치라고 할 때,
$[a,x], a \leq x < b$로부터 선택될 확률은 $\frac{x-a}{b-a}$이다.
이 때 $X$의 cdf는 다음과 같다.
$$F(x) = \cases{0,\ \ x < a\\ \frac{x-a}{b-a},\ \ a \leq x < b\\ 1,\ \ b \leq x}$$
$$F(x) = \int_{-\infty}^{x} f(y)dy$$
cdf의 도함수 $F'(x) = f(x)$는 $f(x) = \frac{1}{b-a}, a \leq x \leq b$와 같은 균일분포(uniform distribution)의 형태를 나타낸다.
그리고 이외의 곳에서의 도함수 값은 0이 된다. $F'(x) = f(x)$
$f(x)는 $X$의 확률밀도함수(probability density function; pdf)라고 하며, 아래의 성질을 만족하는 적분가능함수이다.
a) $f(x) > 0, x \in S$
b) $\int_{S} f(x)dx = 1$
c) $(a,b) \subset S$ 이면, 사상 ${a < x < b}$의 확률은 $P(a < X < b) = \int_{a}^{b}f(x)dx$이다.
$F(x)$는 $X$의 누적분포함수(cumulative distribution function; cdf)이며, 아래와 같다.
$$F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t)dt, -\infty < x < \infty$$
예제1)
"$Y$가 pdf $g(y)= 2y, 0 < y < 1$을 갖는다면 $Y$의 cdf는?"
$$G(y) = P(Y \leq y) = \int_{-\infty}^{y} 2t dt = \int_{0}{y} 2t dt$$
$$= t^2|_{0}^{y} = y^2, (0 < y < 1)$$
r차 적률에 의해 연속형 확률변수는 아래와 같이 평균, 기대값, 분산 값을 갖는다.
1) 평균(mean), 기댓값(expected value): $m = E(X) = \int_{-\infty}^{\infty} xf(x)dx$
2) 분산(variance): $\sigma^2 = Var(X) = E[(X-m)^2] = \int_{-\infty}^{\infty}(x-m)^{2}f(x)dx$
또한, $h > 0$일 때 이에 대한 적률생성함수는 아래와 같다.
$$M(t) = E(e^tX) = \int_{-\infty}^{\infty}e^{tx}f(x)dx, \ -h < t < h$$
이산형 확률변수 때와 마찬가지로 적률생성함수를 이용하여 평균과 분산을 증명할 수 있다.
$$M'(t) = E(X) = \int xf(x)dx$$
$$ = \int_{a}^{b} \frac{x}{b-a}dx = \frac{1}{b-a} \frac{x^2}{2}|_{a}^{b}$$
$$ = \frac{(b-a)(b+a)}{2(b-a)} = \frac{a+b}{2}$$
$$M''(t) = E(X^2) = \int x^{2}f(x)dx$$
$$ = \int_{a}^{b} \frac{x^2}{b-a}dx = \frac{1}{b-a} \frac{x^3}{3}|_{a}^{b}$$
$$ = \frac{(b-a)(b^2+ab+a^2)}{3(b-a)} = \frac{b^2+ab+a^2}{3}$$
$$m = \frac{a+b}{2}$$
$$\sigma^2 = \frac{b^2+ab+a^2}{3} - (\frac{a+b}{2})^2 = \frac{a^2-2ab+b^2}{12} = \frac{(a-b)^2}{12}$$
#. r차 적률 $E(X^r)$이 존재하고 유한이면, $E(X^k), \ k = 1, 2, ..., r-1$도 존재하고 유한이다.
이 때, 역은 성립되지 않는다.
예제2)
"확률변수 $X$가 pdf $f(x) = \cases{xe^{-x},\ \ 0 \leq x < \infty \\ 0,\ \ e.w}$를 갖는다면
$X$의 mgf, 평균, 분산은?"
1) mgf
$$mgf = \int_{0}^{\infty}e^{tx}xe^{-x}dx = \int_{0}^{\infty}xe^{(t-1)x}dx$$
$$ = \frac{1}{t-1}xe^{(t-1)x}|_{0}^{\infty} - \int_{0}^{\infty}\frac{1}{t-1}e^{(t-1)x}dx$$
$$ = \frac{1}{t-1}xe^{(t-1)x}|_{0}^{\infty} - (\frac{1}{t-1})^{2}e^{(t-1)x}|_{0}^{\infty}$$
$$ = (\frac{1}{t-1})^2, \ t < 1$$
2) 평균과 분산 (적률생성함수 사용)
$$M(t) = \frac{1}{(1-t)^2} = (1-t)^2$$
$$M'(t) = (-2)*(-1)(1-t)^{-3}$$
$$M'(0) = 2 = mean$$
$$M''(t) = 6(1-t)^{-4}$$
$$M''(0) = 6$$
$$\sigma^2 = 6 - 2^2 = 2$$
연속형 확률변수는 백분위수를 나타낼 수 있다.
$p = \int_{-\infty}^{\pi_{p}}f(x)dx = F(\pi_{p})$를 만족시키는 $\pi_{p}$를 제 100p 백분위수(the 100p-th percentile)이라고 한다.
a) $m = \pi_{0.50}$: 중위수(median)
b) $q_1 = \pi_{0.25}$: 제 1사분위수 (the 1st quartile)
c) $q_3 = \pi_{0.75}$: 제 3사분위수 (the 3rd quartile)
예제3)
"어떤 제품이 고장날 때까지의 시간 (단위: 월)을 나타내는 확률변수 $X$가 다음의 pdf, cdf를 갖는다.
$$f(x) = \frac{3x^2}{4^3}e^{-(\frac{x}{4})^3}, \ 0 < x < \infty$$
$$F(x) = \cases{0,\ \ -\infty < x < 0\\1-e^{-(\frac{x}{4})^3},\ \ 0 \leq x < \infty}$$
이 때 제 30백분위수는?"
제 30백분위수는 $F(x) = P(X \leq x) = 0.3$을 의미한다.
$$1-e^{-(\frac{x}{4})^3} = 0.3$$
$$e^{-\frac{x}{4})^3} = 0.7$$
$$(\frac{x}{4})^3 = -\ln 0.7$$
$$x = 4*(-\ln0.7)^{\frac{1}{3}} = 2.84$$
3.2) 지수, 감마, 카이제곱분포 (지수분포, 감마분포, 카이제곱분포)
[1] 지수분포(exponential distribution)
Recall: 포아송과정에서 주어진 구간에서 발생한 건수
$$f(x) = \frac{\lambda^{x}e^{-\lambda}}{x!}, \ x = 0, 1, 2, ..., \lambda > 0$$
단위구간에서 평균 발생건수가 \lambda인 포아송 과정에서 첫 발생이 일어날 때까지 대기시간을 $W$라고 할 때,
$$F(w) = 0, \ w < 0$$
$$F(w) = P(W < w) = 1 - P(W > w)$$
$$ = 1 - P(구간\ [0, w]에\ 단\ 하나의\ 발생도\ 없다.\ 즉,\ x = 0)$$
$$ = 1- e^{-\lambda w}, \ w \geq 0$$
$$F'(w) = f(w) = \lambda e^{-\lambda w} : cdf$$
이 때 $\lambda = \frac{1}{\theta}$로 하면 확률변수 $X$는 지수분포(exponential distribution); $Exp(\theta)$를 갖는다.
지수분포의 pdf와 평균, 분산은 다음과 같다.
$$pdf = f(x) = \frac{1}{\theta}e^{-\frac{x}{\theta}},\ 0 \leq x < \infty$$
$$M(t) = \frac{1}{1-\theta t},\ t < \frac{1}{\theta}$$
$$m = \theta$$
$$\sigma^2 = \theta^2$$
적률생성함수 $M(t)$와 이를 이용한 평균과 분산은 아래와 같이 증명된다.
$$M(t) = E(e^{tX} = \int_{0}^{\infty}e^{tx}\frac{1}{\theta}e^{-\frac{x}{\theta}}dx$$
$$ = \int_{0}^{\infty}\frac{1}{\theta}e^{(t-\frac{1}{\theta})x}dx$$
$$ = \frac{1}{\theta}\frac{1}{t-\frac{1}{\theta}}e^{(t-\frac{1}{\theta})x}|_{0}^{\infty}$$
$$ = \frac{1}{\theta}\frac{1}{t-\frac{1}{\theta}}(-1)$$
$$ = \frac{1}{1-\theta t}, \ t < \frac{1}{\theta}$$
$$M'(t) = -(1-\theta t)^(-2)(-\theta)$$
$$ = \theta(1-\theta t)^{-2}$$
$$M'(0) = \theta = m(mean)$$
$$M''(t) = 2\theta^2(1-\theta t)^{-3}$$
$$ = 2\theta^2$$
$$\sigma^2 = 2\theta^2 - \theta^2 = \theta$$
예제1)
"$X$가 평균 $\theta = 20$을 갖는 지수분포를 갖는다고 한다."
$$f(x) = \frac{1}{20}e^{-\frac{x}{20}}$$
1) $P(X < 18)
$$ \int_{0}^{18} \frac{1}{20}e^{-\frac{x}{20}}dx = -e^{-\frac{x}{20}}|_{0}^{18}$$
$$ = -e^{-\frac{18}{20}} + 1$$
2) 중위수
$$F(x) = \int_{0}^{x}\frac{1}{\theta}e^{-\frac{t}{\theta}}dt$$
$$ = -e^{-\frac{t}{\theta}}|_{0}^{x} = 1 - e^{-\frac{x}{\theta}}$$
$$1 - e^{-\frac{x}{20}} = 0.5$$
$$e^{-\frac{x}{20}} = 0.5$$
$$x = -20\ln0.5 = 13.86$$
#. 지수분포의 무기억성(memoriless property)
$$P(X > x+y | X > x) = P(X > y)$$
[2] 감마분포(gamma distribution)
$W$가 단위구간에서 평균 발생 건수가 $\lambda$인 포아송 과정에서 $a$번째 발생이 일어날 때까지 기다리는 시간을 의미할 때,
$w > 0, $
$F(w) = P(W \leq w) = 1 - P(W > w)$
$ = 1 - P(구간\ [0, w]에서\ a보다\ 작은\ 개수의\ 발생이\ 일어난다.)$
$ = 1 - \sum_{k=0}^{a-1}\frac{(\lambda w)^{k}e^{-\lambda w}}{k!}$
감마함수(gamma function)은 우선적으로 조건에 따라 아래와 같이 표현된다.
$$\gamma(t) = \int_{0}^{\infty} y^{t-1}e^{-y}dy$$
$t > 1$일 때,
$$\gamma(t) = (t-1)\gamma(t-1)$$
$n$이 양의 정수일 때,
$$\gamma(n) = (n-1)!$$
감마분포(gamma distribution)은 $Gamma(a, \theta)$와 같이 표기되며 아래의 함수와 함께 적률생성함수로 평균과 분산이 증명된다.
다음의 감마 분포의 pdf를 위해 $\theta > 0, a > 0$의 조건이 따른다.
$$f(x) = \frac{1}{\gamma(a) \theta^{a}} x^{a-1}e^{-\frac{x}{\theta}},\ \ 0 \geq x < \infty$$
$$M(t) = \frac{1}{(1-\theta t)^{a}},\ \ t < \frac{1}{\theta}$$
$$m = a\theta$$
$$\sigma^2 = a\theta^2$$
$$M(t) = (1-\theta t)^{-a}$$
$$M'(t) = a\theta (1-\theta t)^{-a-1}$$
$$M'(0) = a\theta = m$$
$$M''(t) = a(a+1)\theta^2 (1-\theta t)^{-a-2}$$
$$M''(0) = a(a+1)\theta^2$$
$$\sigma^2 = a^{2}\theta^{2} + a\theta^{2} - a^{2}\theta^{2} = a\theta^{2}$$
#. $a = 1: Gamma(a, \theta) = Gamma(1, \theta) = Exp(\theta)$
#. 포아송 분포의 모수 $\lambda$에 대해 $\theta = \frac{1}{\lambda}$
예제1)
"1분마다 교환대에 걸려오는 전화 건수는 평균 2인 포아송 과정을 따른다고 한다.
$X$를 5번 째 전화가 올 때까지의 대기 시간이라 할 때, $X$의 pdf와 $X$의 평균과 분산은?"
1) $X$의 pdf:
$$Gamma(5, \frac{1}{2})$$
$$f(x) = \frac{1}{\gamma(5)(\frac{1}{2})^5} x^{5-1}e^{-2x},\ \ x > 0$$
$$ = \frac{2^{5}}{\gamma(5)}x^{4}e^{-2x}$$
2) $X$의 평균과 분산:
$$m = a\theta = \frac{5}{2}$$
$$\sigma^2 = a\theta^2 = \frac{5}{4}$$
#. 전화 1번 올 때까지 걸리는 시간 ~$exp(\frac{1}{2})$
[3] 카이제곱분포(Chi-square distribution)
카이제곱 분포는 감마분포의 특수한 경우에 사용된다.
$X$가 $\theta = 2, a = \frac{r}{2} (r은\ 양의\ 정수)$인 감마분포를 따르면 $X$는 자유도(degrees of freedom) $r$의 카이제곱 분포를 갖는다고 한다.
이를 $\chi^2(r)$과 같이 표기하고, $Gamma(\frac{r}{2}, 2) = \chi^2(r)$이다.
카이제곱분포의 pdf와 평균, 분산은 아래와 같다.
$$f(x) = \frac{1}{\gamma(\frac{r}{2}) 2^{\frac{r}{2}}} x^{\frac{r}{2}-1} e^{-\frac{x}{2}}, 0 < x < \infty$$
$$M(t) = (1-2t)^{-\frac{r}{2}},\ \ t < \frac{1}{2}$$
$$m = r$$
$$\sigma^2 = 2r$$
3.3) 정규 분포
확률변수 $X$의 pdf가
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} exp[-\frac{(x-m)^2}{2\sigma^2}], -\infty < x < \infty$$
로 주어질 때,
$X$는 모수 $-\infty < m < \infty, 0 < \sigma^2 < \infty$를 갖는 정규분포(normal distribution)을 나타낸다.
이 때 정규분포를 따르는 $X$를 $N(m, \sigma^2)$와 같이 표기한다.
$$\int_{\infty}^{\infty} f(x)dx = 1$$
$$M(t) = exp(mt + \frac{\sigma^{2}t^{2}}{2})$$
$$E(X) = m$$
$$Var(X) = \sigma^2$$
위에서 적률생성함수 $M(t)$는 아래와 같이 증명된다.
$$M(t) = E(e^{tx})$$
$$= \int_{-\infty}^{\infty} e^{tx}\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-m)^2}{2\sigma^2}} dx$$
$$= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2\sigma^2}[x^2 -2mx -2\sigma^{2}tx + m^2]} dx$$
$$= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2\sigma^2}(x-(m+\sigma^{2}t))^2}dx e^{\frac{1}{2\sigma^2}[(m+\sigma^{2}t)^{2} - m^{2}]}$$
$$ = e^{\frac{1}{2\sigma^2}[2\sigma{2}tm+\sigma^{4}t^{2}]}$$
$$ = exp[mt + \frac{\sigma^{2}t^{2}}{2}]$$
#. $x^2 -2mx -2\sigma^{2}tx + m^2$
$ = x^2 -2(m+\sigma^{2}t)x + m^2$
$ = [x - (m+\sigma^{2}t)]^2 - (m+\sigma^{2}t)^2 + m^2$
#. $\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2\sigma^{2}}(x-(m+\sigma^{2}t))^2}dx$
$ = N(m+\sigma^{2}t, \sigma^2)$
표준정규분포(standard normal distribution)은 정규분포의 특별한 경우에 사용된다.
즉, $Z$가 $N(0,1)$일 때 표준정규분포를 따른다고 한다.
$$\phi(z) = P(Z \leq z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{w^2}{w}} dw$$
$$\phi(-z) = 1-\phi(z)$$
정리)
$$X ~ N(m, \sigma^2)이면 $Z = \frac{(X-m)}{\sigma} ~ N(0,1)$$
이 때, $Z$도 정규분포를 따른다.
여기에서 $Z$를 $X$의 정규점수(standard score)라고 한다.
확률변수 $X$에 대해 $E(X) = m$와 $E[(X-m)^2] = \sigma^2$이고,
$Z = \frac{(X-m)}{\sigma}이면, m_{z} = 0, \sigma_{z} = 1$이다.
예제1)
"$X ~ N(3,16)$이면 $P(4 \leq X \leq 8)$는?"
> $m = 3, \sigma = 4 (\sigma^2 = 16)$
$$P(\frac{4-3}{4} \leq \frac{X-3}{4} \leq \frac{8-3}{4})$$
$$ = P(\frac{1}{4} \leq Z \leq \frac{5}{4})$$
$$ = P(Z \leq 1.25) - P(Z \leq 0.25)$$
$$\phi(1.25) - \phi(0.25)$$
#. 그림은 '수리통계학 - Robert V.Hogg'의 책에서 발췌하였습니다.
'Statistics > 수리통계' 카테고리의 다른 글
[수리통계]Chap.4 이변량 분포 2(조건부 분포) (0) | 2020.11.12 |
---|---|
[수리통계]Chap.4 이변량 분포 1(상관계수) (0) | 2020.11.05 |
[수리통계]Chap.2 이산형 확률분포2 (분포) (0) | 2020.10.26 |
[수리통계]Chap.2 이산형 확률분포1 (기댓값) (0) | 2020.10.23 |
[수리통계]Chap.1 확률 (0) | 2020.10.21 |