NLP/AI/Statistics

[수리통계]Chap.2 이산형 확률분포2 (분포) 본문

Statistics/수리통계

[수리통계]Chap.2 이산형 확률분포2 (분포)

Danbi Cho 2020. 10. 26. 19:11

이전 글에서 2.3 까지의 이산형 확률변수에 대하여 설명하였다.

 

이번에는 그 이후의 각 종 분포에 대하여 설명하고자 한다.

 

2.1) 이산형 확률변수 (확률변수, 이산형 확률변수)

2.2) 수학적 기댓값 (수학적 기댓값, 선형변환과 기댓값)

2.3) 특별한 수학적 기댓값 (평균, 분산, 적률생성함수)

2.4) 이항분포 (이항분포, 베르누이 분포)

2.5) 초기하분포

2.6) 음이항분포

2.7) 포아송분포

 

2.4) 이항분포(Binomial Distribution)

 

이항분포를 설명하기 이전에, 베르누이 실험에 대하여 이해할 필요가 있다.

 

 

베르누이 실험(Bernoulli experiment)은 상호배타적이고 전체를 포괄하는 두 결과 중 하나로 나타나는 확률실험을 일컫는다.

 

예시) 

 

"하루에 복권에 당첨될 확률이 0.006인 복권을 연속적으로 12일 동안 구매하였다.

12일동안 복권 당첨여부를 관측하는 확률실험은 p = 0.006을 갖는 12회의 베르누이 시행에 해당된다."

 

베르누이 시행에서 성공의 경우 $X=1$, 실패의 경우 $X=0$의 값으로 나타나며 $X$를 베르누이 확률변수라고 한다.

 

$$f(x) = p^{x}(1-p)^{1-x}, \ p = 성공확률, x = 0, 1$$

$$m = E(X) = 0*(1-p) + 1*p = p$$

$$\sigma^2 = p - p^2 = p(1-p) = pq$$

 

예제1)

 

"수백만 장이 발행되는 즉성복권의 20%는 당첨금이 있다.

만약 5장의 즉성복권을 연속해서 구입하였을 때 4번째 복권이 당첨되었다면,

 

1) 가능한 관측값의 결과는 (0, 0, 0, 1, 0)이다.

2) 이러한 결과의 확률은 $0.8 * 0.8 * 0.8 * 0.2 * 0.8 = (0.8)^4(0.2)^1$ 이다.

 

이항분포(Binomial Distribution)은 아래의 성질에 따른다. 

 

a) 베르누이 실험이 n회 시행된다. (n = 상수)

b) 각 시행은 독립이다.

c) 각 시행에서 성공의 확률은 상수 $p$이고 실패의 확률은 $q = 1-p$이다.

d) 확률변수 $X$는 n회 시행에서 성공의 횟수와 같다.

 

이러한 이항분포를 $X \sim Bin(n, p)$와 같이 표기하며 식은 아래와 같다.

 

$$f(x) = \left(\begin{array}{rr} n\\x \end{array}\right) p^{x}(1-p)^{n-x}, x = 0, 1, 2, ..., n$$

$$M(t) = [(1-p) + pe^{t}]^{n}, -\infty < t< \infty$$

$$m = np$$

$$\sigma^2 = np(1-p)$$

 

# $M(t) = E(e^{tX})$

          $= \sum_{x=0}^{n} e^{tx} \left(\begin{array}{rr} n\\x \end{array}\right) p^(x)(1-p)^{n-x}$

          $= \sum_{x=0}^{n} \left(\begin{array}{rr} n\\x \end{array}\right) (pe^{t})^{x}(1-p)^{n-x}$

          $= (pe^{t} + 1-p)^{n}$

 

위의 식에서 평균 $m$과 분산 $\sigma^2$는 적률생성함수의 도함수를 통해 아래와 같이 증명된다.

 

$$M'(t) = n[(1-p)+pe^{t}]^{n-1}pe^{t}$$

$$M'(0) = n[(1-p)+p]^{n-1}p = np$$

$$M''(t) = n(n-1)[(1-p)+pe^{t}]^{n-2}(pe^{t})^2 + n[(1-p)+pe^{t}]^{n-1}pe^{t}$$

$$M''(0) = n(n-1)[(1-p)+p]^{n-2}p^2 + n[(1-p)+p]^{n-1}p = n(n-1)p^2+np$$ $$= n^{2}p^{2} - np^{2} + np$$

 

$$m = M'(0) = np$$

$$\sigma^2 = E(X^2) - E(X)^2$$ $$= M''(0) - [M'(0)]^2$$ $$= n^{2}p^{2} - np^{2} + np - (np)^2$$ $$= np(1-p)$$

 

 

예제2)

 

"20%의 당첨률을 갖는 즉석복권이 있다.

$X$를 구입한 8개 복권 중 당첨된 복권의 수라 하면 2개의 복권이 당첨될 확률은?"

 

$$X \sim Bin(8, 0.2)$$

$$f(2) = P(X=2) = \left(\begin{array}{rr} 8\\2 \end{array}\right)(0.2)^{2}(0.8)^{6}$$

 

예제3)

 

"무 씨앗이 발아할 확률이 0.8이다.

10개의 씨앗을 심었을 때 그 중 8개 이하의 씨앗이 발아할 확률은?"

 

$$X = 발아한 씨앗의 수$$

$$X \sim Bin(10, 0.8)$$

$$P(X \leq 8) = 1-p(x=9) - p(x=10)$$

$$1 - \left(\begin{array}{rr} 10\\9 \end{array}\right)(0.8)^9(0.2)^1 - \left(\begin{array}{rr} 10\\10 \end{array}\right)(0.8)^10$$

 

2.5) 초기하분포(Hypergeometric Distribution)

 

주머니 속에 $N = N_1 + N_2$개의 칩들이 들어있으며 그 중 $N_1$개는 빨간색, $N_2$개는 파란색 칩이다.

주머니 속에서 무작위로 비복원 추출법에 의해 $n$개의 공을 추출할 때 $X$를 빨간색 칩의 개수라고 한다.

이 때 확률변수 $X$는 초기하분포를 갖는다고 하고 아래의 pmf를 가진다.

 

$$f(x) = \frac{\left(\begin{array}{rr} N_{1}\\x \end{array}\right) \left(\begin{array}{rr} N_{2}\\n-x \end{array}\right)}{\left(\begin{array}{rr} N\\n \end{array}\right)}, x \leq n, x \leq N_1, n-x \leq N_2 인\ 음이 \ 아닌\ 정수$$

 

$$m = n\frac{N_1}{N}$$

$$\sigma^2 = n\frac{N_1}{N}\frac{N_2}{N}\frac{N-n}{N-1}$$

 

# 만약 비복원 추출이 아닌, 복원추출인 경우

$X \sim Bin(n, \frac{N_1}{N}), p = \frac{N_1}{N}$

 

예제1)

 

"100개의 퓨즈가 한 묶음으로 다음의 절차에 의해 품질검사가 이루어진다.

먼저 5개의 퓨즈를 무작위로 선택하여 5개 퓨즈가 모두 정확한 전류량에서 끊어지면 그 퓨즈 묶음은 합격판정을 받는다.

퓨즈 한 묶음에는 20개의 불량퓨즈가 섞여있다고 가정한다.

확률 변수 $X$가 5개의 퓨즈 표본 중 결함이 있는 퓨즈의 수라면 퓨즈 한 묶음이 합격 판정을 받을 확률은?"

 

$$P(X=x) = \frac{\left(\begin{array}{rr} 20\\x \end{array}\right) \left(\begin{array}{rr} 80\\5-x \end{array}\right)}{\left(\begin{array}{rr} 100\\5 \end{array}\right)}$$

 

2.6) 음이항분포(Negative Binomial Distribution)

 

베르누이 시행을 독립으로 반복하는 확률실험에서 $X$를 r회 성공하는 데 필요한 시행횟수라 한다. 

이 때 $X$의 분포는 다음과 같으며 

$X$는 모수 r = 1, 2, ... 과 $0 < p < 1$를 갖는 음이항분포(negative binomial distribution)을 갖는다.

$$f(x) = \left(\begin{array}{rr} x-1\\r-1 \end{array}\right) p^{r}(1-p)^{x-r},  x = r, r+1, ...$$

 

# r = 1일 때 $X$는 기하분포(geometric distribution)을 갖는다고 한다.

 

음이항분포의 적률생성함수 $M(t)$는 다음과 같으며 이를 사용하여 $m$와 $\sigma^2$를 유도할 수 있다.

 

$$M(t) = \frac{(pe^{t})^r}{[1-(1-p)e^{t}]^{r}}$$

$$m = \frac{r}{p}$$

$$\sigma^2 = \frac{r(1-p)}{p^2}$$

 

예제1)

 

"어느 농구 선수의 훈련 중 프리슛의 성공률은 0.8이라고 한다.

10번 슛을 성공하기까지 던져야 할 슛의 최소한의 수를 $X$라고 하면"

 

1) $X$의 pmf는? 

$$f(x) = P(X=x) = \left(\begin{array}{rr} x-1\\9 \end{array}\right) (0.8)^{9}(0.2)^{x-10}$$

2) $X$의 평균과 표준편차는?

$$m = \frac{10}{0.8} = 12.5$$

$$\sigma^2 = \frac{10(0.2)}{(0.8)^2} = 3.125 ,  \sigma = 0.1768$$

3) 12번째에 10번 슛을 성공할 확률은?

$$P(X=12) = \left(\begin{array}{rr} 11\\9 \end{array}\right) (0.8)^{10} (0.2)^{2} = 0.2362$$

 

2.7) 포아송분포(Poisson Distribution)

 

주어진 연속구간에서 발생하는 사건의 수가 다음의 조건을 만족시킨다면 모두 $\lambda > 0$을 갖는 

근사 포아송과정(approximate poisson process)을 따른다.

 

a) 겹치지 않는 부 구간에서 발생하는 사건의 수들은 독립이다.

b) 구간의 길이가 $h$인 충분히 짧은 길이의 구간에서 정확히 하나의 사건이 발생할 확률은 거의 $\lambda h$이다.

c) 충분히 짧은 길이의 구간에서 사건이 두 번 이상 발생할 확률은 거의 0이다.

 

포아송분포는 다음과 같이 유도된다.

 

$X$: 길이가 1인 구간에서 발생하는 사건의 수

$\frac{1}{n}$ 부구간 사건이 발생할 확률: \frac{\lambda}{n}$

즉, $X \sim Bin(n, \frac{\lambda}{n})$

 

$$f(x) = \frac{n!}{x! (n-x)!} (\frac{\lambda}{n})^{x}(1-\frac{\lambda}{n})^{n-x}$$

$$lim_{n \rightarrow \infty} \frac{n!}{x!(n-x)!} (\frac{\lambda}{n})^{x}(1-\frac{\lambda}{n})^{n-x}$$

$$= lim_{n \rightarrow \infty} \frac{n(n-1) ... (n-x+1)}{n^{x}} \frac{\lambda^{x}}{x!} (1-\frac{\lambda}{n})^{n}) (1-\frac{\lambda}{n})^{-x}$$

# $e^{x} = lim_{n \rightarrow \infty} (1+\frac{x}{n})^n$

$$= lim_{n \rightarrow \infty} 1  \frac{\lambda^x}{x!} e^{-\lambda} 1$$

$$= \frac{\lambda^{x}e^{-\lambda}}{x!}, x = 0, 1, 2, ... $$

 

포아송분포에서 적률생성함수를 이용한 $m$과 $\sigma^2$는 다음과 같다.

 

$$f(x) = \frac{\lambda^{x}e^{-\lambda}}{x!}, x = 0, 1, 2, ..., \lambda > 0$$

$$M(t) = e^{\lambda(e^{t}-1}$$

$$m = \lambda$$

$$\sigma^2 = \lambda$$

 

$$M'(t) = e^{\lambda(e^{t}-1)}\lambda e^t$$

$$M'(0) = \lambda$$

$$M''(t) = \lambda e^{t}e^{\lambda(e^{t}-1)} + \lambda e^{t}\lambda e^{t}e^{\lambda(e^{t}-1)}$$

$$M''(0) = \lambda + \lambda^2$$

 

$$m = M'(0) = \lambda$$

$$\sigma^2 = E(X^2) - E(X)^2$$ $$= M''(0) - [M'(0)]^2$$ $$= \lambda + \lambda^2 - \lambda^2 = \lambda$$

 

예제1)

 

"컴퓨터 테이프는 1200피트 길이당 평균 한 개의 흠이 있다고 한다.

$X$가 4800피트 길이의 테이프에 있는 흠의 수라면 4800피트 길이의 테이프에서 기대되는 흠의 수는 

$\frac{4800}{1200} = 4$개의 흠이다. $X$의 pmf는?"

 

$$\lambda = 4$$

$$f(x) = \frac{4^{x}e^{-4}}{x!}$$

 

Comments