NLP/AI/Statistics

[수리통계]Chap.1 확률 본문

Statistics/수리통계

[수리통계]Chap.1 확률

Danbi Cho 2020. 10. 21. 19:23

이전에는 통계 분석 방법론에 대한 개념과 어떠한 상황에서 어떠한 통계 분석 방법론을 사용해야하는지에 대하여 설명했다.

 

이제는 수리 통계적 접근 방법에 따라 통계를 다시 한번 더 공부해보고자 한다.

 

Chap.1은 다음과 같이 설명할 예정이다.

 

1.1) 확률의 성질

1.2) 경우의 수

1.3) 조건부 확률

1.4) 독립사상

1.5) 베이즈 정리

 

1.1) 확률의 성질

 

확률 실험은 시행 전에 그 결과를 예측할 수 없지만 가능한 결과의 집합을 확정할 수 있다. 

 

표본 공간은 확률 실험에서 가능한 모든 결과의 집합을 의미하며 표본 공간에 속하는 요소들의 부분 집합을 사상이라고 한다.

 

예를 들어, 두 개의 동전의 앞(F)과 뒤(B)에 대한 모든 표본 공간은 $S = {(F, F), (F, B), (B, F), (B, B)}$와 같으며,

이에 대한 사상은 $A = 1번 동전이 앞이 나오는 사건 = {(F, F), (F, B)}$ 와 같다.

 

즉, 확률(probability)란 표본 공간 $S$에 속하는 각 사상 $A$에 대하여

사상 $A$의 확률 $P(A)$를 지정하는 실수값 집합 함수 P를 나타낸다.

 

확률은 다음의 성질을 갖는다.

 

a) $ P(A) \geq 0 $

b) $ P(S) = 1 $

c) 사상 $A_1, A_2, A_3 ...$이 $i \neq j$에 대하여 $A_i \cap A_j = \emptyset $을 만족하면 양의 정수 $k$에 대하여 $P(A_1 \cup A_2 \cup ... \cup A_k) = P(A_1) + P(A_2) + ... + P(A_k)$ 이며, 

사상의 개수가 무한이고 셀 수 있는 경우 $P(A_1) \cup P(A_2) \cup ...) = P(A_1) + P(A_2) + ... $ 이다.

d) 사상 $A$에 대하여 $P(A) = 1-P(A') $ 이다.

e) $P(\emptyset) = 0$

f) 두 사상 $A, B$가 $A \subset B $이면 $P(A) \leq P(B)$이다. 

g) 임의의 두 사상 $A, B$에 대하여 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ 이다.

 

예제1)

 

"Amsterdam에서 기차로 출발하는 친구와 Brussles에서 기차로 출발하는 친구가 Paris에서 거의 같은 시각에 만나기로 약속했다. 사상 A, B를 각각의 기차가 연착하지 않고 도착하는 것이라고 한다. 

과거의 경험으로부터 $ P(A) = 0.93, P(B) = 0.89, P(A \cap B) = 0.87 $이라고 할 때, 

적어도 한명이 정시에 도착할 확률은?"

 

$P(A \cup B) = P(A) + P(B) - P(A \cap B) = 0.93 + 0.89 - 0.87 = 0.95 $

 

1.2) 경우의 수

 

$e_i$를 확률실험의 가능한 실현치라 할 때, $S = {e_1, e_2, ... e_m}$으로 표시할 수 있다. 

 

이 때 정수 $m$은 확률실험의 결과로서 얻어질 수 있는 모든 경우의 수이다. 

 

만약 각각의 실현치들의 발생 가능성이 모두 같다면 $m$개의 실현치들은 등확률(equally likely)을 갖는다.

 

$$ P({e_i}) = \frac {1}{m} , i = 1, 2,..., m $$

 

$nPr$의 배열 각각을 $n$개의 개체 중 $r$개를 선택하여 배열한 순열이라고 한다. 

 

$$nPr = \frac{n!}{r!(n-r)!}$$

 

$nCr = \left(\begin{array}{rr} n\\r \end{array}\right)$ 개의 비순서 부분집합 각각을 $n$개의 개체 중 $r$개를 선택하는 조합이다.

 

$nCr = \left(\begin{array}{rr} n\\r \end{array}\right) = \frac{n!}{r!(n-r)!}$

 

예제1) 

 

"52장의 카드 한 벌로부터 서로 다른 5장을 추출할 때 순서를 고려한 표본의 수는?"

 

$52P5 = \frac{52!}{47!} = 52 * 51 * 50 * 49 * 48$

 

예제2)

 

(1) "52장의 카드 한 벌로부터 서로 다른 5장을 추출하는 방법의 경우의 수는?"

 

$52C5 = \frac{52!}{47!5!}$

 

(2) "5장이 모두 Spade인 경우의 수는?"

 

$13C5 = \frac{13!}{8!5!}$

 

(3) "5장이 모두 Spade인 확률은?"

 

$\frac{13C5}{52C5}$

 

경우의 수에서 개체를 추출하는 방법으로는 복원추출과 비복원추출이 있다.

 

복원추출(sampling with replacement)는 개체를 추출할 때 다음 번 개체가 추출되기 전에 추출한 개체를 다시 돌려놓고 추출하는 방법이며,

 

비복원추출(sampling without replacement)는 추출된 개체를 다시 돌려놓지 않고 추출하는 방법이다.

 

예제3)

 

"주사위를 7번 던지는 확률실험에서 가능한 순서를 고려한 표본의 수는?"

 

$6^7$

 

1.3) 조건부 확률

 

$P(B) > 0$일 때 사상 $B$가 발생했다는 조건 하에 사상 $A$가 일어날 조건부 확률(conditional probability)

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

 

예시1) 

 

"아직 개화하지 않은 튤립 20송이가 있다. 외관상으로는 모두 비슷하지만 그 중 8송이는 일찍 개화(E)하며 12송이는 늦게 개화(L)한다. 그리고 13송이는 빨간색(R) 꽃을 피우며 7송이는 노란색(Y) 꽃을 피운다. 무작위로 추출된 꽃 한송이가 일찍 개화하는 것으로 판단되었을 때 이것이 빨간색 꽃일 확률은?"

 

  이른 개화(E) 늦은 개화(L) 합계
빨간색(R) 5 8 13
노란색(Y) 3 4 7
합계 8 12 20

 

$$P(R|E) = \frac{P(R \cap E)}{P(E)} = \frac{5}{8}$$

 

# 곱의 법칙

 

때로 $P(A \cap B)$를 바로 계산하는 것보다 조건부 확률을 활용하여 계산하는 것이 쉬울 때가 있다.

 

두 개의 사상 $A, B$가 모두 일어날 확률, P(A \cap B)는 곱의 법칙(multiplication rule)에 의해 다음과 같이 정의된다.

 

만약 $P(A) > 0$이라면,  $P(A \cap B) = P(A)P(B|A)$

 

혹은 $P(B) > 0$이라면, $P(A \cap B) = P(B)P(A|B)$

 

1.4) 독립 사상

 

어떤 두 가지 사상에 대하여, 한 사상의 발생 여부가 다른 사상의 발생에 대한 확률에 영향을 주지 않을 때 

그 사상들을 독립사상(independent events)라고 한다. 

 

사상 $A, B$가 독립(independent)이기 위한 필요충분조건은 $P(A \cap B) = P(A)P(B)$이다.

 

그렇지 않은 경우 사상 $A, B$는 종속(dependent)라고 한다. 

 

예시1)

 

"한 개의 동전을 두 번 던져서 앞면 혹은 뒷면이 나오는 것을 관찰한다.

A = {첫 번째에서 앞면이 나옴}

B = {두 번째에서 뒷면이 나옴}

C = {첫 번째와 두 번째 모두 뒷면}

 

이 때, B와 C, A와 B는 독립인가?"

 

우선, 한 개의 동전을 두 번 던져서 나올 집합은 ${(H,H), (H,T), (T,H), (T,T)}$와 같다.

 

$$A = {(H,H), (H,T)} = \frac{2}{4}$$

$$B = {(H,T), (T,T)} = \frac{2}{4} $$

$$C = {(T,T)} = \frac{1}{4}$$

 

(1) B와 C는 독립인가?

 

$P(B)P(C) = \frac{2}{4}*\frac{1}{4} = \frac{1}{8}$이고, $P(B \cap C) = {(T,T)} = \frac{1}{4}$이다.

 

두 확률 값, $P(B)P(C) \neq P(B \cap C)$이므로, 사상 B와 C는 서로 종속관계이다.

 

(2) A와 B는 독립인가?

 

$P(A)P(B) = \frac{2}{4}*\frac{2}{4} = \frac{1}{4}$이고, $P(A \cap B) = {(H,T)} = \frac{1}{4}$이다.

 

두 확률 값, $P(A)P(B) = P(A \cap B)$이므로, 사상 A와 B는 서로 독립이다.

 

만약, 사상 A, B, C가 상호 독립(mutually independent)이기 위한 필요충분조건은 아래와 같다.

 

- A, B, C가 쌍별로 독립(pairwise independent)이어야 한다.

- $P(A \cap B \cap C) = P(A)P(B)P(C)$

 

1.5 베이즈 정리

 

사상 $B_1, B_2, ..., B_m$이 표본 공간 $S$의 분할(partition)일 때, 

 

$S = B_1 \cup B_2 \cup ... \cup B_m,and  B_i \cap B_j ,   i \neq j$

 

임의의 사상 A에 대해 $P(A)$를 아래와 같이 나타낼 수 있다.

 

$$P(A) = \sum_{i=1}^{m} P(B_i \cap A) = \sum_{i=1}^{m}P(B_i)P(A|B_i)$$

 

베이즈 정리(Bayes' Theorem)는 아래와 같이 정의된다.

 

$$P(B_k|A) = \frac{P(B_k)P(A|B_k)}{\sum_{i=1}^{m} P(B_i)P(A|B_i)} ,    k = 1, 2, ..., m $$

 

이 때, $P(B_k)$는 사상 $B_k$의 사전확률(prior probability)이며,

$P(B_k|A)$는 사상 $B_k$의 사후확률(posterior probability)를 의미한다.

 

 

Comments