일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- deeplearning
- gensim
- computer_setting
- code
- Stanford
- install
- nlp
- computer
- cs224n
- linux
- tab
- Ai
- json
- Vim
- terminal
- paper_review
- Standford
- natural_language_processing
- cs231n
- git
- Statistics
- text
- pip
- seq2seq
- review
- github
- language_model
- slideshare
- machinelearning
- error
- Today
- Total
NLP/AI/Statistics
[수리통계]Chap.4 이변량 분포 2(조건부 분포) 본문
이전 글에 이어서 아래의 목차에 대하여 설명한다.
4.3) 조건부 분포
4.4) 연속형 이변량 분포
4.5) 이변량 정규분포
4.3) 조건부 분포
사상 A=X=x,B=Y=y,(x,y)∈S라 할 때,
A∩B=X=x,Y=y가 되며, 아래의 확률분포가 성립된다.
P(A∩B)=P(X=x,Y=y)=f(x,y)
위의 식을 활용하여 Y=y가 주어졌을 때 X의 조건부 확률질량함수(conditional probability mass function)은 g(x|y)이다.
g(x|y)=f(x,y)fY(y),fY(y)>0
이와 비슷하게 X=x가 주어졌을 때 Y의 조건부 확률질량함수는 h(y|x)와 같다.
h(y|x)=f(x,y)fX(x),fX(x)>0
조건부 분포에 따른 조건부 기댓값은 다음과 같다.
∑yh(y|x)=∑yf(x,y)fX(x)=fX(x)fX(x)=1
여기에서 고정된 x에서 h(y|x)는 pmf의 조건을 만족한다.
- 조건부 확률
P(a<Y<b|X=x)=∑y:a<y<bh(y|x)
- u(Y)의 조건부 기댓값
E[u(Y)|X=x]=∑yu(y)h(y|x)
- Y의 조건부 평균(conditional mean)
mY|x=E(Y|x)=∑yyh(y|x)
- Y의 조건부 분산(conditional variance)
sigma2Y|x=E[Y−E(Y|x)]2|x=∑y[Y−E(Y|x)]2h(y|x)
=E(Y2|x)−[E(Y|x)]2
예제1)
"X,Y는 결합 pmf를 가진다.
f(x,y)=x+y21,x=1,2,3,y=1,2
x=3일 때 Y의 조건부 평균 mY|x과 조건부 분산 σ2Y|x를 구하라."
fX(x)=x+121+x+221=2x+321
h(y|x)=f(x,y)fX(x)=(x+y)21(2x+3)21=x+y2x+3
h(y|3)=fracy+39,y=1,2
E(Y|3)=11+39+22+39=149
E(Y2|3)=121+39+222+39=249
mY|x=149
σ2Y|x=249−(149)2
조건부 평균과 회귀직선의 관계에 대하여 보면,
X=x가 주어졌을 때 Y의 조건부 평균 E(Y|x)는 x만의 함수인데,
이 때 E(Y|x)를 x의 선형함수라고 가정하면, 아래의 회귀직선이 성립된다.
E(Y|x)=a+bx
E(Y|x)=∑yyh(y|x)=∑yyf(x,y)fX(x)=a+bx
∑yyf(x,y)=(a+bx)fX(x)
위의 식을 x∈S로 총합하면,
mY=a+bmX
mXmY+ρσXσY=amX+b(m2X+σ2X)
a,b에 대한 해는 다음과 같이 구해진다.
a=mY−ρσYσXmX
b=ρσXσY
결론적으로, E(Y|x)가 선형이면, X=x에 대해 Y의 조건부 평균은 최소제곱 회귀직선과 동일한 값을 갖는다.
4.4) 연속형 이변량 분포
연속형 확률변수 X,Y의 결합확률밀도함수(joint probability density function)인 f(x,y)는 아래의 성질을 만족한다.
a) f(x,y)≥0,이때(x,y)가(X, Y)의공간상에있지않은경우는f(x,y) = 0$이다.
b) ∫∞−∞∫∞−∞f(x,y)dxdy=1
c) P[(X,Y)∈A]=∫∫Af(x,y)dxdy 이며, 이 때 ${(X, Y) \in A}는 평면상에서 정의된 하나의 사상이다.
연속형 확률변수 X,Y 각각의 주변 pdf(marginal pdf)는 아래와 같다.
fX(x)=∫∞−∞f(x,y)dy,x∈SX
fY(y)=∫∞−∞f(x,y)dx,y∈SY
연속형 이변량 분포에 대한 조건부 분포, 조건부 평균, 조건부 분산은 다음과 같다.
(X=x일 때,)
h(y|x)f(x,y)fX(x),fX(x)>0
E(Y|x)=∫∞−∞yh(y|x)dy
Var(Y|x)=E[Y−E(Y|x)]2|x
=∫∞−∞[y−E(Y|x)]2h(y|x)dy
=E[Y2|x]−[E(Y|x)]2
4.5) 이변량 정규분포(Bivariate normal distribution)
확률변수 X,Y가 아래의 결합확률분포 joint pdf를 가질 때 이변량 정규분포를 따른다고 한다.
f(x,y)=12πσXσY√(1−ρ2)exp[−12(1−ρ2)∗{(x−mxσX)2−2ρ(x−mXσX)(y−mYσY)+(y−mYσY)2}]
이 때,
−∞<x<∞,−∞<y<∞,σX>0,σY>0
−∞<mX<∞,−∞<mY<∞,−1<ρ<1는 상수이다.
위의 pdf 식을 정리하여 나타낸 적률생성함수 mgf는 다음과 같다.
M(t1,t2)=E[et1X+t2X]
=exp[t1mX+t2mY+12(t21σ2X+2ρt1t2σXσY+t22σ2Y)]
확률 변수 X,Y가 이변량 정규분포를 따를 때, 평균과 분산은 적률생성함수를 통해 아래와 같이 계산된다.
E(X)=mX,E(Y)=mY
Var(X)=σ2X,Var(Y)=σ2Y,Cov(X,Y)=ρσXσY
'Statistics > 수리통계' 카테고리의 다른 글
[수리통계]Chap.5 확률변수의 분포2 (0) | 2020.11.19 |
---|---|
[수리통계]Chap.5 확률변수의 분포1 (0) | 2020.11.16 |
[수리통계]Chap.4 이변량 분포 1(상관계수) (0) | 2020.11.05 |
[수리통계]Chap.3 연속형 확률분포 (0) | 2020.10.26 |
[수리통계]Chap.2 이산형 확률분포2 (분포) (0) | 2020.10.26 |