NLP/AI/Statistics

[수리통계]Chap.4 이변량 분포 2(조건부 분포) 본문

Statistics/수리통계

[수리통계]Chap.4 이변량 분포 2(조건부 분포)

Danbi Cho 2020. 11. 12. 20:02

이전 글에 이어서 아래의 목차에 대하여 설명한다.

 

4.3) 조건부 분포

4.4) 연속형 이변량 분포

4.5) 이변량 정규분포

 

4.3) 조건부 분포

 

사상 A=X=x,B=Y=y,(x,y)S라 할 때,

AB=X=x,Y=y가 되며, 아래의 확률분포가 성립된다.

 

P(AB)=P(X=x,Y=y)=f(x,y)

 

위의 식을 활용하여 Y=y가 주어졌을 때 X의 조건부 확률질량함수(conditional probability mass function)은 g(x|y)이다.

 

g(x|y)=f(x,y)fY(y),fY(y)>0

 

이와 비슷하게 X=x가 주어졌을 때 Y의 조건부 확률질량함수는 h(y|x)와 같다.

 

h(y|x)=f(x,y)fX(x),fX(x)>0

 

조건부 분포에 따른 조건부 기댓값은 다음과 같다.

 

yh(y|x)=yf(x,y)fX(x)=fX(x)fX(x)=1

 

여기에서 고정된 x에서 h(y|x)는 pmf의 조건을 만족한다.

 

- 조건부 확률

P(a<Y<b|X=x)=y:a<y<bh(y|x)

 

- u(Y)의 조건부 기댓값

E[u(Y)|X=x]=yu(y)h(y|x)

 

- Y의 조건부 평균(conditional mean)

mY|x=E(Y|x)=yyh(y|x)

 

- Y의 조건부 분산(conditional variance)

sigma2Y|x=E[YE(Y|x)]2|x=y[YE(Y|x)]2h(y|x)

=E(Y2|x)[E(Y|x)]2

 

예제1)

 

"X,Y는 결합 pmf를 가진다.

f(x,y)=x+y21,x=1,2,3,y=1,2

x=3일 때 Y의 조건부 평균 mY|x과 조건부 분산 σ2Y|x를 구하라."

 

fX(x)=x+121+x+221=2x+321

h(y|x)=f(x,y)fX(x)=(x+y)21(2x+3)21=x+y2x+3

h(y|3)=fracy+39,y=1,2

 

E(Y|3)=11+39+22+39=149

E(Y2|3)=121+39+222+39=249

 

mY|x=149

σ2Y|x=249(149)2

 

 

조건부 평균과 회귀직선의 관계에 대하여 보면,

 

X=x가 주어졌을 때 Y의 조건부 평균 E(Y|x)x만의 함수인데,

이 때 E(Y|x)x의 선형함수라고 가정하면, 아래의 회귀직선이 성립된다.

E(Y|x)=a+bx

 

E(Y|x)=yyh(y|x)=yyf(x,y)fX(x)=a+bx

yyf(x,y)=(a+bx)fX(x)

 

위의 식을 xS로 총합하면,

 

mY=a+bmX

mXmY+ρσXσY=amX+b(m2X+σ2X)

 

a,b에 대한 해는 다음과 같이 구해진다.

 

a=mYρσYσXmX

b=ρσXσY

 

결론적으로, E(Y|x)가 선형이면, X=x에 대해 Y의 조건부 평균은 최소제곱 회귀직선과 동일한 값을 갖는다.

 

4.4) 연속형 이변량 분포

 

연속형 확률변수 X,Y의 결합확률밀도함수(joint probability density function)인 f(x,y)는 아래의 성질을 만족한다.

 

a) f(x,y)0,(x,y)(X, Y)f(x,y) = 0$이다.

b) f(x,y)dxdy=1

c) P[(X,Y)A]=Af(x,y)dxdy 이며, 이 때 ${(X, Y) \in A}는 평면상에서 정의된 하나의 사상이다.

 

연속형 확률변수 X,Y 각각의 주변 pdf(marginal pdf)는 아래와 같다.

 

fX(x)=f(x,y)dy,xSX

fY(y)=f(x,y)dx,ySY

 

연속형 이변량 분포에 대한 조건부 분포, 조건부 평균, 조건부 분산은 다음과 같다.

(X=x일 때,)

 

h(y|x)f(x,y)fX(x),fX(x)>0

E(Y|x)=yh(y|x)dy

Var(Y|x)=E[YE(Y|x)]2|x

=[yE(Y|x)]2h(y|x)dy

=E[Y2|x][E(Y|x)]2

 

4.5) 이변량 정규분포(Bivariate normal distribution)

 

확률변수 X,Y가 아래의 결합확률분포 joint pdf를 가질 때 이변량 정규분포를 따른다고 한다.

 

f(x,y)=12πσXσY(1ρ2)exp[12(1ρ2){(xmxσX)22ρ(xmXσX)(ymYσY)+(ymYσY)2}]

 

이 때, 

<x<,<y<,σX>0,σY>0

<mX<,<mY<,1<ρ<1는 상수이다.

 

위의 pdf 식을 정리하여 나타낸 적률생성함수 mgf는 다음과 같다.

 

M(t1,t2)=E[et1X+t2X]

=exp[t1mX+t2mY+12(t21σ2X+2ρt1t2σXσY+t22σ2Y)]

 

확률 변수 X,Y가 이변량 정규분포를 따를 때, 평균과 분산은 적률생성함수를 통해 아래와 같이 계산된다.

 

E(X)=mX,E(Y)=mY

Var(X)=σ2X,Var(Y)=σ2Y,Cov(X,Y)=ρσXσY