NLP/AI/Statistics

[수리통계]Chap.4 이변량 분포 1(상관계수) 본문

Statistics/수리통계

[수리통계]Chap.4 이변량 분포 1(상관계수)

Danbi Cho 2020. 11. 5. 18:16

Chap4에서는 이변량 분포에 대하여 설명한다.

 

목차는 아래와 같이 구성된다.

 

4.1) 이산형 이변량 분포(결합확률질량함수, 주변확률질량함수)

4.2) 상관계수(공분산, 상관계수, 최소제곱 회귀직선)

4.3) 조건부 분포

4.4) 연속형 이변량 분포

4.5) 이변량 정규분포

 

우선, 이변량 분포는 두 확률변수에 대한 결합 확률 분포를 의미하며

빈도 분석, 단순상관 분석, 회귀 분석 등이 이변량 분포의 형태를 나타내는 분석기법이다.

 

4.1) 이산형 이변량 분포

 

이산형 확률공간에서 정의된 두 개의 확률 변수 $X$, $Y$에 대하여, $X$와 $Y$에 대응하는 2차원 공간을 $s$라고 할 때,

 

$X = x, Y= y$인 확률을 $f(x, y) = P(X=x, Y=y)$라고 표현한다.

 

이때 $f(x, y)$는 $X$와 $Y$의 결합확률질량함수(joint probability mass function; joint pmf)라고 한다. 

 

이러한 결합확률질량함수는 아래의 특성을 나타낸다.

 

a) $0 \leq f(x, y) \leq 1$

b) $\sum\sum_{(x,y)\in S} f(x, y) = 1$

c) $P[(X, Y) \in A] = \sum\sum_{(x,y) \in A} f(x,y)$, 이 때 $A$는 공간 $s$의 부분집합

 

또한, $X, Y$가 공간 $S$에서 결합 pmf $f(x, y)$를 가질 때 $X$만의 pmf 또는 $Y$만의 pmf를 각각 $X$ 또는 $Y$의 주변확률질량함수(marginal probability mass function; marginal pmf)라고 한다.

 

이러한 주변확률질량함수는 다음과 같이 정의된다.

 

$$f_{X}(x) = \sum_{y} f(x, y) = P(X=x), \ \ x \in S_{X}$$

$$f_{Y}(y) = \sum_{x} f(x, y) = P(Y=y), \ \ y \in S_{Y}$$

 

확률 변수 $X, Y$가 $f(x, y) = f_{X}(x) f_{Y}(y), \ \ \forall x \in S_{X}, \forall y \in S_{Y}$일 때

 

$X, Y$는 독립(independenta)이고, 위의 조건이 아닐 경우 종속(dependent)라고 한다.

 

 

$X_{1}, X_{2}$를 공간 $S$ 상에서 결합 pmf $f(x_{1}, x_{2})$를 갖는 이산형 확률변수라 할 때,

 

$u(X_{1}, X_{2})$의 수학적 기댓값(mathematical expecation or expected value)는 다음과 같다.

 

$$E[u(X_{1}, X_{2})] = \sum_{x_{1} \in S}\sum_{x_{1} \in S} u(x_{1}, x_{2}) f(x_{1}, x_{2})$$

 

이 때, $\sum\sum_{(x_{1}, x_{2}) \in S} |u(x_{1}, x_{2})|f(x_{1}, x_{2})$이 유한이며 수렴한다고 가정한다.

 

4.2) 상관계수

 

상관계수 이전에 공분산에 대하여 알 필요가 있다.

 

공분산(covariance)이란 두 변수의 관계를 나타내는 양을 의미한다.

 

즉, 아래와 같이 각 확률변수 $X, Y$에 대한 평균과 분산이 표현되고

 

$$m_{X} = E(X), m_{Y} = E(Y)$$

$$\sigma_{X}^{2} = E[(X - m_{X})^2], \ \ \sigma_{Y}^{2} = E[(Y - m_{Y})^2]$$

 

$u(X, Y) = (X - m_{X})(Y - m_{Y})$일 때, $X$와 $Y$의 공분산 $Cov(X, Y)$는 아래와 같이 계산된다.

 

$$E[u(X, Y)] = E[(X - m_{X})(Y - m_{Y})] = \sigma_{XY} = Cov(X,Y)$$

 

여기에서 표준편차 $\sigma_{X}, \sigma_{Y} > 0$이라면,

 

$\rho = \frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}} = \frac{\sigma_{XY}}{\sigma_{X}\sigma_{Y}}$를

 

$X$와 $Y$의 상관계수(correlation coefficient)라고 한다.

 

이 때 상관계수는 $-1 \leq \rho \leq 1$의 범위의 값을 갖는다.

 

이제 최소제곱 회귀직선을 확인해보고자 한다.

 

$S$ 위의 임의의 점 $(x_{0}, y_{0})$으로부터 $(m_{X}, m_{Y})$를 통과하는 직선 $y = m_{Y} + b(x - m_{X})$까지의 수직거리는 $|y_{0} - m_{Y} - b(x_{0} - m_{X})|$ 와 같다.

 

 

그리고 해당 거리의 제곱의 수학적 기댓값은 아래와 같다.

 

$$K(b) = E{[(Y - m{Y}) - b(X - m_{X})]^2}$$

$$ = E[(Y - m_{Y})^{2} - 2b(Y - m_{Y})(X - m_{X}) + b^{2}(X - m_{X})^2]$$

$$ = E[(Y - m_{Y})^{2} - 2bE[(Y - m_{Y})(X - m_{X})] + b^{2}E[(X - m_{X})^2]$$

$$ = E[(Y - m_{Y})^{2}] - 2b\sigma_{XY} + b^{2}E[(X - m_{X})^2]$$

$$ = \sigma_{Y}^2 - 2b\rho\sigma_{X}\sigma_{Y} + b^{2}\sigma_{X}^2$$

 

이 때 $K(b)$를 최소로 하는 직선을 최소제곱 회귀직선(least squares regression line)이라고 한다.

 

그리고 이 최소제곱 회귀직선은 아래의 특징을 나타낸다.

 

$$K'(b) = -2\rho\sigma_{X}\sigma_{Y} + 2b\sigma_{X}^2 = 0$$

$$b = \rho \frac{\sigma_{Y}}{\sigma_{X}}$$

$$y = m_{Y} + \rho \frac{\sigma_{Y}}{\sigma_{X}}(x - m_{X})$$

 

a) $\rho > 0$: 기울기 > 0

b) $\rho < 0$: 기울기 < 0

c) $\rho = 0$: $K(\rho\frac{\sigma_{Y}}{\sigma_{X}}) = \sigma_{Y}^2$

d) $\rho = \pm1$: $K(\rho\frac{\sigma_{Y}}{\sigma_{X}}) = 0$

 

 

 

Chap.4의 나머지 부분은 다음 글에서 설명할 예정이다.

Comments