DATA SCIENCE : 27
DATA SCIENCE eISSN

[ Q - data science ]

결합확률분포는 조건부분포들의 집합인가요?

목차

네. 결합확률분포는 한 방향으로의 모든 단면(조건부분포)들의 집합입니다.

결합확률분포에서 조건부분포는 조건확률변수의 값이 정해졌을 때 모든 가능한 분포입니다.

연속결합확률분포에서 조건부분포는 특정 조건변수의 값이 주어졌을 때 얻어지는 결합확률분포의 단면입니다.

다만, 단면 자체는 아직 확률분포가 아니며, 이를 확률분포로 만들기 위해서는 그 단면을 얻기 위한 조건변수의 확률밀도를 정규화상수로 사용하여 분포의 적분값이 1이 되도록 합니다.

조건부분포를 확률분포의 조건을 만족하게 조정하여 조건부확률분포로 정규화 합니다.

두 확률변수 $X_1$과 $X_2$의 결합확률밀도함수는 다음과 같이 표현할 수 있습니다.

$$f_{X_1, X_2}(x_1, x_2)$$

여기서, $x_1$과 $x_2$는 두 확률변수 $X_1$과 $X_2$의 실현값

조건변수를 $X_1$으로 하면 실현값 $x_1$이 특정 포인트 $x_{1,0}$로 실현되었을 때, $X_2$의 한 조건부분포인 한 단면을 다음식으로 표현할 수 있습니다.

$$f_{X_1,X_2}(x_{1,0},x_2)$$

위식 의 조건부분포를 조건부확률분포로 조정하기 위해 정규화상수인 $f_{X_1}(x_1,0)$로 나누면 다음식과 같습니다.

$$f_{X_2\mid X_1}(x_2\mid x_{1,0})=\dfrac{f_{X_1,X_2}(x_{1,0},x_2)}{f_{X_1}(x_{1,0})}$$

이를 결합확률밀도함수 $p(x_1, x_2)$에서 특정 조건변수 $X_1$이 $x_{1,0}$으로 실현되었을 때 조건부확률밀도함수는 다음과 같이 표현될 수 있습니다.

$$p(x_2 \mid x_{1,0})=\dfrac{p(x_{1,0}, x_2)}{\int_{-\infty}^{\infty} p(x_{1,0}, x_2)\,dx_2}$$

위식의 분모는 정규화상수로서, 주어진 조건 하에서 확률밀도함수의 적분이 1이 되도록 해줍니다.

Fig1.  독립이 아닌 두 확률분포의 결합확률분포,  주변확률분포값과 우도의 곱이 이루는 단면분포(조건부분포) 5개

Fig2. 독립이 아닌 두 확률분포의 결합확률분포,  주변확률분포값과 우도의 곱이 이루는 단면분포(조건부분포)

Table1.  결합확률분포와 단면분포의 생성

항목설명
$\mu_1$0$X_1$의 평균
$\mu_2$0$X_2$의 평균
$\sigma_1$1$X_1$의 표준편차
$\sigma_2$1$X_2$의 표준편차
$\rho$0.9$X_1$과 $X_2$ 사이의 상관계수
단면을 만드는 조건$X_2 = 0$조건부 확률분포 $P(X_1 \mid X_2=0)$
기울기 ($X_1$ on $X_2$)0.9E[$X_1$|$X_2=x$] = 0.9x, X2가 주어졌을 때 X1의 회귀선 기울기
절편 ($X_1$ on $X_2$)0E[$X_1$|$X_2=x$] = 0.9$x$+0, X2가 주어졌을 때 $X_1$의 회귀선 절편

1. 두 개의 확률분포의 결합확률분포

두 개의 확률분포의 결합확률분포를 두 개의 조건부확률분포로의 분해를 다음식으로 표현할 수 있습니다.

$$
P(X_1, X_2)
\;=\;
P(X_1 \mid \varnothing)\, P(X_2 \mid X_1)=P(X_2 \mid \varnothing)\, P(X_1 \mid X_2)
$$

여기서, $P(X_1, X_2)$는 $X_1$과 $X_2$가 동시에 특정값을 가지는 사건의 확률

여기서, $P(X_1 \mid \varnothing)$는 조건이 없는 $X_1$의 확률분, 즉, 주변확률분포: $P(X_1 \mid \varnothing=P(X_1)$

$P(X_1 \mid X_2)$는 $X_2$가 특정값으로 실현되었을 때 $X_1$가 특정값으로 실현되는 확률

$P(X_2 \mid X_1)$는 $X_1$가 특정값으로 실현되었을 때 $X_2$가 특정값으로 실현되는 확률

$P(X_1, X_2)$는 $X_1$와 $X_2$의 실현 순서와 무관하며 조건부확률은 실현 순서와 유관하여 $P(X_1\mid X_2)$와 $P(X_2\mid X_1)$로 다르게 표현합니다.

확률변수가 모두 서로 독립인 경우의 결합확률분포는 다음식과 같이 각 확률분포의 값의 곱으로 표현됩니다.

$$
P(X_1, X_2, \dots, X_n)
\;=\;
P(X_1)\, P(X_2)\, P(X_3)\, \cdots \, P(X_n)
$$

2. 연쇄법칙

연쇄법칙(chain rule)은 확률론에서 여러 확률변수의 결합확률분포를 각 변수에 대한 조건부확률의 곱으로 분해하는 중요한 성질입니다.

예를 들어, 두 확률변수 $X_1$와 $X_2$에 대해, 조건부 확률의 정의에 따라 두 확률변수의 결합확률분포를 다음식과 같이 표현할 수 있습니다.

$$
P(X, Y) = P(X) \, P(Y \mid X) = P(Y) \, P(X \mid Y)
$$

일반적으로 연쇄법칙에 의한 $n$개의 확률변수 $X_1, X_2, \dots, X_n$의 결합확률분포는 다음과 같이 분해됩니다.
$$
P(X_1, X_2, \dots, X_n)
\;=\;
P(X_1) \, P(X_2 \mid X_1) \, P(X_3 \mid X_1, X_2) \, \cdots \, P(X_n \mid X_1, \dots, X_{n-1})
$$

윗 식은 다음과 같이 3단계를 거쳐 유도될 수 있습니다.

1. 먼저 두 변수에 대해 조건부확률의 정의를 적용하면,

$$P(X_1, X_2)=P(X_1)P(X_2\mid X_1)$$

2. 세 변수 $P(X_1, X_2, X_3)$의 경우, 결합확률분포는 
$$
\begin{aligned}
P(X_1, X_2, X_3) &= P(X_1, X_2) \, P(X_3 \mid X_1, X_2) \\
&= P(X_1) \, P(X_2 \mid X_1) \, P(X_3 \mid X_1, X_2)
\end{aligned}
$$

3. 이 과정을 $n$개의 변수에 대해 반복하면 위의 일반적인 연쇄법칙을 얻을 수 있습니다.

$$P(X_1, \cdots, X_n)=P(X_1)\prod_{i=2}^{n}P(X_i\mid X_i, \cdots, X_{i-1})$$

연쇄법칙은 베이즈정리의 유도, 복잡한 확률모델을 구성하는 데 매우 유용합니다.

3. 베이즈정리

두 변수 $X_1$과 $X_2$에 대해 결합확률분포는 연쇄법칙을 이용해 다음과 같이 표현할 수 있습니다.

$$P(X_1, X_2)=P(X_2 \mid X_1)P(X_1)=P(X_1 \mid X_2)P(X_2)$$

윗 식에서, 베이즈정리는 결합확률분포의 두 표현을 서로 연결하는 관계를 나타냅니다. 구체적으로 $P(X_1\mid X_2)$를 구하고자 할 때 베이즈정리는 다음과 같이 유도됩니다.

1. 연쇄법칙에 따라

$$P(X_1, X_2)=P(X_2 \mid X_1)P(X_1)$$

2. 위 식을 $P(X_2)$로 나누면

$$\dfrac{P(X_1, X_2)}{P(X_2)}=\dfrac{P(X_2 \mid X_1)P(X_1)}{P(X_2)}$$

3. 좌변은 $P(X_1\mid X_2)$가 되므로

$$P(X_1 \mid X_2)=\dfrac{P(X_2 \mid X_1)P(X_1)}{P(X_2)}$$

즉, 베이즈정리는 두 확률변수 $X_1$과 $X_2$의 결합확률분포 $P(X_1, X_2)$를 두 개의 조건부확률분포 $P(X_1\mid X_2)$와 $P(X_1 \mid \varnothing)$ 또는 $P(X_2\mid X_1)$과 $P(X_2 \mid \varnothing)$로 분해한 후, 그 관계를 재배열하여 $P(X_1 \mid X_2)$ 또는  $P(X_2 \mid X_1)$를 구하는 식입니다.

$$P(X_1, X_2)=P(X_1\mid X_2)P(X_1 \mid \varnothing)=P(X_2\mid X_1)P(X_2 \mid \varnothing)$$