베이지안 추론은 데이터가 주어진 후 모수에 대한 불확실성을 확률적으로 표현하는 것입니다.
베이지안 추론은 모수의 사전정보와 데이터를 결합해 모수의 사후 확률분포를 추정합니다.
모수의 사전정보는 확률분포(사전분포)입니다. 모수에 대한 초기 믿음이나 정보를 확률분포로 표현한 것입니다.
데이터의 확률분포(우도함수)의 형태는 모수가 어떤 확률분포를 표현하였는 가에 따라서 결정됩니다.
베이지안 추론에서의 모수는 확률변수 $x$의 확률분포를 결정하는 모수가 아니고 조건부확률변수 $x|\theta$의 확률분포를 결정하는 모수입니다. 그리고 확률변수 $x|\theta$는 관측 데이터를 생성하는 확률변수입니다.
관측된 데이터가 확률변수를 고정하면 우도함수의 값은 정해지는 모수의 값에 따라 결정됩니다.
모수의 값이 정해지면 모수의 확률밀도함수값이나 확률질량함수값이 정해집니다.
단일 관측값 $x_i$가 주어진 경우, 확률변수와 모수가 연속형일때, 우도함수와 모수의 확률밀도함수값의 곱은 갱신된 모수의 확률변수값과 비례합니다.
$$p(\theta|x_i) \propto p(x_i|\theta)p(\theta)$$
여기서, $x_i$는 관측된 단일 데이터로 고정값으로 사용
전체 표본 $x_1, x_2, \cdots, x_n$이 주어진 경우, 확률변수와 모수가 연속형일때, 우도함수와 모수의 확률밀도함수값의 곱은 갱신된 모수의 확률변수값과 비례합니다.
$$p(\theta|x_1, x_2, \cdots, x_n) \propto \prod_{i=1}^{n}p(x_i|\theta)p(\theta)$$
여기서, $n$은 표본크기
이산형 모수공간에서 모수를 변화시키면서 얻어진 곱해진 값을 정규화상수인 주변확률 $p(x)$로 나누어주면 갱신된 모수의 확률밀도함수가 됩니다.
\[
p(\theta_k \mid x_1, \dots, x_n) = \frac{\displaystyle \prod_{i=1}^n p(x_i \mid \theta_k)\, p(\theta_k)}{\displaystyle \sum_{m=1}^K \prod_{i=1}^n p(x_i \mid \theta_m)\, p(\theta_m)}
\]
여기서, $n$은 표본크기
$K$는 가능한 모수값 개수
연속형 모수공간에서 모수를 변화시키면서 얻어진 곱해진 값을 정규화상수인 주변확률 $p(x)$로 나누어주면 갱신된 모수의 확률밀도함수가 됩니다.
\[
p(\theta \mid x_1, \dots, x_n) = \frac{\displaystyle \prod_{i=1}^n p(x_i \mid \theta)\, p(\theta)}{\displaystyle \int \prod_{i=1}^n p(x_i \mid \theta)\, p(\theta)\, d\theta}
\]
여기서, $n$은 표본크기
사건(event)의 베이즈 정리는 다음과 같습니다.
$$ {\mathrm P}(A | B) = \dfrac{{\mathrm P}(B| A) {\mathrm P}(A)}{{\mathrm P}(B)} $$
여기서, $A$와 $B$는 사건
만일 사건 $A$와 사건 $B$가 독립이면 ${\mathrm P}(A|B)={\mathrm P}(A)$이고 ${\mathrm P}(B|A)={\mathrm P}(B)$
확률변수의 베이즈 정리는 다음과 같이 표현됩니다. 베이지안 추론에서는 확률변수의 베이즈정리가 적용됩니다.
$$ p(\theta | x) = \dfrac{p(x | \theta) p(\theta)}{p(x)} $$
여기서, $x$와 $\theta$는 확률변수
$p(\theta)$는 사전분포(prior)
$p(x|\theta)$는 우도(likelihood)
$p(x)$는 증거(evidence)
$p(\theta | x)$는 사후확률(posterior probability)
베이지안 추론은 확률변수의 베이즈정리에서 사전분포를 지정하고 우도의 확률분포 형태를 정하는 것으로 시작합니다.
\[
\underbrace{p(\theta \mid x)}_{\text{사후분포}}
\;=\;
\frac{
\underbrace{p(x \mid \theta)}_{\text{우도}}
\;\underbrace{p(\theta)}_{\text{사전분포}}
}{
\underbrace{p(x)}_{\text{증거}}
}.
\]
베이지안 추론에서는 확률변수의 베이즈 정리가 적용됩니다. 실현된 확률변수인 $x$와 마찬가지로 모수 $\theta$도 실현된 확률변수입니다.
$$p(\theta|x)=\dfrac{p(x|\theta)p(\theta)}{p(x)}$$
여기서, $p(\theta)$는 사전확률(prior probability): 데이터 관찰 이전의 모수에 대한 사전 지식
$p(x|\theta)$는 우도: 주어진 모수 $\theta$에서 데이터 $x$가 발생할 확률
$p(x)$는 증거(evidence, 주변가능도, marginal distribution): $x$가 실제로 관측될 전체 확률, 정규화상수(evidence)
$p(\theta | x)$는 사후확률 (posterior probability): 데이터를 관찰한 후 모수 $\theta$에 대한 확률
베이지안 추론에서 보통 모델링하는 분포는 사전분포와 우도입니다.
사후분포의 $p(\theta|x)$의 정규화상수로 사용되는 증거(evidence) $p(x)$는 주변우도(marginal likelihood)로 다음식으로 표현할 수 있습니다.
$$p(x)=\int p(x|\theta)p(\theta) d\theta$$
갱신된 모수의 분포는 다음식으로 표현할 수 있습니다.
$$p(x)=\dfrac{p(x|\theta)p(\theta)}{\int p(x|\theta)p(\theta) d\theta}$$
조건부 확률변수 (확률모형) | 조건부 분포 (우도함수) | 모수 (파라미터, θ) |
---|---|---|
$X|\theta$ | 정규분포: $X|\theta \sim {\mathcal N}(\mu, \sigma^2)$ | 평균 μ, 분산 σ2 |
$X|\theta$ | 지수분포: $X|\theta \sim \mathrm{Exp}(\lambda)$ | 비율 $\lambda$ |
$X|\theta$ | 포아송분포: $X|\theta \sim {\mathrm {Possison}}(\lambda)$ | $\lambda$ |
사전분포는 모수(파라미터)공간에서의 사전에 가지는 믿음 또는 불확실성을 모델링한 결과입니다. 사전분포는 관측 데이터를 보기 전에 모수 $\theta$에 대해 갖는 ‘사전적’인 믿음을 확률분포의 형태로 표현한 것입니다.
예컨대 동전의 앞면이 나올 확률을 $\theta$라고 할 때, 아무런 정보도 없다면 $\theta\sim \mathrm{Uniform}(0,1)$과 같이 균등분포로 설정할 수 있습니다. 사전분포가 정규분포, 베타분포, 감마분포 등 어떤 분포 형태가 될지는 문제 설정과 배경지식에 따라 달라집니다.
베이지안 추론에서 우도를 모델링한다는 것은, 필요하고 의미 있다고 판단되는 모든 확률적 요소를 포함하여 데이터 생성 과정을 어떤 확률분포 형태로 지정하는 일입니다.
어떻게 모델링할지는 문제의 목적, 데이터 특성, 추론 복잡도 등에 따라 상황별로 달라집니다. 모델링의 핵심은 해결하고자 하는 문제를 충분히 반영하면서도, 계산 및 해석 가능성 사이에서 균형점을 찾는 것입니다.
예측에 초점을 두면, 데이터 적합도와 일반화 성능이 중요하며, 복잡 모델(딥러닝+베이지안 등)을 쓸 수도 있습니다. 인과추론이 목적인 경우, 혼란변수(confounder) 처리나 구조방정식, 계층 모형 등으로 더 세밀하게 반영해야 할 수도 있습니다.
상세한 모델을 세울수록 현실을 더 잘 반영할 수 있지만, 그만큼 사후분포 추론이 복잡해져서 (MCMC 등) 계산 부담이 커집니다. 베이지안 추론은 계산량이 늘어나기 쉽기 때문에, 계산 가능성과 모형 복잡도 사이에서 균형을 맞추어야 합니다.
여러 우도 모델을 세울 수도 있고, 사후예측확률(PPP, Posterior Predictive p-value), WAIC, LOO-CV, 베이지안 팩터 등을 사용해 모델 적합도나 예측 성능을 평가할 수 있습니다. 더 단순한 모델이 충분히 데이터를 잘 설명한다면, 굳이 과도하게 복잡한 모델링을 하지 않아도 됩니다.
표본의 $i$번째 원소인 단일 사건(단일 관측치)에 대한 우도는 다음식으로 표현됩니다.
$$p(x_i | \theta)$$
관측된 표본의 원소($x_i$)에서의 $\theta$의 함수인 우도를 정할 수 있습니다.
$$L(\theta|x_i)\;=\;p(x_i | \theta)$$
$\theta$가 주어졌을 때, i.i.d.(독립동일분포, independent and identically distributed) 가정을 만족하고 크기가 $n$인 표본에 대한 우도는 다음식으로 표현합니다.
$$\prod_{i=1}^n p(x_i | \theta)$$
즉, $\theta$가 주어졌을 때, 관측된 모든 데이터 $x_1, \ldots, x_n$
관측된 표본($x_1, x_2, \ldots, x_n$)에서의 $\theta$의 함수인 표본우도를 정할 수 있습니다. 베이지안 추론에서 표본우도(sample likelihood) L(\theta)는 표본의 원소인 $n$개의 실현값 $x_1, x_2, \cdots , x_n$ 각각에 대한 확률질량 또는 확률밀도를 모두 곱한 형태가 됩니다. 표본우도는 단일 관측값이 아니라, 표본 전체(여러 관측치)에 대한 확률질량 또는 확률밀도의 곱으로 정의됩니다.
$$L(\theta|x_1, x_2, \ldots, x_n)\;=\;\prod_{i=1}^{n}p(x_i)p(\theta)$$
단일 관측값 $x_i$가 주어진 경우, 확률변수와 모수가 연속형일때, 우도함수와 모수의 확률밀도함수값의 곱은 갱신된 모수의 확률변수값과 비례합니다.
$$p(\theta|x_i) \propto p(x_i|\theta)p(\theta)$$
여기서, $x_i$는 관측된 단일 데이터로 고정값으로 사용
전체 표본 $x_1, x_2, \cdots, x_n$이 주어진 경우, 확률변수와 모수가 연속형일때, 우도함수와 모수의 확률밀도함수값의 곱은 갱신된 모수의 확률변수값과 비례합니다.
$$p(\theta|x_1, x_2, \cdots, x_n) \propto \prod_{i=1}^{n}p(x_i|\theta)p(\theta)$$
여기서, $n$은 표본크기
증거(evidence)는 데이터 $x$의 주변분포로 결합분포 $p(x, \theta)=p(x|\theta)p(\theta)를 모수 $\theta$에 대해 주변화하여 구합니다. 증거는 다음식으로 표현됩니다.
$$p(x)=\int p(x|\theta)p(\theta) d\,\theta$$
증거는 모든 $\theta$에 대해 우도와 사전분포를 곱한 뒤 $\theta$가 연속형인 경우는 적분하고 이산형인 경우는 합한 결과입니다. 즉, 결합확률에서 주변확률을 구하는 것입니다. 증거는 사후확률인 $p(\theta|x)$를 확률분포화 하는 정규화상수로 사용됩니다.
증거는 정규화상수인 주변확률 $p(x)$로 나누어주면 갱신된 모수의 확률밀도함수가 됩니다.
모수가 이산형인 경우의 증거는 다음과 같습니다.
$$p(x)=\sum_{m=1}^K \prod_{i=1}^n p(x_i \mid \theta_m)\, p(\theta_m)$$
여기서, $n$은 표본크기
$K$는 가능한 모수값 개수
모수가 연속형인 경우의 증거는 다음과 같습니다.
$$p(x)=\int \prod_{i=1}^n p(x_i \mid \theta)\, p(\theta)\, d\theta$$
여기서, $n$은 표본크기
증거 계산이 적분계산인 경우, 쉽게 닫힌 형태로 구해지지 않는 경우가 많습니다. 따라서 MCMC나 변분추론(變分推論, variational inference; 분포의 공간에서 최적화) 등 추정 기법을 써서 근사적으로 계산하기도 합니다.
표본의 우도에 모수의 사전분포를 곱하고 정규화상수로 나누어 표본데이터가 적용되어 갱신된 모수의 사후분포를 유도합니다.
$$p(\theta|x_1, x_2, \ldots, x_n)=\dfrac{p(x_1, x_2, \ldots, x_n|\theta)p(\theta)}{p(x)}$$
여기서, $p(\theta|x_1, x_2, \ldots, x_n)$는 모수의 사후분포
$p(x_1, x_2, \ldots, x_n|\theta)$는 우도
$p(\theta)$는 모수의 사전분포
$p(x)$는 증거
이산형 모수공간에서 모수를 변화시키면서 얻어진 곱해진 값을 정규화상수인 주변확률 $p(x)$로 나누어주면 갱신된 모수의 확률밀도함수가 됩니다.
\[
p(\theta_k \mid x_1, \dots, x_n) = \frac{\displaystyle \prod_{i=1}^n p(x_i \mid \theta_k)\, p(\theta_k)}{\displaystyle \sum_{m=1}^K \prod_{i=1}^n p(x_i \mid \theta_m)\, p(\theta_m)}
\]
여기서, $n$은 표본크기
$K$는 가능한 모수값 개수
연속형 모수공간에서 모수를 변화시키면서 얻어진 곱해진 값을 정규화상수인 주변확률 $p(x)$로 나누어주면 갱신된 모수의 확률밀도함수가 됩니다.
\[
p(\theta \mid x_1, \dots, x_n) = \frac{\displaystyle \prod_{i=1}^n p(x_i \mid \theta)\, p(\theta)}{\displaystyle \int \prod_{i=1}^n p(x_i \mid \theta)\, p(\theta)\, d\theta}
\]
여기서, $n$은 표본크기
확률변수 $X|\theta$가 정규분포를 나타낸다고 하면
$$X|theta \sim N(\mu, \sigma^2)$$
여기서, $X|theta$는 정규분포를 가지는 확률변수
$\mu$는 평균: 정규분포의 위치를 나타내는 모수(매개변수, parameter)
$\sigma^2$은 분산: 정규분포의 퍼짐의 정도를 나타내는 모수
확률변수 $X|\theta$의 크기가 $n$인 표본의 표본추출전 확률변수 관점의 표현은 다음과 같습니다.
$$\mathbf{X_1, X_2, \cdots , X_n|\theta}=(X_1, X_2, \cdots , X_n )$$
여기서, $\mathbf{X_1, X_2, \cdots , X_n|\theta}$는 벡터로 표현된 추출전(실현전) 표본
$n$은 표본크기
표본추출 후 관측돤 확률변수값 관점의 표현은 다음과 같습니다.
$$\mathbf{x_1, x_2, \cdots , x_n|\theta}=(x_1, x_2, \cdots , x_n )$$
여기서, $\mathbf{x_1, x_2, \cdots , x_n}$는 벡터로 표현된 추출후(실현후) 표본
$n$은 표본크기
표본 $\{x_1, x_2, \cdots , x_n\}$의 분포는 새로운 확률변수 $\bar {X|\theta}$와 $S^2$로 표현됩니다. 확률변수 $\bar {X|\theta}$는 정규분포를 따릅니다.
$$\bar \bar {X|\theta}\sim N\left(\mu, \dfrac{\sigma^2}{n}\right)$$
확률변수 $(n-1)\dfrac{S^2}{\sigma^2}$은 카이제곱분포를 따릅니다.
$$(n-1)\dfrac{S^2}{\sigma^2} \sim \chi^2_{(n-1)}$$
여기서, $(n-1)$은 자유도
베이지안 추론에서 모수 $\theta$는 확률변수이며 모수의 사전분포는 사전지식에 의해서 다음과 같은 정규분포로 주어질 수 있습니다.
$$\theta \sim {\mathcal N}(\theta_0, \sigma^2_0)$$
조건부 확률변수 $X|\theta$는 정규분포를 조건부 분포(conditional distribution)로 가진다고 모델링합니다.
$$X|\theta \sim {\mathcal N}(\theta, \sigma^2)$$
사후분포는 다음과 같습니다.
$$
p(\theta \mid x)
= \mathcal{N}\!\Bigl(
\theta \;\Bigm|\;
\frac{\sigma^{-2} x + \sigma_0^{-2}\,\mu_0}{\sigma^{-2} + \sigma_0^{-2}},\;
\frac{1}{\sigma^{-2} + \sigma_0^{-2}}
\Bigr)
$$
여기서, $\theta$는 모수이며 확률변수: $\theta \sim {\mathcal N}(\theta_0, \sigma^2_0)$
$x|\theta$는 우도(데이터생성): $x|\theta \sim {\mathcal N}(\theta, \sigma^2)$
사전분포(prior distriution)는 데이터를 관측하기 이전에 특정 모수(평균, 분산)에 대해 우리가 가지고 있는 믿음을 확률분포로 표현한 것입니다. 즉, 모수에 대한 확률적 신념을 수치화하는 방법입니다. 그러나 반드시 확률분포의 형태를 가질 필요는 없습니다. 왜냐하면 사후확률을 계산하는 과정에서 정규화 상수가 적용되어 사후분포에서는 확률분포의 정의를 만족하게 됩니다. 사전분포와 우도함수가 결함된 후, 사후분포가 사전분포와 같은 형태를 유지할 때, 켤레 관계라고 합니다.
정규분포의 평균에서는 실무와 이론적 접근에서 모두 정규분포를 주로 사용합니다. 실무에서 사전정보가 없을 때에는 균등분포, 희소성을 강조할 때는 라플라스 분포, 극단값에 덜 민감해야 할 때는 카우시 분포를 사용합니다.
정규분포의 분산에서는 실무에서는 감마분포를 가장 많이 사용합니다. 이론에서는 역감마분포를 주로 사용합니다.
매개변수 | 켤레 사전분포 | 대안 사전분포 예시 |
---|---|---|
평균 (μ) | 정규분포: $\mu \sim N(\mu_0, \tau^2) $ | 라플라스 분포, 균등 분포 |
분산 (σ²) | 역감마 분포: $\sigma^2 \sim \text{Inverse-Gamma}(\alpha, \beta) $ | 감마분포, $\dfrac{1}{\sigma^2}$ |
표준편차 (σ) | – | 하프 -카우시 분포, $\dfrac{1}{\sigma}$ |
평균 $\mu$에 대하여 다음과 같이 사전분포를 설정한다면
$$\mu \sim N(\mu_0, \tau^2)$$
여기서, $\mu_0$는 평균에 대한 사전 추정치
$\tau^2$은 평균에 대한 불확실성: 큰 값일 수록 약한 사전정보
예시) $\mu_0=0$, $\tau^2=10$
분산 $\sigma^2_0$애 대해 사전분포를 상수로 설정한다면
$$\sigma^2 \rightarrow \text{constant}$$
예시) $\sigma^2_0=\sigma^2$ ; $\sigma^2$은 단순화를 위해 고정된 알려진 분산
데이터는 관측된 표본입니다. 데이터 $X={x_1, x_2, \cdots , x_n}$가 정규분포에서 생성되었다고 가정하면
$$x_i \sim N(\mu, \sigma^2)$$
여기서, $\mu$는 평균: 추정하려는 모수
$\sigma^2$ 은 알려진 분산: 단순화를 위해 고정
예시) $\mathbf{x}=(2.1, 2.5, 1.8, 2.3, 2.0, 2.2, 1.9, 2.4, 2.0, 2.1)$
우도(likelihood)는 특정 모수(parameter, 매개변수)하에서 관측된 데이터를 얻을 확률을 의미합니다.
정규분포에서의 우도함수는 다음과 같습니다.
$$
L(\mu | X) = p(X | \mu, \sigma^2) = \prod_{i=1}^n N(x_i | \mu, \sigma^2)
$$
이는 다음과 같이 표현됩니다:
$$
L(\mu | X) \propto \exp\left(-\frac{n}{2\sigma^2} (\mu – \bar{x})^2 \right)
$$
여기서, $\bar{x}$는 관측된 데이터의 표본평균
$n$는 데이터의 개수
우도는 데이터를 기준으로 모수($\mu$)의 가능성을 평가합니다. 모수($\mu$)가 표본평균($\bar{x}$)에 가까울수록 우도가 커집니다.
베이즈정리(Bayes’ theorem)에 따르면
$$p(\mu|X) \propto p(X|\mu)\times p(\mu)$$
여기서, $p(\mu|X)$는 사후분포(posterior)
$p(X|\mu)$는 우도(likelihood, 가능도)
$p(\mu)$는 사전분포(prior)
정규분포에서의 사후분포의 형태는 정규분포를 유지합니다.
$$\mu|X \sim N(\mu_n, \tau^2_n)$$
여기서, $\mu_n$는 사후평균
$\tau^2_n$는 사후분산
사후평균$(\mu_n)$은 데이터의 표본평균$(\bar{x})$과 사전평균$(\mu_0)$의 가중평균입니다.
$$
\mu_n = \dfrac{\tau^2 \bar{x} + \sigma^2 \mu_0}{\tau^2 + n \sigma^2}
$$
사후분산$(\tau_n^2)$은 데이터가 많아질수록 감소하며 불확실성의 감소를 의미합니다.
$$
\tau_n^2 = \frac{\tau^2 \sigma^2}{\tau^2 + n \sigma^2}
$$
정규화상수 (normalization constant)는 분포를 확률분포의 속성인 모든 확률의 합이 1이 되게 하는 상수입니다.
베이즈 정리에 따르면 사후분포는 다음과 같이 표현됩니다.
\[
p(\mu | X) = \dfrac{p(X | \mu) p(\mu)}{p(X)}
\]
여기서 $p(X)$는 정규화 상수로, 모든 가능한 모수에 대해 우도와 사전분포의 곱을 적분한 값입니다.
\[
p(X) = \int_{-\infty}^{\infty} p(X | \mu) p(\mu) d\mu
\]
이 정규화상수는 사후분포가 확률분포로서의 성질을 만족하도록 하는 역할을 합니다
\[
\int_{-\infty}^{\infty} p(\mu | X) d\mu = 1
\]
모든 과정을 거친 후, 평균($\mu$)에 대한 사후분포는 다음과 같이 정규분포 형태로 나타납니다.
$$\mu|X \sim N(\mu_n, \tau^2_n)$$
예시)에서의 베이지안 추론의 과정을 정리하면 다음과 같습니다.
사전정보 $\mu_0, \tau^2$는 초기에 평균에 대해 불확실한 믿음을 표현합니다.
데이터 $X$는 관측된 표본이 제공하는 정보입니다. 데이터는 우도를 형성하는 근거입니다.
우도 $p(X|\mu)$는 데이터가 모수를 어떻게 지지하는 지를 표현합니다. 우도는 모수의 가능성을 평가하는 도구입니다. 즉, 모수가 주어졌을 때 데이터를 관측할 확률입니다. 베이지안 추론에서는 우도와 사전분포를 결합하여 사후분포를 형성합니다.
사후분포 $p(\mu)$는 사전과 데이터를 결합해서 업데이트된 평균의 확률분포를 말합니다.
정규화 상수 $p(X)$는 사후분포를 확률분포로 만들기 위한 조정 상수입니다.
예시)에서의 베이지안 추론 결과는 데이터가 사전정보를 압도하여 사후평균이 사전정보보다 표본평균에 더 근접합니다. 사후분산이 감소하여 불확실성이 감소하였습니다.
베이지안 추론 결과
1. 사전정보 (Prior Information)}
사전평균:
$$\mu_0 = 0$$
사전분산:
$$\tau^2 = 10$$
2. 관측데이터 (Observed Data)
데이터:
$$\mathbf{x} = (2.1, 2.5, 1.8, 2.3, 2.0, 2.2, 1.9, 2.4, 2.0, 2.1)$$
표본평균:
$$\bar{x} = 2.13$$
표본분산:
$$s^2 = 0.049$$
표본크기:
$$ n=10$$
3. 결과 (Results)
사후평균:
$$\mu_n \approx 2.13$$
사후분산:
$$\tau_n^2 \approx 0.0049$$