완벽히 이해하는 수리통계학

6 정규분포의 조건부 분포(Conditional distribution of Normal distibution)

juhongyee 2025. 7. 11. 23:56
반응형

 

 

서론

가끔 정규분포의 조건부 분포에 대해 묻는 문제가 나오거나 조건부 분포가 필요한 순간이 오곤 합니다.

그런데 저는 외우고 있지 않기 때문에 항상 고역을 겪었습니다.

이번엔 이 조건부 분포를 조금 쉽게 기억하고 유도할 수 있도록 그 방법을 알아봅시다.

 

글이 조금 간결하도록 김우철 수리통계학(2012) p.183의 정의를 기반으로 증명을 보이겠습니다.

 

Stack Exchange의 아래 증명을 참고했습니다.

https://stats.stackexchange.com/questions/30588/deriving-the-conditional-distributions-of-a-multivariate-normal-distribution

 

본론

1. 조건부 분포의 간단한 직관

우리는 다변량 정규분포에서 조건부 분포를 찾기를 원합니다. 여기서 $X$라는 다변량 정규분포를 따르는 확률벡터를 생각할 겁니다. 이 $X$를 $X_1,X_2$로 나누어봅시다. $$
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$$

 

우리는 가끔 $X_1$이 주어진 상태에서 그 영향을 고려해 $X_2$의 확률분포가 어떻게 될지 알고 싶습니다.

예를 들어, 키와 몸무게가 있을 때, 키를 170으로 고정시켰다면 그 내부에서 몸무게의 분포가 어떻게 될지 생각하는 겁니다.

 

키가 170일 때의 분포와, 180일 때의 몸무게 분포는 아무래도 다르겠죠? 키가 작을수록 몸무게가 덜 나갈 확률이 높을 겁니다.

 

실제로 어떤 다변량 분포의 조건부 분포는 구하기 매우 어렵지만 정규분포의 조건부 분포는 상대적으로 구하기가 편합니다. $Cov(X_1,X_2) = 0$ 이면 $X_1,X_2$가 독립이라는 성질 덕분입니다.

 

2. Cholesky decompostiion을 통한 조건부 분포 유도

먼저 앞서 언급한 $
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$ 벡터를 다변량 정규분포를 따르도록 적어봅시다.(김우철 수리통계학 p.183의 표기를 빌려오겠습니다.)

 

$$
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
\sim \mathcal{N} \left(
\begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix},
\begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}
\right)
$$

 

 -$Cov(X_1,X_2) = \Sigma_{12} = \Sigma_{21}$ : 공분산

 -$Var(X_1) = \Sigma_{11}$: $X_1$의 분산

 -$Var(X_2) = \Sigma_{11}$ : $X_2$의 분산

 

자 여기서 다변량 정규분포에서 공분산을 없애버림으로 독립으로 만드는 테크닉을 사용합시다.

우리는 이를 위해 Cholesky Decomposition(숄레스키 분해)를 사용하겠습니다.

 

$\Sigma = \begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}$라고 한다면 일반적으로 $\Sigma$를 Positive Definite(양의 정부호)라고 가정합니다.(why? 잘 생각해보세용)

 

그렇다면 Cholesky Decomposition을 사용할 수 있습니다.

Cholesky Decomposition은 어렵지 않은데요, Positive Definite matrix를 Lower trangle matrix(하삼각행렬)로 쪼갤 수 있다는 내용입니다.

즉, 어떤 lower trangle matrix $L$이 존재해서 $\Sigma = LL^T$이라는 뜻입니다.

 

지금부터

$$
L = \begin{pmatrix}
L_{11} & O \\
L_{21} & L_{22}
\end{pmatrix}
$$라고 합시다.

 

그러면 $
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$를 $
X = \begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix}
+ LZ \space \space ,Z \sim N(0,I)$ 라고 쓸 수 있습니다.

 

평균을 따로 앞으로 빼주고 , 분산은 cholesky decomposition 형태로 L만 빼준 겁니다. 다시 Z에 L을 넣어주면 분산이 $LL^T = \Sigma$가 됩니다.

 

$$
X = 
\begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix}
+
\begin{pmatrix}
L_{11} Z_1 \\
L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
=
\begin{pmatrix}
\mu_1 + L_{11} Z_1 \\
\mu_2 + L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
$$

 

자 여기서, $X_1 = x$를 conditioning 해봅시다. '$|X=x$' 를 써준다는 뜻입니다.

(그냥 $x$를 대입해서 $X=x$ 처럼 쓰면 안 됩니다!, bernoulli분포를 예시로 들어 생각해 보세요 ㅎㅎ)

 

그러면 $\mu_1 + L_{11}Z_1 = x$라는 뜻이겠죠? $|Z_1 = L_{11}^{-1}(x-\mu)$와 같이 conditioning 한 것과 같겠네요.

 

그러면 아래와 같이 쓸 수 있겠습니다.

$$
X \,\big|\, (X_1 = x)
\;=\;
\left.
\begin{pmatrix}
\mu_1 + L_{11} Z_1 \\
\mu_2 + L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
\;\right|_{\,Z_1 = L_{11}^{-1}(x - \mu_1)}
\;=\;
\begin{pmatrix}
x \\
\mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) + L_{22} Z_2
\end{pmatrix}.
$$

 

conditioning을 식 내부에 각각 적용해 주면 빼버릴 수 있습니다. 여기서 핵심은 $Z_1$의 값을 아무리 뭐로 conditioning하든 $Z_2$의 확률분포는 영향을 받지 않는다는 점입니다.

$X_2$는 $X_1$이 어떤 값을 가지느냐에 따라 키와 몸무게 예시와 같이 확률분포가 변화했었습니다. 독립이 아니었기 때문입니다. 

 

그러므로 $X_2 \,\big|\, (X_1 = x) = \mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) + L_{22} Z_2$는 정규분포를 따른다고 할 수 있겠네요.

 

3. 조건부 분포의 평균, 분산

 

이제 정규분포의 모수인 평균과 분산만 알면 됩니다.

 

쉬운 계산을 통해

 

$E[X_2 \,\big|\, (X_1 = x)] = \mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) \space \because E[Z_2] = 0.$

$Var[X_2 \,\big|\, (X_1 = x)] = L_{22}L_{22}^T \space var[L_{22} Z_2] = L_{22}L_{22}^T$

임을 알 수 있습니다.

 

여기까지는 Easy한데, 어떻게 바꾸면 좋을까요.

 

먼저 평균에서 $\mu_2 + L_{21} L_{11}^{-1}(x - \mu_1)$에는 $L_{11}^TL_{11}^{-T} = I$를 중간에 끼워봅시다.

 

그러면 $\mu_2 + L_{21} L_{11}^TL_{11}^{-T} L_{11}^{-1}(x - \mu_1)$라고 쓸 수 있겠네요.

 

$ \begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix} = LL^T = \begin{pmatrix}
L_{11} & O \\
L_{21} & L_{22}
\end{pmatrix} \begin{pmatrix}
L_{11}^T & L_{21}^T \\
O & L_{22}^T
\end{pmatrix}
$ 임을 기억하면 우리는 아래가 성립함을 알 수 있습니다.

 

$$L_{21}L_{11}^T = \Sigma_{21}$$

$$L_{11}L_{11}^T = \Sigma_{11}$$

 

이를 통해,

$\mu_2 + L_{21} L_{11}^TL_{11}^{-T} L_{11}^{-1}(x - \mu_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x - \mu_1) \space \because \Sigma^T = \Sigma$ 임을 알 수 있고 평균을 우리가 아는 식으로 유도했습니다.

 

분산도 같은 식으로 계산해 봅시다.

 

1. 분산을 $LL^T$의 식으로 정리합시다.

$L_{22}L_{22}^T = \Sigma_{22} = L_{22}L_{22}^T + L_{21}L_{21}^T \Rightarrow L_{22}L_{22}^T = \Sigma_{22} - L_{21}L_{21}^T$

 

2. $L_{11}$을 중간에 Identity가 되도록 잘 넣어줍시다.

$\Sigma_{22} - L_{21}L_{21}^T = \Sigma_{22} - L_{21} (L_{11}^TL_{11}^{-T}) (L_{11}^{-1}L_{11}) L_{21}^T$

 

3. 위의 언급한 두 식을 통해 잘 묶어 정리해 줍시다.

$\Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{21}^T = \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12}$

 

$$\therefore Var[X_2 \,\big|\, (X_1 = x)] = \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12}$$

 

 

$$\therefore X_2 \,\big|\, (X_1 = x) \sim N(\mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x - \mu_1), \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12})$$

 

결론

김우철 수리통계학 책에 있는 것보다 훨씬 간단한 방법으로 contional normal dist를 계산해 보았습니다. 뭐 사실 김우철 책 방법도 어렵지는 않은데 cholesky decomposition의 발상이 테크닉적으로 우리가 떠올리기 더 간편한 것 같습니다.

 

실제로 문제상에서 만날 때, 그 자리에서 증명해 봄직한 방법이니 언젠가 독자님들도 쓸모 있게 쓰실 수 있지 않을까 합니다.

 

끗!