서론
가끔 정규분포의 조건부 분포에 대해 묻는 문제가 나오거나 조건부 분포가 필요한 순간이 오곤 합니다.
그런데 저는 외우고 있지 않기 때문에 항상 고역을 겪었습니다.
이번엔 이 조건부 분포를 조금 쉽게 기억하고 유도할 수 있도록 그 방법을 알아봅시다.
글이 조금 간결하도록 김우철 수리통계학(2012) p.183의 정의를 기반으로 증명을 보이겠습니다.
Stack Exchange의 아래 증명을 참고했습니다.
본론
1. 조건부 분포의 간단한 직관
우리는 다변량 정규분포에서 조건부 분포를 찾기를 원합니다. 여기서 $X$라는 다변량 정규분포를 따르는 확률벡터를 생각할 겁니다. 이 $X$를 $X_1,X_2$로 나누어봅시다. $$
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$$
우리는 가끔 $X_1$이 주어진 상태에서 그 영향을 고려해 $X_2$의 확률분포가 어떻게 될지 알고 싶습니다.
예를 들어, 키와 몸무게가 있을 때, 키를 170으로 고정시켰다면 그 내부에서 몸무게의 분포가 어떻게 될지 생각하는 겁니다.
키가 170일 때의 분포와, 180일 때의 몸무게 분포는 아무래도 다르겠죠? 키가 작을수록 몸무게가 덜 나갈 확률이 높을 겁니다.
실제로 어떤 다변량 분포의 조건부 분포는 구하기 매우 어렵지만 정규분포의 조건부 분포는 상대적으로 구하기가 편합니다. $Cov(X_1,X_2) = 0$ 이면 $X_1,X_2$가 독립이라는 성질 덕분입니다.
2. Cholesky decompostiion을 통한 조건부 분포 유도
먼저 앞서 언급한 $
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$ 벡터를 다변량 정규분포를 따르도록 적어봅시다.(김우철 수리통계학 p.183의 표기를 빌려오겠습니다.)
$$
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
\sim \mathcal{N} \left(
\begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix},
\begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}
\right)
$$
-$Cov(X_1,X_2) = \Sigma_{12} = \Sigma_{21}$ : 공분산
-$Var(X_1) = \Sigma_{11}$: $X_1$의 분산
-$Var(X_2) = \Sigma_{11}$ : $X_2$의 분산
자 여기서 다변량 정규분포에서 공분산을 없애버림으로 독립으로 만드는 테크닉을 사용합시다.
우리는 이를 위해 Cholesky Decomposition(숄레스키 분해)를 사용하겠습니다.
$\Sigma = \begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix}$라고 한다면 일반적으로 $\Sigma$를 Positive Definite(양의 정부호)라고 가정합니다.(why? 잘 생각해보세용)
그렇다면 Cholesky Decomposition을 사용할 수 있습니다.
Cholesky Decomposition은 어렵지 않은데요, Positive Definite matrix를 Lower trangle matrix(하삼각행렬)로 쪼갤 수 있다는 내용입니다.
즉, 어떤 lower trangle matrix $L$이 존재해서 $\Sigma = LL^T$이라는 뜻입니다.
지금부터
$$
L = \begin{pmatrix}
L_{11} & O \\
L_{21} & L_{22}
\end{pmatrix}
$$라고 합시다.
그러면 $
X = \begin{pmatrix}
X_1 \\
X_2
\end{pmatrix}
$를 $
X = \begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix}
+ LZ \space \space ,Z \sim N(0,I)$ 라고 쓸 수 있습니다.
평균을 따로 앞으로 빼주고 , 분산은 cholesky decomposition 형태로 L만 빼준 겁니다. 다시 Z에 L을 넣어주면 분산이 $LL^T = \Sigma$가 됩니다.
$$
X =
\begin{pmatrix}
\mu_1 \\
\mu_2
\end{pmatrix}
+
\begin{pmatrix}
L_{11} Z_1 \\
L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
=
\begin{pmatrix}
\mu_1 + L_{11} Z_1 \\
\mu_2 + L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
$$
자 여기서, $X_1 = x$를 conditioning 해봅시다. '$|X=x$' 를 써준다는 뜻입니다.
(그냥 $x$를 대입해서 $X=x$ 처럼 쓰면 안 됩니다!, bernoulli분포를 예시로 들어 생각해 보세요 ㅎㅎ)
그러면 $\mu_1 + L_{11}Z_1 = x$라는 뜻이겠죠? $|Z_1 = L_{11}^{-1}(x-\mu)$와 같이 conditioning 한 것과 같겠네요.
그러면 아래와 같이 쓸 수 있겠습니다.
$$
X \,\big|\, (X_1 = x)
\;=\;
\left.
\begin{pmatrix}
\mu_1 + L_{11} Z_1 \\
\mu_2 + L_{21} Z_1 + L_{22} Z_2
\end{pmatrix}
\;\right|_{\,Z_1 = L_{11}^{-1}(x - \mu_1)}
\;=\;
\begin{pmatrix}
x \\
\mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) + L_{22} Z_2
\end{pmatrix}.
$$
conditioning을 식 내부에 각각 적용해 주면 빼버릴 수 있습니다. 여기서 핵심은 $Z_1$의 값을 아무리 뭐로 conditioning하든 $Z_2$의 확률분포는 영향을 받지 않는다는 점입니다.
$X_2$는 $X_1$이 어떤 값을 가지느냐에 따라 키와 몸무게 예시와 같이 확률분포가 변화했었습니다. 독립이 아니었기 때문입니다.
그러므로 $X_2 \,\big|\, (X_1 = x) = \mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) + L_{22} Z_2$는 정규분포를 따른다고 할 수 있겠네요.
3. 조건부 분포의 평균, 분산
이제 정규분포의 모수인 평균과 분산만 알면 됩니다.
쉬운 계산을 통해
$E[X_2 \,\big|\, (X_1 = x)] = \mu_2 + L_{21} L_{11}^{-1}(x - \mu_1) \space \because E[Z_2] = 0.$
$Var[X_2 \,\big|\, (X_1 = x)] = L_{22}L_{22}^T \space var[L_{22} Z_2] = L_{22}L_{22}^T$
임을 알 수 있습니다.
여기까지는 Easy한데, 어떻게 바꾸면 좋을까요.
먼저 평균에서 $\mu_2 + L_{21} L_{11}^{-1}(x - \mu_1)$에는 $L_{11}^TL_{11}^{-T} = I$를 중간에 끼워봅시다.
그러면 $\mu_2 + L_{21} L_{11}^TL_{11}^{-T} L_{11}^{-1}(x - \mu_1)$라고 쓸 수 있겠네요.
$ \begin{pmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{pmatrix} = LL^T = \begin{pmatrix}
L_{11} & O \\
L_{21} & L_{22}
\end{pmatrix} \begin{pmatrix}
L_{11}^T & L_{21}^T \\
O & L_{22}^T
\end{pmatrix}
$ 임을 기억하면 우리는 아래가 성립함을 알 수 있습니다.
$$L_{21}L_{11}^T = \Sigma_{21}$$
$$L_{11}L_{11}^T = \Sigma_{11}$$
이를 통해,
$\mu_2 + L_{21} L_{11}^TL_{11}^{-T} L_{11}^{-1}(x - \mu_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x - \mu_1) \space \because \Sigma^T = \Sigma$ 임을 알 수 있고 평균을 우리가 아는 식으로 유도했습니다.
분산도 같은 식으로 계산해 봅시다.
1. 분산을 $LL^T$의 식으로 정리합시다.
$L_{22}L_{22}^T = \Sigma_{22} = L_{22}L_{22}^T + L_{21}L_{21}^T \Rightarrow L_{22}L_{22}^T = \Sigma_{22} - L_{21}L_{21}^T$
2. $L_{11}$을 중간에 Identity가 되도록 잘 넣어줍시다.
$\Sigma_{22} - L_{21}L_{21}^T = \Sigma_{22} - L_{21} (L_{11}^TL_{11}^{-T}) (L_{11}^{-1}L_{11}) L_{21}^T$
3. 위의 언급한 두 식을 통해 잘 묶어 정리해 줍시다.
$\Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{21}^T = \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12}$
$$\therefore Var[X_2 \,\big|\, (X_1 = x)] = \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12}$$
$$\therefore X_2 \,\big|\, (X_1 = x) \sim N(\mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x - \mu_1), \Sigma_{22} - \Sigma_{21} \Sigma_{11} \Sigma_{12})$$
결론
김우철 수리통계학 책에 있는 것보다 훨씬 간단한 방법으로 contional normal dist를 계산해 보았습니다. 뭐 사실 김우철 책 방법도 어렵지는 않은데 cholesky decomposition의 발상이 테크닉적으로 우리가 떠올리기 더 간편한 것 같습니다.
실제로 문제상에서 만날 때, 그 자리에서 증명해 봄직한 방법이니 언젠가 독자님들도 쓸모 있게 쓰실 수 있지 않을까 합니다.
끗!
'완벽히 이해하는 수리통계학' 카테고리의 다른 글
5 Rao-Cramér lower bound (0) | 2025.07.02 |
---|---|
4 Quantile function의 Convegence(분위수 함수의 수렴) (0) | 2025.04.09 |
3 적분과 기댓값의 코시 슈바르츠 부등식 (feat. 나의 증명 + 직관) (0) | 2025.01.16 |
2 누적분포함수의 성질 / 연속,이산확률변수의 정의 (feat. measure, 좌연속(left continuous)은 왜 안됨?) (0) | 2025.01.13 |
1 확률이란? (feat. sample space, events) (0) | 2024.06.25 |