서론
KDE의 성질을 증명하는 두 번째 글입니다.
오늘은 KDE의 MISE(Mean Integrated Squared error)를 보이겠습니다.
이를 보이는 건 $\text{MISE} = \int \text{bias}^2 + \int \text{variance}$공식을 통해 유도할 수 있습니다.
그러므로 우리는 $\int \text{bias}^2$와 $\int \text{variance}$를 구해보겠습니다.
본 포스팅은 서울대학교 박병욱 교수님의 비모수함수추정론 강의노트를 참고하여 기록되었습니다.
본론
1. $\int \text{bias}^2(\hat{f}(x;h))dx$
Assume that $f''$ is continuous on $\mathbb{R}$,
$\int (f''(x))^2 dx < \infty$,
$\int t^2K(t) dt < \infty$,
$K \text{ is symmetric and} \int K(x)dx =1.$
Then, $\int \text{bias}^2(\hat{f}(x;h)) dx = \frac{1}{4}h^4(\mu_2(K))^2\int (f''(x))^2 dx + o(h^4)$.
Bias 제곱의 적분을 유도하려면 위의 5가지 가정이 들어갑니다.
이를 잘 활용하여 유도해 봅시다.
증명)
$\text{bias}(\hat{f}(x;h)) = K*f - f = \frac{1}{2} \mu_2(K)f''(x)h^2 + R_2(x)$입니다.
아래의 포스팅에서 간단하게 보였습니다.
https://juhongyee.tistory.com/96
bias, variance of KDE - 증명[1]
서론지난 글에 KDE(kernel density estimator)의 bias와 variance, MISE에 대해 알아보았습니다.이번 글에서는 bias와 variance를 구하는 세부적인 증명을 알아보도록 하겠습니다.다음 글에서는 MISE를 유도해 보
juhongyee.tistory.com
자연스럽게 $\text{bias}^2(\hat{f}(x;h)) = \frac{1}{4} \mu_{2}^{2}(K) {f''}^2(x)h^4 + \mu_2(K){f''}h^2R_2(x)+R_2^2(x)$ 를 유도할 수 있습니다.
여기서 우리는 뒤의 두 항이 $o(h^4)$임을 보일 겁니다.
$o(h^4)$임을 보이는 건 단순하게 생각해서 $\frac{1}{h^4}$를 곱하고 $\displaystyle \lim_{h \to \infty}$를 적분과 교환하여 얻을 겁니다. ${f''}(x)$가 continuous이기 때문에 바로 성립합니다.
일단 LDCT가 성립해서 교환이 가능한 지 확인하는 것은 차치하고 계산부터 해봅시다.
$R_2(x) = h^2 \int \int_0^1 t^2 K(t) \{f''(x-wht) - f''(x)\}(1-w) dwdt$입니다.
두 번째 항
$\int \mu_2(K){f''}h^2R_2(x)dx = \int \mu_2(K){f''}(x) h^4 \int \int_0^1 t^2 K(t) \{f''(x-wht) - f''(x)\}(1-w) dwdtdx$.
$\frac{1}{h^4}$를 곱하고 LDCT를 적용해서 $\displaystyle \lim_{h \to \infty}$를 안쪽으로 넣어줍시다.
그렇다면, $f''$이 continuous이므로 $\{f''(x-wht) - f''(x)\} \to 0$이 되어 두 번째 항이 $o(h^4)$임을 증명됩니다.
세 번째 항
여기는 간단한 테크닉을 사용해 주면 좋습니다.
적분의 제곱을 각기 다른 변수의 적분으로 쪼개어 합치는 테크닉을 적용합시다.
$\int R_n^2(x) dx = \int R_n(x) * R_n(x) dx$
두 개의 $R_n(x)$를 각기 $w_1,t_1$과 $w_2,t_2$를 변수로 갖는 적분으로 쪼개겠습니다.
$\begin{aligned}\int R_n(x) * R_n(x) dx &=h^4 \int \left(\int \int_0^1 t_1^2 K(t_1) \{f''(x-w_1ht_1) - f''(x)\}(1-w_1) dw_1dt_1 \right) \\& \left( \int \int_0^1 t_2^2 K(t_2) \{f''(x-w_2ht_2) - f''(x)\}(1-w_2) dw_2dt_2 \right) dx \end{aligned}$
각기 다른 변수니까 한 번에 넣을 수 있습니다. 즉, 다음과 같이 정리됩니다.
두 번째 항과 같은 방식으로 $\frac{1}{h^4}$를 곱하고 LDCT를 적용하여 $\displaystyle \lim_{h \to 0}$를 적분 안으로 넣어줍시다. 그러면 $\{f''(x-wht) - f''(x)\} \to 0$이므로 세 번째 항도 $o(h^4)$임을 증명할 수 있습니다.
LDCT의 적용 가능성
일단 LDCT의 조건 세 가지를 고려합시다.
1. $f_n \to f$
2. $|f_n| \le g$
3. $g \in L_1$
먼저 모든 수식에서 $f_n \to 0$이 되므로 1.은 고려할 필요가 없겠습니다.
그러면 $g$를 잡아 $g$가 integrable임을 보여야 하는데 우리는 $g = |f_n|$으로 잡고 $|f_n|$이 integrable임을 보이겠습니다.
위에서 정리한 두 번째 항에 적용해 보죠. $\frac{1}{h^4}$는 곱했다고 합시다.
Fubini
$$\int |\mu_2(K)|{f''}(x)| \int \int_0^1 t^2 K(t) \{f''(x-wht) - f''(x)\}(1-w) dwdt| dx$$
$$\le \int \int \int_0^1 \mu_2(K)|{f''}(x)| t^2 K(t) |\{f''(x-wht) - f''(x)\}| dwdt dx \because \quad 0<(1-w) < 1$$
$$\le \int \int_0^1 \mu_2(K) t^2 K(t) \int |{f''}(x)||\{f''(x-wht) - f''(x)\}| dxdwdt\because \text{Fubini} (\star)$$
$\star$를 bound하는 $g$를 잡아야하는데 $|{f''}(x)||\{f''(x-wht) - f''(x)\}|$를 bound하는 h에 의존하지 않는 함수는 찾을 수가 없습니다. 조건이 너무 적기 때문입니다.
그러면 어떻게 해야할까요? 방법은 적분 자체를 bound함으로 $h$에 대한 의존성을 없애고 $w,t$에 대해 $g$를 찾는 겁니다.
적분에 대한 조건은 $f'' \in L_2$로 주어졌기 때문에 Cauchy-Schwarz로 bound하면 되겠습니다..
즉, $\int |{f''}(x)||\{f''(x-wht) - f''(x)\}| dx$를 다음처럼 bound해봅시다.
$$\begin{aligned}\int |{f''}(x)||\{f''(x-wht) - f''(x)\}| dx &\le \|f''\|_2\|\{f''(x-wht) - f''(x)\}\|_2 \\&\le \|f''\|_2(\|\{f''(x-wht)\|_2 + \|f''(x)\}\|_2) \\&\le 2\|f''\|_2^2 \end{aligned}$$
$h$에 대한 의존성이 사라졌습니다. 그러면 우리는 $g = \mu_2(K) t^2 K(t) \space 2\|f''\|_2^2$로 $\mu_2(K) t^2 K(t) (1-w) \int |{f''}(x)||\{f''(x-wht) - f''(x)\}| dx$를 bound할 수 있게 되었습니다.
그럼 문제가 해결되었을까요? 아닙니다. 우리가 적분자체를 bound하게 되므로 1번 조건인 pointwise convergence를 보장하지 못하게 되었습니다. 적분 안으로 $\displaystyle \lim_{h \to \infty}$를 넣을 수 없기 때문이죠.
하지만 $L_2$ norm은 continuous합니다. 즉, $\|f''\|_2\|\{f''(x-wht) - f''(x)\}\|_2 \to 0$ as $h \to 0$ 가 성립합니다. 그렇다는 건, 더 큰게 0으로 수렴하니 squeeze thm에 의해 $\mu_2(K) t^2 K(t) (1-w) \int |{f''}(x)||\{f''(x-wht) - f''(x)\}| dx \to 0$도 성립합니다.
pointwise convergence를 만족시켰고, $h$에 의존하지 않는 integrable celing function $g$도 찾았습니다.
즉, LDCT의 조건이 만족되었습니다.
$L_2$ norm의 continuos 증명
https://juhongyee.tistory.com/107
L2norm is continuous.
서론https://juhongyee.tistory.com/97 bias, variance of KDE - 증명[2]서론KDE의 성질을 증명하는 두 번째 글입니다.오늘은 KDE의 MISE(Mean Integrated Squared error)를 보이겠습니다. 이를 보이는 건 $\text{MISE} = \int \text{b
juhongyee.tistory.com
2. $\int \text{var}(\hat{f}(x;h))dx$
Assume that
$f$ is bounded on $\mathbb{R}$ and,
$\int K^2(x)dx < \infty$.
Then, $$\int \text{var}(\hat{f}(x;h)) = n^{-1}h^{-1} \int K^2(x)dx + o(n^{-1}h^{-1})$$
특이하게 $f$가 bounded라는 가정이 있습니다.
증명은 어렵지 않습니다.
먼저 분산을 (제곱의 평균) - (평균의 제곱)으로 분리합니다.
$$\int \text{var}(\hat{f}(x;h)) = \int (\mathbb{E}[\hat{f}^2] - \mathbb{E}[\hat{f}]^2)$$
이걸 풀어서 치환적분으로 전개하면 손쉽게 다음을 얻습니다.
$$\int \text{var}(\hat{f}(x;h)) = \frac{1}{nh} \iint K^2(u)f(x-hu) du - \frac{1}{n} \int (\int K(u)f(x-hu) du)^2 dx$$
그러면 2개의 항을 각각 전개해 봅시다.
두 번째 항
먼저 $\sqrt{K} *\sqrt{K}f$로 쪼개어서 적분의 cauchy-schwarz를 써줍시다. 그러면 다음이 성립합니다.
$$\int \text{(second term)} dx \le \frac{1}{n}\iint K(u)f(x-hu)^2 dudx$$
$$\displaystyle \le \frac{1}{n} \max_x f(x) \iint K(u)^2 dudx$$ by assumption.
$f$가 bounded라고 했으니 max로 뺄 수 있겠죠.
최종 결과에 $nh$를 곱해서 $n \to \infty, h \to 0$로 보내면 원하는 결과를 얻게 됩니다.
$$\displaystyle \frac{1}{n} \max_{x} f(x) * \int K(u)^2 du = o(n^{-1}h^{-1})$$.
첫 번째 항
바로 위에서 Fubini 적용한 것을 똑같이 적용하면,
$$\int \frac{1}{nh} \int K^2(u)f(x-hu) dudx = \frac{1}{nh} \int K^2(u) du$$
$$\therefore \int \text{var}(\hat{f}(x;h)) = n^{-1}h^{-1} \int K^2(x)dx + o(n^{-1}h^{-1})$$
3. MISE
$$
\text{MISE}(h) = \int \text{bias}^2(\widehat{f}(x; h))dx + \int \text{var}(\widehat{f}(x; h))dx \text{ is minimized by}
$$
$$
h_{\text{opt}} = \left\{ \frac{\int K^2}{(\mu_2(K))^2 \int (f'')^2} \right\}^{1/5} n^{-1/5}
$$
and
$$
\inf_{h>0} \text{MISE}(h) = \frac{5}{4} \left\{ \mu_2(K) \left( \int K^2 \right)^2 \right\}^{2/5} \left\{ \int (f'')^2 \right\}^{1/5} n^{-4/5} + o(n^{-4/5}).
$$
이는 순수 계산이어서 $h_\text{opt}$의 유도를 넣지는 않겠습니다.
대신 간단한 해석을 덧붙여보겠습니다.
1. sample이 많아질수록 $h_\text{opt}$가 작아져야 한다. sample 많으면 좁은 구간만 봐도 되겠죠.
2.분모의 $\inf (f'')^2$가 있기 때문에 확률분포의 굴곡이 심하다면 세밀한 부분 포착을 위해 $h_\text{opt}$를 작게 가져가자.
나머지 부분은 kernel의 분산과 관련이 있어 보이네요.
마지막 MISE의 inf에서 중요한 건 수렴속도 $o(n^{-4/5})$입니다. 일반적인 parametric 모형에서 MSE를 쓴 수렴속도 $o(n^{-1})$보다는 조금 느립니다. (ex. $o(n^{-2})$면 훨씬 빨리 줄어들겠죠.
하지만 nonparametric 방법에서 tradeoff라고 생각하면 합리적인 결과로 보입니다.
결론
KDE의 MISE를 구하기 위한 증명들을 해보았습니다.
적분 테크닉이 주로 쓰여야 했고, Fubini와 LDCT가 주로 증명에 사용되었습니다. 특히, Fubini의 사용을 잘하는 게 증명에 도움이 되었습니다.
MISE는 $o(n^{-4/5})$의 convergence rate을 보였고 합리적인 결과로 생각됩니다.
끗!
'CourseWork > 비모수' 카테고리의 다른 글
| 비모수 복습 - Bandwidth Selection (0) | 2026.03.17 |
|---|---|
| 비모수 복습 - CLT in KDE (0) | 2026.03.16 |
| 비모수 복습 - Introduction (0) | 2026.03.05 |
| bias, variance of KDE - 증명[1] (0) | 2026.02.23 |
| bias, variance of KDE (0) | 2026.02.17 |