서론
복습은 간단하고 빠르게 해 보겠습니다.
오늘은 Bandwidth selection를 주제로 복습해 보겠습니다.
수업 시간에 증명은 거의 다루지 않기 때문에 증명은 따로 공부해야 합니다 ㅠ
그럼 시작해 보죠.
본 포스팅은 서울대학교 박병욱 교수님의 비모수함수추정론 강의노트를 참고하여 기록되었습니다.
본론
0. Motivation
우리는 최적인 bandwidth를 구하고 싶습니다. 그런데 앞서 아래와 같은 최적을 구했습니다.
$$h_{\text{opt}} = [\frac{\int K^2}{(\mu_2(K))^2 \int(f'')^2}] n^{-1/5}$$
대충
Kernel제곱의 넓이가 크면 bandwidth를 키우고,
분산이 크면 bandwidth를 줄이고,
$\int (f'')^2$으로 포함되는 원래 확률분포의 곡률이 크면 bandwidth를 줄이며,
데이터가 많으면 크기를 줄입니다.
그런데? $\int (f'')^2$ 값을 알 수가 없습니다.
어떻게 해야 할까요? 한 번 알아봅시다.
$\int (f'')^2$ 어케?
Gaussian distribution을 추정할 때
쉽습니다.
우리는 $\text{MISE}(\hat{f})$를 최소화하는 bandwidth를 찾고 싶습니다. 그런데? Gaussian인.
그러면 우리가 알고 있는 최적 bandwidth에 gaussian distribution의 값을 넣어 주면 되겠습니다.
$\phi$는 Gaussian의 Density입니다.
$\phi_{\sigma}$는 표준편차가 $\sigma$인 gaussian의 density입니다.
계산하면,
표준편차를 고정했을 때 (oversmoothing)
oversmoothing 기법은 표준편차가 $\sigma$인 분포들의 집합에서 bandwidth가 가지는 상한값을 알아보는 기법입니다.
$$\sup_{p \in \mathscr{F}(\sigma)} (\frac{\int K^2}{\mu_2(K)^2 \int (f'')^2}) \le [\frac{243 \int K^2}{35\mu_2(K)^2}] \sigma$$
생각보다 깔끔하게 나옵니다.
증명은 Terrell (1990), JASA, pp.470-477을 참고합시다.
되게 재밌는 생각이네요.
Least squares cross-validation
LSCV 를 최소화하는 $h$를 찾아보자는 컨셉입니다.
일단 MISE부터 봐야 합니다.
MISE의 식은 아래와 같이 쓸 수 있습니다.
$$\begin{aligned}\int \mathbb{E}[(f(x) - \hat{f(x)})^2] &= \mathbb{E}[\int (\hat{f}(x) - f(x))^2] \because \text{fubini}\\ &= \mathbb{E}[\int \hat{f}(x)^2 - 2 \int f(x) \hat{f}(x) + \int f(x)^2]\end{aligned}$$
위의 식에서 $\int f(X)^2$은 상수죠? $h$에 영향을 받지 않습니다.
$\int \hat{f}(X)^2$ 값도 알 수 있습니다.
그런데 $\int f(X) \hat{f}(X)$는 알 수 없습니다.
그래서 estimator를 만들자는 컨셉입니다.
공교롭게도 다음이 성립합니다.
$$\displaystyle \mathbb{E}[n^{-1} \sum_{i=1}^n \hat{f}_{-i} (X_i;h)] = \mathbb{E} \int \hat{f}(x;h)f(x)dx$$
즉, one-leave out으로 만든 통계량이 $\int f(X) \hat{f}(X)$라는 값의 unbiased estimator라는 겁니다.
그러므로 다음과 같이 대체합시다.
$\displaystyle \begin{aligned}\text{LSCV(h)} &= \int \hat{f}(x;h)^2 dx - 2n^{-1} \sum_{i=1}^n \hat{f}_{-i} (X_i;h) \\&= n^{-2} \sum_{i=1}^n \sum_{j=1}^n K_h*K_h(X_i-X_j) -2n^{-1}(n-1)^{-1} \sum_{i \neq j} K_h(X_i-X_j) \end{aligned}$
우리는 위와 같은 LSCV를 최적화하는 $h$를 다음과 같이 찾고 싶습니다.
$\displaystyle \hat{h}_{\text{LSCV}} = \operatorname*{argmin}_{h>0} \text{LSCV}(h)$.
기억할 것은 one-leave out에서는 i번째 r.v.인 $X_i$를 제외하고, 나머지로 임의의 $x$가 아닌 $X_i$에서 평가한다는 사실입니다.
LSCV - CLT
$$n^{1/10} \left( \frac{\widehat{h}_{\text{LSCV}}}{h_{\text{opt}}} - 1 \right) \xrightarrow{d} N(0, \sigma^2_{\text{LSCV}})$$
잘 된다고 합니다.
K-fold LSCV
One leave out이 하나씩 빼고 넣었다면, K-fold는 데이터셋을 K개로 나눠서 One leave out을 실행하는 겁니다.
보통 5개나 10개로 나눈다고 하네요.
$\{1, \cdots , n\}$을 $A_1, \cdots, A_K$로 나눈 뒤 다음을 계산합니다.
$$\displaystyle \hat{p}_{-A_l} = \frac{1}{n-|A_l|} \sum_{i \notin A_l} K_h(x-X_i)$$
$A_I$에 들어가지 않은 값들로만 KDE를 구성한다는 뜻입니다.
$$\text{LSCV}^{K\text{-fold}}(h) = \int \hat{f}(x)^2 \, dx - \frac{2}{K} \sum_{l=1}^{K} \frac{1}{|A_l|} \sum_{i \in A_l} \hat{f}_{-A_l}(X_i)$$
복잡해 보이지만 one-leave-out LSCV와 같은 형태에 $\frac{1}{A_l|}$만 추가된 형태입니다.
결국 우리는 아래의 값을 구하면 됩니다.
$\displaystyle \hat{h}_{\text{LSCV}}^{\text{K-fold}} = \operatorname*{argmin}_{h>0} \text{LSCV}^{\text{K-fold}}(h)$.
결론
오늘은 bandwidth selection의 컨셉들과 정리들을 알아보았습니다.
먼저 문제는 $\int f\hat{f}$의 값을 알 수 없었다는 겁니다.
그래서 다음의 방법들을 알아보았습니다.
1. Gaussian으로 고정했을 때 값을 구해보았습니다. 분포가 정해져 있으니 쉽게 알 수 있죠.
2. $\sigma$가 고정됐을 때, bandwidth의 상한을 구했습니다.
3. one-leave-out으로 $\int f\hat{f}$의 추정도 해보았습니다. 추정량은 $\displaystyle n^{-1} \sum_{i=1}^n hat{f}_{-i}(X_i;h)$이었습니다.
4. K-fold로 추정했습니다.
one-leave-out과 K-fild로 추정할 때는 $\text{LSCV}(h)$를 최소화하는 $h$를 찾았습니다.
끗!
'CourseWork > 비모수' 카테고리의 다른 글
| 비모수 함수 추정론 중간대비 (0) | 2026.04.25 |
|---|---|
| L2norm is continuous. (0) | 2026.04.01 |
| 비모수 복습 - CLT in KDE (0) | 2026.03.16 |
| 비모수 복습 - Introduction (0) | 2026.03.05 |
| bias, variance of KDE - 증명[2] (0) | 2026.02.24 |