비모수 복습 - Bandwidth Selection

CourseWork/비모수

비모수 복습 - Bandwidth Selection

juhongyee 2026. 3. 17. 19:09

서론

복습은 간단하고 빠르게 해 보겠습니다.

오늘은 Bandwidth selection를 주제로 복습해 보겠습니다.

수업 시간에 증명은 거의 다루지 않기 때문에 증명은 따로 공부해야 합니다 ㅠ

그럼 시작해 보죠.

본 포스팅은 서울대학교 박병욱 교수님의 비모수함수추정론 강의노트를 참고하여 기록되었습니다.

본론

0. Motivation

우리는 최적인 bandwidth를 구하고 싶습니다. 그런데 앞서 아래와 같은 최적을 구했습니다.

$$h_{\text{opt}} = [\frac{\int K^2}{(\mu_2(K))^2 \int(f'')^2}] n^{-1/5}$$

대충

Kernel제곱의 넓이가 크면 bandwidth를 키우고,

분산이 크면 bandwidth를 줄이고,

$\int (f'')^2$으로 포함되는 원래 확률분포의 곡률이 크면 bandwidth를 줄이며,

데이터가 많으면 크기를 줄입니다.

그런데? $\int (f'')^2$ 값을 알 수가 없습니다.

어떻게 해야 할까요? 한 번 알아봅시다.

$\int (f'')^2$ 어케?

Gaussian distribution을 추정할 때

쉽습니다.

우리는 $\text{MISE}(\hat{f})$를 최소화하는 bandwidth를 찾고 싶습니다. 그런데? Gaussian인.

그러면 우리가 알고 있는 최적 bandwidth에 gaussian distribution의 값을 넣어 주면 되겠습니다.

$\phi$는 Gaussian의 Density입니다.

$\phi_{\sigma}$는 표준편차가 $\sigma$인 gaussian의 density입니다.

계산하면,

$$\int (\phi'')^2 = \frac{3}{8\sqrt{\pi}}, \quad \int \{(\phi_\sigma)''\}^2 = \frac{1}{\sigma^5} \int (\phi'')^2 = \frac{3}{8\sqrt{\pi}} \frac{1}{\sigma^5}$$

그냥 대입하면(NS는 normal scale의 약자)

$$\hat{h}_{\text{NS}} = [\frac{8\sqrt{\pi} \int K^2}{3\mu_2(K)^2}]^{1/5}n^{-1/5}\hat{\sigma}$$

$\sigma$는 추정치를 plug-in 합시다.

표준편차를 고정했을 때 (oversmoothing)

oversmoothing 기법은 표준편차가 $\sigma$인 분포들의 집합에서 bandwidth가 가지는 상한값을 알아보는 기법입니다.

$$\sup_{p \in \mathscr{F}(\sigma)} (\frac{\int K^2}{\mu_2(K)^2 \int (f'')^2}) \le [\frac{243 \int K^2}{35\mu_2(K)^2}] \sigma$$

생각보다 깔끔하게 나옵니다.

증명은 Terrell (1990), JASA, pp.470-477을 참고합시다.

되게 재밌는 생각이네요.

Least squares cross-validation

LSCV 를 최소화하는 $h$를 찾아보자는 컨셉입니다.

일단 MISE부터 봐야 합니다.

MISE의 식은 아래와 같이 쓸 수 있습니다.

$$\begin{aligned}\int \mathbb{E}[(f(x) - \hat{f(x)})^2] &= \mathbb{E}[\int (\hat{f}(x) - f(x))^2] \because \text{fubini}\\ &= \mathbb{E}[\int \hat{f}(x)^2 - 2 \int f(x) \hat{f}(x) + \int f(x)^2]\end{aligned}$$

위의 식에서 $\int f(X)^2$은 상수죠? $h$에 영향을 받지 않습니다.

$\int \hat{f}(X)^2$ 값도 알 수 있습니다.

그런데 $\int f(X) \hat{f}(X)$는 알 수 없습니다.

그래서 estimator를 만들자는 컨셉입니다.

공교롭게도 다음이 성립합니다.

$$\displaystyle \mathbb{E}[n^{-1} \sum_{i=1}^n \hat{f}_{-i} (X_i;h)] = \mathbb{E} \int \hat{f}(x;h)f(x)dx$$

즉, one-leave out으로 만든 통계량이 $\int f(X) \hat{f}(X)$라는 값의 unbiased estimator라는 겁니다.

그러므로 다음과 같이 대체합시다.

$\displaystyle \begin{aligned}\text{LSCV(h)} &= \int \hat{f}(x;h)^2 dx - 2n^{-1} \sum_{i=1}^n \hat{f}_{-i} (X_i;h) \\&= n^{-2} \sum_{i=1}^n \sum_{j=1}^n K_h*K_h(X_i-X_j) -2n^{-1}(n-1)^{-1} \sum_{i \neq j} K_h(X_i-X_j) \end{aligned}$

우리는 위와 같은 LSCV를 최적화하는 $h$를 다음과 같이 찾고 싶습니다.

$\displaystyle \hat{h}_{\text{LSCV}} = \operatorname*{argmin}_{h>0} \text{LSCV}(h)$.

기억할 것은 one-leave out에서는 i번째 r.v.인 $X_i$를 제외하고, 나머지로 임의의 $x$가 아닌 $X_i$에서 평가한다는 사실입니다.

LSCV - CLT

$$n^{1/10} \left( \frac{\widehat{h}_{\text{LSCV}}}{h_{\text{opt}}} - 1 \right) \xrightarrow{d} N(0, \sigma^2_{\text{LSCV}})$$

잘 된다고 합니다.

K-fold LSCV

One leave out이 하나씩 빼고 넣었다면, K-fold는 데이터셋을 K개로 나눠서 One leave out을 실행하는 겁니다.

보통 5개나 10개로 나눈다고 하네요.

$\{1, \cdots , n\}$을 $A_1, \cdots, A_K$로 나눈 뒤 다음을 계산합니다.

$$\displaystyle \hat{p}_{-A_l} = \frac{1}{n-|A_l|} \sum_{i \notin A_l} K_h(x-X_i)$$

$A_I$에 들어가지 않은 값들로만 KDE를 구성한다는 뜻입니다.

$$\text{LSCV}^{K\text{-fold}}(h) = \int \hat{f}(x)^2 \, dx - \frac{2}{K} \sum_{l=1}^{K} \frac{1}{|A_l|} \sum_{i \in A_l} \hat{f}_{-A_l}(X_i)$$

복잡해 보이지만 one-leave-out LSCV와 같은 형태에 $\frac{1}{A_l|}$만 추가된 형태입니다.

결국 우리는 아래의 값을 구하면 됩니다.

$\displaystyle \hat{h}_{\text{LSCV}}^{\text{K-fold}} = \operatorname*{argmin}_{h>0} \text{LSCV}^{\text{K-fold}}(h)$.

결론

오늘은 bandwidth selection의 컨셉들과 정리들을 알아보았습니다.

먼저 문제는 $\int f\hat{f}$의 값을 알 수 없었다는 겁니다.

그래서 다음의 방법들을 알아보았습니다.

1. Gaussian으로 고정했을 때 값을 구해보았습니다. 분포가 정해져 있으니 쉽게 알 수 있죠.

2. $\sigma$가 고정됐을 때, bandwidth의 상한을 구했습니다.

3. one-leave-out으로 $\int f\hat{f}$의 추정도 해보았습니다. 추정량은 $\displaystyle n^{-1} \sum_{i=1}^n hat{f}_{-i}(X_i;h)$이었습니다.

4. K-fold로 추정했습니다.

one-leave-out과 K-fild로 추정할 때는 $\text{LSCV}(h)$를 최소화하는 $h$를 찾았습니다.

끗!

'CourseWork > 비모수' 카테고리의 다른 글

비모수 함수 추정론 중간대비 (0)	2026.04.25
L2norm is continuous. (0)	2026.04.01
비모수 복습 - CLT in KDE (0)	2026.03.16
비모수 복습 - Introduction (0)	2026.03.05
bias, variance of KDE - 증명[2] (0)	2026.02.24

현재글비모수 복습 - Bandwidth Selection

Juhongyee

수학, 통계를 주로 다룹니다.

tda, 위상수학, KDE, 해석학, 측도론, measure, 확률론, sigma field, 응용위상, 비모수함수추정론, 백준, probability theory, 수학, 일기, topology, Rademacher complexity, martingale, fundamental group, 수리통계학, 대수위상,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Juhongyee