완벽히 이해하는 수리통계학

4 Quantile function의 Convegence(분위수 함수의 수렴)

juhongyee 2025. 4. 9. 16:47
반응형

 

 

 

서론

응용통계 과제를 하다 보니 Quantile이 수렴하는 내용을 보일 필요가 있었습니다.

그냥 직관적으로 당연한거 아니야? 하니 옆의 친구가 당연하긴 해도 증명해야지 하더라구요.

 

그래서 Differentiable, 1-1 function인 F, i.e., CDF에 대해서는 증명을 간단하게 해 보았습니다.

워낙 간단해서 이 부분 증명은 스킵하고 일반적인 Distribution에 대해서 증명해 보겠습니다.

https://en.wikipedia.org/wiki/Quantile_function

본론

정의

Let $X_n$ is a squence of r.vs and $X$ is a r.v.

Let $F_n = cdf_{X_n}(x), F = cdf_X(x)$

 

For a given $p \in (0,1)$ the $p$ quantiles of limit distribution is defined as

 

$Q_X(p) = F^{-1}(p) = \inf \{ x \in \mathbb{R} : p \leq F(x) \}$

$Q_{X_n}(p) = F_n^{-1}(p) = \inf \{ x \in \mathbb{R} : p \leq F(x) \}$

 

오 위의 정의를 보니 Quantile function은 $F$의 inverse처럼 사용하네요. 그 표기법처럼 실제 1-1한 경우는 $Q$가 $F$의 inverse function이 됩니다.

그런데 F는 일반적으로 1-1이 아니죠. 본 포스팅을 보시면 이를 자세히 알 수 있습니다.

https://juhongyee.tistory.com/32

 

2 누적분포함수의 성질 / 연속,이산확률변수의 정의 (feat. measure, 좌연속(left continuous)은 왜 안됨?)

서론누적분포함수(c.d.f)란 무엇일까요?처음 배울 땐 이 개념이 참 막막했습니다. 누적분포함수를 확률밀도(or 질량)함수의 적분 정도로 생각했기 때문입니다.이게 대체 뭐가 중요한건지, 왜 알아

juhongyee.tistory.com

 

우리는 궁극적으로 Quantile function이 수렴하는지 여부를 알고 싶습니다.

 

Statement

$X_n \xrightarrow{d} X$ iff $Q_n(p) \rightarrow Q(p) $ at all continuity points $p$ of $Q$.

 

$X_n$이 분포 수렴하면 quantile도 수렴하고 그 역도 성립합니다.

근데 뭔가 당연히 분포가 딱 수렴했다고 치면 quantile이 연속적으로 쭉 바뀌면서 수렴해야 할 것 같습니다.

 

한 번 증명해 보면서 직관이 맞는지 확인합시다.

증명

https://math.stackexchange.com/questions/93983/convergence-in-distribution-and-convergence-of-quantile 를 참고하였습니다.

 

convergence in distribution and convergence of quantile

Suppose real-valued random variables $\{X_{n}\} $ converges to $X$ in distribution. Then, will the quantile of the distribution of $\{X_n\}$ converge to the quantile of $X$? .

math.stackexchange.com

 

(=>)

$p$가 Q의 continuity point에 속한다고 합시다.

(Converge in distribution는 Continuous point에서의 수렴만 고려합니다.. 그러면 Q의 수렴도 cdf에 관련되었으니 Continuity point에서만 보면 됩니다.)

 

여기서 $\epsilon_k \rightarrow 0$인 수열을 잡을 건데, 잡을 때 모든 k에 대해 $Q(p)-\epsilon_k,Q(p)+\epsilon_k$가 모두 $F$의 continuity point이도록 합시다.

그러면 continuous point들만 딱딱 짚으면서 $Q(p)$로 수렴하는 수열을 생각할 수 있게 됩니다.

 

근데 이런 수열을 진짜 잡을 수 있나? 이런 생각이 들기 마련이죠.

예를 들어,

$$
f(x) =
\begin{cases} 
x, & \text{if } x \in \mathbb{Q} \\ 
0, & \text{if } x \notin \mathbb{Q} 
\end{cases}
$$

를 고려해 봅시다. 그러면, 유리수에서나 무리수에서나 0으로 가기 때문에 0에서 continuous합니다. 그런데, 어떤 sequence  $\epsilon _k$도 continuous point들로만 이루어질 수는 없습니다.

 

그럼 Counter example이 있으니 $\epsilon_k$는 잡을 수 없는 걸까요? 그건 아닙니다.

 

추후 포스팅할 내용인데 CDF에서 continuous하지 않은 point는 at most countable입니다.(contradiction으로 보일 수 있습니다.)

즉, uncountable 개의 continuous point가 있다는 것이고 $Q(p)$ 기준으로 $\epsilon$ ball을 잡아서 sequence를 만들 수도 있겠습니다.

 

그러므로 continuous point들을 짚으면서 $Q(p)$로 수렴하는 수열을 생각할 수 있습니다.

 

자 이제 k 하나를 fix합시다.

$Q(p)$의 특성을 하나 고려합시다. $Q(p)$는 F에서 함숫값이 같은 상수 부분에서는 항상 왼쪽 끝의 값을 나타냅니다.

그런데 그러면 $p$에서 $Q(p)$가 불연속이 됩니다.

 

그러면 $Q(p)$는 상수인 부분에 있지 않다는 것이고, F는 nondecreasing이므로 $Q(p)$는 increasing하는 영역에 있습니다.

즉, $[Q(p)-\epsilon_k,Q(p)]$ and $[Q(p),Q(p)+\epsilon_k]$에서 F는 constant가 아닙니다.

 

둘 다를 고려해 보면 $F(Q(p)-\epsilon_k) < F(Q(p)) < F(Q(p)+\epsilon_k)$임을 알 수 있습니다.

 

$p$가 contnuity point 이기 때문에 $F(Q(p)) = p$이고, converge in distribution을 생각할 때 $Q(p)-\epsilon_k$과 $Q(p)+\epsilon_k$는 $F$의 continuity points입니다.

Convergence in distribution의 정의에 따라 $F$가 연속인 모든 점에서 $F_n$이 수렴합니다.

즉, For sufficiently large n, $F_n(Q(p)-\epsilon_k) < p < F_n(Q(p)+\epsilon_k)$도 성립합니다.

 

충분히 F와 가까운 n에서도 저 부등식이 성립한다는 의미입니다.

(실제로는 $\epsilon = F(Q(p)+\epsilon_k)- F(Q(p))$로 잡고 이를 만족하는 N을 잡으면 될 겁니다.)

 

그러면 $Q_n$의 정의와 F가 increasing이므로 다음이 성립합니다.

$Q(p)-\epsilon_k \leq Q_n(p) \leq Q(p)+ \epsilon_k \space \because p = F_n(Q_n(p))$

 

양변에 $n \rightarrow \infty$인 상황을 고려합시다.

 

그러면 $Q(p)-\epsilon_k \leq \liminf_{n \rightarrow \infty} Q_n(p) \leq  \limsup_{n \rightarrow \infty} Q_n(p)\leq Q(p)+ \epsilon_k$입니다.

 

다시 $k \rightarrow \infty$인 상황을 고려하면, $\liminf_{n \rightarrow \infty} Q_n(p) =  \limsup_{n \rightarrow \infty} Q_n(p) = Q(p)$

$\therefore Q_n(p) \rightarrow Q(p)$입니다.

 

(<=)

반대방향을 증명해 봅시다.

$Q(p)$는 at most countable개의 discontinuity points를 가지고 있습니다.

well known thm인 inversion sampling에 의하면 , when $U\sim U(0,1)$, $Q_n(U) \sim X_n, Q(U) \sim X$입니다.

확률적분변환이라고도 부릅니다.

 

그런데 $\forall \space \omega U(\omega)$가 discontinuity points에 속할 measure는 0이 됩니다. 왜냐하면 countable이기 때문이에요.

즉, $U(\omega)$가 continuity point에 속하면 $Q_n(U) \rightarrow Q(U)$가 됩니다.

 

$\therefore$ Since $P(U \in \mathcal{C}) = 1, P(U \in \mathcal{C^c}) = 0 $, $ Q_n(U) \rightarrow Q_n(U) a.s \space \because $Q is a continuous borel function.

 

$Q_n(U)$가 almost surely converge하므로 $Q_n(U)$가 convergence in distribution도 만족합니다.

 

a.s. convergence는 확률 공간이 달라서 서로 공유하지 않지만 (U는 [0,1]에서 generate했다고 합시다.), convergence in distribution에 관해서는 그 cdf 자체가 수렴하는 것이므로 같은 cdf를 공유하고 있기 때문에, $X_n \xrightarrow{d} X$라고 할 수 있겠습니다.

 

결론

$Q_n \rightarrow Q$와 $X_n \xrightarrow{d} X$는 동치였습니다.

 

중간중간 확률론의 내용이 나오는데 이참에 복습이 되니 참 좋네요.

요약하고 마무리하겠습니다.

 

(=>)

1. $\epsilon_k$ 잡기

2. $p$ 가 continuous point여서 $F$가 constant가 아님을 이용하여 부등식 세우기

3. 부등식 양변의 $F$를 convergence를 통해 $F_n$으로 바꾸기.

4. 중간 항 $F(Q(p))= F_n(Q_n(p))$임을 이용해서 바꾸고, 다시 $Q$와 $Q_n$의 부등식 세우기

5. limit 보내기

 

(<=)

1. 확률 적분 변환하기

2. 불연속점이 countable인걸 활용해서 a.s converge보이기

3. a.s converge하면 converge in distribution임을 사용하기

 

끗.