확률론

확률론 기말 범위 정리 정리 1 + Strong Law of Large Numbers 증명

juhongyee 2025. 5. 22. 01:44
반응형

 

 

서론

확률론 과제를 해야 합니다.

큰일 났습니다. 증명이고 뭐고 다 건너뛰고 정리만 보겠습니다.

 

대신 각 정리와 lemma마다 직관적인 설명을 곁들이겠습니다. SLLN은 특별히 증명하겠습니다.

 

시작합시다.

(본 포스팅은 9개의 Theorem들과 5개의 Lemma 하나의 definition을 소개함으로 WLLN과 SLLN을 소개합니다.)

본론

Theorem1 - Kolmogorov's inequality theorem

Let $\{X_n\}$ be a seq of indep r.v.s. with $EX_n = 0, var(X_n) = \sigma_n^2 < \infty$

 

Then, $\displaystyle P(\max_{1 \leq j \leq n} |S_j| \geq \epsilon) \leq \sum_{j=1}^n \frac{\sigma_j^2}{\epsilon^2}$

 

where $S_n = X_1 + X_2 + ... + X_n$


해석해 봅시다.

$X_n$이 일단 independent 해야 하고요.(identical은 안해도 됩니다.)

기댓값이 존재해서 0, 분산이 finite 해야 합니다.

 

그러면 $S_i$는 i까지의 sum입니다. 여기에 max를 씌우면 뭐죠? 각 $\omega$에 대해 $|S_i (\omega)|$의 최댓값을 return하는 r.v.입니다.

 

예를 들어, $\omega = 1$일 때, 는 $|S_3|$에서 최대가 나올 수도 있고, $\omega = 0.5$일 때, 는 $|S_100|$에서 최대가 나올 수도 있는 겁니다.

 

이 분산의 확률이 RHS와 같이 분산과 $\epsilon$의 합으로 bound가 된다는 게 kolmogorov's inequality theorem입니다.

n=1 이면 Markov inequality랑 동등함도 생각해 볼 수 있겠네요.($EX_n = 0, var(X_n) = \sigma^2 < \infty$)

 

 

Theorem 2

Let $\{X_n\}$ be a seq of indep r.v.s. with $EX_n = 0, var(X_n) = \sigma_n^2 < \infty$

 

If $\displaystyle \sum_{j=1}^{\infty} \sigma_j^2 < \infty , \sum_{j=1}^{\infty} X_j$ converges a.s.


방금 증명해 보고 왔는데 상당히 까다롭습니다.

증명은 $\forall \epsilon$에 대해 $S_n$이 a.s. Cauchy임을 보이면 됩니다. 그렇다는 건 모든 $\epsilon$에 대해 적당한 M이 존재해서 M보다 큰 n, m에 관해서는 $|S_n-S_m| > \epsilon$일 확률이 0이 되면 됩니다. 이를 만족하는 $\omega$가 거의 없다는 거죠.

 

간단히 정리를 요약해 보면, 모든 분산의 합이 finite일 때, 확률변수의 합이 a.s. 수렴한다는 뜻입니다.

 

 

Theorem 3 - Etemadi's inequality

Assume that $\{X_n\}$ is a seq of indep r.v.s.

 

Then, for $\epsilon>0$, $\displaystyle P(\max_{1 \leq k \leq n} |S_k| \geq 3\epsilon) \leq 3\max_{1 \leq k \leq n} P(|S_k| \geq \epsilon)$


왜 3이냐 그건 그냥 증명하다 나온 것 같고, 여기서 포인트는 $\max$를 밖으로 빼낼 수 있다는 점입니다. 대신 3도 빠진다는 점입니다.

하나 더 빠지는 게 있는데 만약 부등호에서 등호가 빠지면 LHS,RHS 다 같이 빠집니다.

 

잠깐 외우는 시간 갖겠습니다.(디테일을 알려면 증명을 공부하는 게 좋습니다.)

 

Theorem4 - Levy's Theorem

If $S_n \xrightarrow{P} S$,then $S_n \rightarrow S \space a.s.$


와 급수는 확률수렴하면 almost surely 수렴합니다.

 

Etemadi's inequality를 활용해 증명하고, $S_n$을 cauchy로 만드는 $\omega$의 set을 measure하면 1임을 보입니다.

 

Lemma 1 for 3 Series theorem

Assume $\{X_n\}, n \geq 1$, are indep r.v.s with a finite variance.

If $E|X_n-EX_n| \leq A$ a.s. $\forall n \in \mathbb{N}.$

$\displaystyle \forall \epsilon >0, P(\max_{1 \leq j \leq n} |S_j| \leq \epsilon) \leq \frac{(4\epsilon+2A)^2}{var(S_n)}$


먼저 2개의 조건이 필요하네요. independent와 finite variance입니다.

그다음은 각 r.v.들과 각 평균들의 차이의 평균이 A보다 작다고 해봅시다. 평균적으로 A보다는 작게 차이 난다는 것이네요.

 

그러면 max에 대해 부등식을 세울 수 있습니다.

max가 $\epsilon$보다 작을 확률이 RHS로 bound됩니다.

 

Def equvalent

$\{X_n\} \& \{Y_n\}$ are (eventually) equivalent if $\sum_{n=1}^\infty P(X_n \ne Y_n) < \infty$


equivalent. 즉, 동등하다는 뜻은 두 Seq가 다를 확률의 sum이 finite하다는 뜻입니다.

이게 무슨 말일까요? n=1에서 생각해 보면 $P(X_1 \ne Y_1)$은 두 r.v.이 다른 $\omega$를 모아놓고 그 확률을 measure 한 겁니다. 그런데 n=1 $\to$ $\infty$까지 다 더했는데도 finite라는 건 흠. 엄청 작아진다는 거겠죠?

Borel-Cantelli's lemma가 생각나는 대목입니다.

 

By Borel - Cantelli's lemma1 , $P(X_n \ne Y_n \space i.o.) = 0$ iff $P(X_n = Y_n \space eventually) = 1$

이 사건이 일어날 확률이 sum이 finite라는 건,

결국 $X_n = Y_n$를 만족하게 되는 $\omega$들을 모아놓으면 그 measure가 1이 된다는 겁니다. n을 크게 가져가면 a.s. 같다는 거죠.

 

Theorem 5 - Three Series Theorem $\star \star \star$

Let $\{X_n\}$ be a seq of indep. r.v.s. For $A>0$, Set $Y_n = X_n I(|X_n| \leq A)$,

 

Then, $\sum X_n$ conv. a.s. if and only if

 

(a) $\displaystyle\sum_{n=1}^\infty P(|X_n| > A) < \infty$

 

(b) $\displaystyle\sum_{n=1}^\infty EY_n < \infty$

 

(c) $\displaystyle \sum_{n=1}^\infty var(Y_n) < \infty$


중요한 정리인 Three Series Theorem입니다.

아래 (a),(b),(c)가 만족하면 $\sum X_n$이 almost surely 수렴한다는 논증이 종종 나올 예정입니다.

 

Lemma2

Assume $\{X_n\} \sim \{Y_n\}$ and $a_n \to \infty \space (a_n >0)$.

Then,

1. $\frac{1}{a_n} \sum_{j=1}^n X_j \rightarrow Z \space a.s.$ if and only if $\frac{1}{a_n} \sum_{j=1}^n Y_j \rightarrow Z \space a.s.$

 

2. $\frac{1}{a_n} \sum_{j=1}^n X_j \xrightarrow{P} Z \space $ if and only if $\frac{1}{a_n} \sum_{j=1}^n Y_j \xrightarrow{P} Z \space$


$X_n(\omega)$과 $Y_n(\omega)$이 seq일 때 초반 몇 개만 다르고 쭉 같아집니다.

분모가 무한대로 갈 때 그 partial sum이 분자면 같은 $Z$로 almost surely수렴합니다.

in probability 수렴도 마찬가지입니다.

 

Lemma3 

$\sum_{n=1}^\infty P(|X| \geq n) \leq E|X| \leq \sum_{n=1}^\infty P(|X| \geq n)+1$


 

SLLN을 증명하는데 쓰입니다. 원래 $\int_{t=0}^\infty P(|X| \geq 0) = E|X|$임을 보인적이 있습니다. 그와 비슷한 맥락이라고 보시면 되겠습니다.

 

Theorem 6 Weak Law Large Numbers(WLLN) $\star \star \star$

$X_1, X_2, ...$ i.i.d with $EX_1 = \mu < \infty \Rightarrow \frac{\sum_{j=1}^n X_j}{n} \xrightarrow{P} \mu$


원래 수리통계에서 Markov inequality를 통해 증명할 때는, 분산이 finite라는 조건이 있었습니다. 그런데 여기에서는 분산 조건은 없고, 다만 평균 조건만 있습니다.

WLLN은 분산이 무한대여도 작동합니다.

그리고 원래 SLLN을 증명하면 따라 나오는 것이지만 같이 둡시다.

 

Theorem 7

Let $\{X_{n,k} : 1 \leq k \leq n\}, \space, n \geq 1,$ be an array of indep r.v.s and $\{b_n\}$ be a real seq s.t.  $b_n >0$ and $\displaystyle \lim_{n \rightarrow \infty} b_n = \infty$

 

Assume

(i) $\displaystyle \sum_{k=1}^{n} P(|X_{n,k}| > b_n) \rightarrow 0, \space n \rightarrow \infty$

(ii) $\displaystyle \sum_{k=1}^{n} E\bar{X}_{nk}^2 \rightarrow 0, \space n \rightarrow \infty$

where $\bar{X}_{nk} = X_{nk} I(|X_{nk}| \leq b_n)$

 

Then, If $\displaystyle S_n = X_{n1}+X_{n2}+...+X_{nn} \space \& \space a_n = \sum_{k=1}^n EX_{nk}$

$\frac{S_n-a_n}{b_n} \xrightarrow{P} 0$


이 정리는 그림으로 확인할 필요가 있습니다.

 

\[
\begin{aligned}
X_{11} \\
X_{12} \quad X_{22} \\
X_{13} \quad X_{23} \quad X_{33} \\
X_{14} \quad X_{24} \quad X_{34} \quad X_{44}
\end{aligned}
\]

 

각 row마다 indep하고 column들간은 연관이 없습니다.

n을 시간축이라고 봤을 때 과거와 미래에 대해서는 생각하지 말자는 의미로 받아들여도 됩니다.

i.i.d가 아니라 independent만 있습니다!

 

가정을 확인합시다.

시간이 지날수록 $b_n$이라는 bound도 tight해지고 오랜 시간이 지난 후 $b_n$보다 큰 확률을 모두 더 하면 0입니다.

두 번째는 뭐...bound 안쪽의 값을 제곱해서 평균내면 오랜 시간 후에 bound의 제곱보다 작아진다 정도로 생각해 볼 수 있겠네요.

 

구조적인 느낌입니다.

 

이 가정이 만족하면 $S_n$과 그 평균 $a_n$의 차가 $b_n$에 bound된다. 즉 $o(b_n)$이라는 것이네요.

$S_n$과 그 평균의 차를 논하기 위한 If 조건입니다.

 

증명은 무슨 느낌이냐면 식을 전개하다가, 아...이 조건 있으면 좋겠는데 해서 조건 붙인 느낌으로 전개합니다.

쉬워용

 

Lemma4

If $Y \geq 0 \space \& \space P>0$

$EY^p = \int_0^\infty py^{p-1} P(Y>y) dy$


방금 증명해 봤는데 Fubini theorem으로 보일 수 있네요. 제 노트엔 증명을 안 적어놔서 더 쉬운 방법이 있을 수도 있겠습니다.

간단하기 $Y^p$를 적분의 형태로 쓰고 expectation 씌운 다음에 서로 적분 바꿔주면 됩니다.

 

Theorem 8

If $\{X_n\}$ is a seq of i.i.d r.v.s., satisfying $xP(|X_1|>x) \rightarrow 0, \space x \rightarrow \infty$

 

Then, If $\mu_n = EX_1 I(|X_1| \leq n), \space \frac{S_n}{n} - \mu_n \xrightarrow{P} 0.$


Trancated r.v.의 꼴이 많이 나오고 있습니다. 

본 정리는 Trancated 평균들과 $\bar{X}$가 in probability 같아진다는 의미입니다.

 

Lemma5 - Kronecker's lemma

Assume $\{X_n\}$ is a real seq and $\{a_n\}$ is a positive real seq diverging to $\infty$ monotonically.

if $\sum \frac{X_n}{a_n}$ conv, $\frac{\sum_{j=1}^n X_j}{a_n} = \frac{S_n}{a_n} \rightarrow 0$


먼저 positive이면서 monotonically diverging 한다는 말은 $0 < a_n \leq a_{n+1} \nearrow \infty$ 와 같이 쓸 수 있습니다.

모두 양수고 항상 같거나 커지면서 발산을 하게 되는 형상입니다.

 

예시를 들어볼까요? 어떤 seq of r.v.s. $X_n$이 $0<X_n<1$을 만족한다고 합시다. $a_n$은 $n^2$으로 잡죠. 그러면 $\frac{X_n}{n^2}$는 수렴합니다. $\frac{1}{n^2}$으로 comparison test를 하면 됩니다.

이렇다면 $\frac{S_n}{n^2}$는 어떨까요? 아무리 해도 $\frac{n}{n^2}$을 넘을 수가 없습니다. Squeeze theorem에 의해 $\frac{1}{n}$이 수렴하니 $\frac{S_n}{n^2}$도 수렴합니다.

 

증명도 매우 쉽습니다.

 

Theorem 9 - Strong Law of Large Numbers $\star \star \star$

Let $\{X_n\}$ be i.i.d. r.v.s. with $EX_1 = \mu \in \mathbb{R}, E|X| < \infty$

$$\frac{X_1+X_2+...+X_n}{n} \rightarrow \mu \space a.s.$$


드디어, SLLN입니다. (과제를 할 수 있게 되었습니다.)

통계학과 확률론에서 매우매우매우 중요한 역할을 하는 정리입니다.

우리는 지금까지 표본평균이 in probability 수렴하는 줄만 알았는데 더 강한 almost surely 수렴한다는 정리입니다.

$X_n$들이 indep하면 eventually $\bar{x} = \mu$가 되는 event의 확률은 1입니다.

 

동전 던지기로 생각하면 $\omega = (\omega_1,\omega_2,...)$인 prob space에서 indep $X_n$들을 생각하는 거죠.

$X_1$은 $\omega$에 대해 첫 번째 원소가 Head이면 1, Tail이면 0을 반환하는 r.v.입니다.

이런 식으로 무한한 $\omega$가 이미 있고 거기에 대해 관측하는 r.v. 를 정의해서 더하고 $n$으로 나누면 이 경우엔 앞면이 나올 확률 $p$가 나옵니다.


증명합시다.

Pf)

$Y_n = X_n I(|X_n| \leq n)$을 정의합시다. truncated 해주는 거죠. 왜 하냐면 위에 설명한 equivalent를 사용할 수 있으니까!

그러면,

$\sum_{n=1}^{\infty} var(\frac{Y_n}{n})$은 진짜 variance 기본 공식으로 $\sum_{n=1}^{\infty} E\frac{Y_n^2}{n^2}$보다 작습니다.

$\sum_{n=1}^{\infty} E\frac{Y_n^2}{n^2} = \sum_{n=1}^{\infty} \frac{1}{n^2} \int_{|X| \leq n} x^2 dF(x)$입니다.

x는 F(x)를 따른다고 하구요. 적분은 $Y_n$이 truncated r.v.이기 때문에 그 범위에 맞게 써준 겁니다.

 

그럼 여기서 어떻게 해야 할지 모르겠으니까 범위를 나눠봅시다. $(0,1],(1,2],...$, 이렇게 적분 범위를 나눠줄 겁니다.

그러면 위의 식은 $\sum_{n=1}^{\infty} \frac{1}{n^2} \sum_{j=1}^{n} \int_{j-1<|X| \leq j} x^2 dF(x)$이 됩니다.

 

그다음은 두 $\sum$을 바꿔줄 건데 걸리는 게 $\frac{1}{n^2}$거든요? 일단 바꿔놓고 생각합시다.

$\sum_{j=1}^{\infty}\sum_{n=j}^{\infty}  \frac{1}{n^2} \int_{j-1<|X| \leq j} x^2 dF(x)$

 

아래와 같은 식으로 바꾼 건데 행을 n, 열을 j라고 보면 원래는 행을 기준으로 쭉 더한 걸 열을 기준으로 더하게 되었다고 생각하면 됩니다. 아래처럼요. 이제 열마다 아래로 쭉 더하니까 n에 대해 j부터 무한대까지 더하면 됩니다.

\[
\begin{array}{llll}
(1,1) \\
(2,1) & (2,2) \\
(3,1) & (3,2) & (3,3) \\
(4,1) & (4,2) & (4,3) & (4,4)
\end{array}
\]

 

그러면 이 $\sum_{n=j}^{\infty} \frac{1}{n^2}$를 처리할 수 있는데. 저는 적분으로 생각했습니다. 급수의 적분판정법의 아이디어를 빌려오면, $\sum_{n=j}^{\infty} \frac{1}{n^2} \geq \int_{j}^{\infty} \frac{1}{x^2} dx$입니다. 우리는 급수가 수렴함을 알고 있으니 아래 적분에 어떤 constants $C$를 곱해주면 즉, 계산하면 $\frac{C}{j}$가 됩니다.

저는 적당히 C를 같게 둘 수 있다고 하는데, 일단 조금 더 크게 둡시다.

 

그러면 다음과 같이 됩니다.

$\leq \sum_{j=1}^{\infty}\sum_{n=j}^{\infty}  \frac{C}{j} \int_{j-1<|X| \leq j} x^2 dF(x)$

 

여기서 적분범위를 보면 x가 j보다 작으므로,

$\leq \sum_{j=1}^{\infty}\sum_{n=j}^{\infty}  \frac{C}{j} \int_{j-1<|X| \leq j} jx dF(x)$

가 되고

$j$를 지워준다음 다시 적분 범위를 $j$를 따라 통합해 주면

 

$= C \int |x| dF(x)$가 됩니다.

 

우리는 적분가능성을 가정하고 시작했기 때문에 $\sum_{n=1}^{\infty} var(\frac{Y_n}{n}) \leq C \int |x| dF(x) < \infty$가 됩니다.

 

와 이제 $\frac{Y_n}{n}$의 분산의 합이 finite하다는 사실을 알았습니다. 그러면 $var(\frac{Y_n-EY_n}{n})$의 합도 finite하구요.

Theorem 2에 따라 $\sum_{n=1}^{\infty} \frac{Y_n-EY_n}{n}$이 almost surely converge하게 됩니다.

 

그렇다면 kronecker's lemma에 의해, $\sum_{j=1}^{n} \frac{Y_j-EY_j}{n} \xrightarrow{n \rightarrow \infty} 0$이 성립합니다.

 

자 $\sum_{j=1}^{n} \frac{Y_j-EY_j}{n} = \sum_{j=1}^{n} \frac{Y_j}{n} - \sum_{j=1}^{n} \frac{EY_j}{n}$이 0으로 수렴한다는 것이고 $\sum_{j=1}^{n} \frac{EY_j}{n} \xrightarrow{j \to \infty} \mu$이므로(By, Bounded Convergence Theorem) $\sum_{j=1}^{n} \frac{Y_j}{n}$이 $\mu$로 수렴한다는 사실을 알 수 있겠네요.

(이거 보일 때 어떤 수열에 대해 그 수열의 산술평균이 수렴하는 값과 수열의 수렴 값이 같다는 사실은 인지를 해야합니다.)

 

자 이제 truncate한 걸 돌려봅시다.

$P(X_n \ne Y_n)$식을 생각해 봅시다. $Y_n$은 $(|X_n| \geq n$ 범위 내에서는 $X_n$과 같습니다. 그런데 다르다는 것은 $P(|X_n| >n)$임을 의미하는 것입니다.

 

$P(X_n \ne Y_n)  = P(|X_n| >n)$

 

다 더해줍시다. 그럼 $X_n$은 indep r.v.s.니까

$\sum P(X_n \ne Y_n)  = \sum P(|X_n| >n) = \sum P(|X_1| >n)$ 입니다.

 

Lemma3에 따라 $\sum P(|X_1| >n) \leq E|X_1| < \infty$입니다. 우리가 처음에 $E|X_1| < \infty$를 가정했기 때문입니다. 평균으로 수렴시킬건데 평균이 무한대면 안되겠죠.

 

그러면 즉, $\sum P(X_n \ne Y_n) < \infty$임을 증명했기 때문에 $\{X_n\} \sim \{Y_n\}$(equivalent)임을 보였습니다.

 

그러므로, $X_n$과 $Y_n$은 eventually 같게 되고, Lemma2를 적용할 수 있습니다.

$\displaystyle \therefore \sum_{j=1}^{n} \frac{X_j}{n} \rightarrow \mu \space a.s.$

 


 

결론

SLLN 증명은 짧아서 그냥 했는데 역시 설명하면서 쓰니까 길어지네요.

위의 정리들을 통하면 WLLN과 SLLN을 증명할 수 있습니다.

 

원래 SLLN만 증명하면 WLLN이 따라오지만, 이를 증명하는 과정에서 많은 아이디어를 얻을 수 있었다는 부분에서 의의가 있습니다.

 

수십 혹은 백수십 년 전 수학자들에게는 이들 각각이 난제였을 겁니다. 그러나 우리는 이렇게 엄청 어렵지는 않게 이를 배울 수 있음에 감사하고 저도 새로운 연구를 후대에 남기고 싶다는 생각이 듭니다.

 

끗!