서론
누적분포함수(c.d.f)란 무엇일까요?
처음 배울 땐 이 개념이 참 막막했습니다. 누적분포함수를 확률밀도(or 질량)함수의 적분 정도로 생각했기 때문입니다.
이게 대체 뭐가 중요한건지, 왜 알아야하는건지 잘 몰랐습니다.
그런데 수리통계학을 공부하며 하나하나 알아가보니 생각보다는 쉬웠던 것 같습니다.
이번 시간에는 함께 누적분포함수의 정의와 성질을 알아보면서 이것이 무엇인지 알아가봅시다.
본 포스팅은 Statistical Inference(2rd, George Casella, Roger L. Berger) 및 수리통계학(2012, 김우철)의 내용을 참고하였습니다.
본론
본론에서는 누적분포함수를 cdf, 확률밀도함수를 pdf라고 하겠습니다.
확률밀도함수 pdf와 누적분포함수 cdf는 확률변수가 어떤 분포를 따르는지 나타냅니다.
pdf는 본 주제에서 깊게 다루지 않고 cdf에 대해서 다루어 보겠습니다.
먼저 cdf의 정의로 시작해보죠!
정의 1 CDF(Cumulative Distribution Function)
Generally, a function $F(x) = P(X \leq x) (-\infty \le x \le +\infty)$ called Cumulative Distribution Function of X.
아하! cdf는 그냥 Probability Measure P로 정의된 함수였군요! 확률변수 X가 어떤 실수 x보다 작을 확률이 F의 함숫값입니다.
딱 그정도입니다.
cdf는 Probability Measure로 정의되었기 때문에 확률 변수에 대해 항상 정의됩니다.
심지어 pdf가 정의되지 않더라도요!
아래는 pdf가 정의되지 않지만 cdf는 정의되는 특수한 경우입니다. (Cantor distribution)
https://en.wikipedia.org/wiki/Cantor_distribution
위의 Case에 대해서는 따로 포스팅을 올리겠습니다.
cdf에는 주목할만한 성질들이 있습니다. 만약 이 성질을 만족하지 않는다면 cdf라고 할 수 없습니다.
이 부분은 확률분포의 극한에서 중요하게 다뤄집니다.
예를 들어, n에 관한 function sequence인 cdf가 $n \rightarrow \infty$ 일 때 수렴했다고 해봅시다. 이 수렴한 함수가 cdf가 맞느냐! 체크할 때 다음의 성질들을 쓸 수 있습니다. cdf가 수렴했는데 cdf가 아닐 수도 있거든요.
정리 1 Properties of CDF
Let F be a Cumulative Distribution Function of r.v X.
Then, Following holds.
(a) (monotonically increasing) $x_1 < x_2 \rightarrow F(x_1) \leq F(x_2)$
(b) (total variation) $\displaystyle\lim_{x \rightarrow -\infty}{F(x) = 0}$, $\displaystyle\lim_{x \rightarrow +\infty}{F(x) = 1}$
(c) (right continuity) $\displaystyle\lim_{h \rightarrow 0+}{F(x+h)} = F(x)$
이게 무슨 말이여?
고등학교 수학을 배우며 자주 본 표현들이 눈에 띱니다. 좋은 성질들인 것 같은데요. 하나하나 살펴보죠!
1. (a)는 monotonically increasing입니다. 한국어로 하면 단조 증가성인데요. 계속해서 증가하기만 한다는 겁니다.
우리가 잘 아는 증가 함수들을 생각하면 $y = e^x$, $y=x$ 등의 함수들이 있겠죠?
그러나 Strictly increasing은 아닙니다! 이산 확률 분포의 cdf의 경우가 대표적 예시입니다.
위의 cdf는 확률 parameter p를 0.7로 가지는 Bernolli Distribution의 cdf입니다.(x축과 직각인 선은 나쁜 사람에게만 보입니다 ^^)
감소하지는 않지만 모든 점에서 증가하는건 아니죠? Strictly increasing은 아닙니다!
2. (b)는 total variation입니다. 총 변동이 0에서 1로 변하는게 끝이라는 의미입니다.
직관적으로는 당연합니다. $-\infty$ 보다 X가 작은 경우는 없으니까 확률은 0일테구요. $\infty$보다 X가 작은 경우는 모든 실수 값을 포함할테니 확률은 1일겁니다.
그러니까 cdf(t)라는 함수는 t값보다 X가 작은 사건들이 일어날 확률인데 그 t가 매우 작거나, 매우 큰 경우에 대한 논의입니다.
3. (c)는 right continuity입니다. 사실 이게 조금 까다로운 감이 있습니다. 왜 Left continuity는 아니지?
그건 cdf에 정의때문입니다. 위의 Bernoulli DIstribution의 cdf를 보죠.
X=0인 사건이 일어날 확률이 0.3, X=1인 사건이 일어날 확률이 0.7입니다. 이 때 cdf(t)함수에 대해 t=0부터 찬찬히 올려봅시다.
1) t=0일 때 cdf(t) = 0.3 이구요.
2) t=1 에서 cdf(t) = 1이 됩니다.
이 t라는 것은 증가하면서 어떤 사건들을 점점 포함하게 됩니다. 그 포함하는 집합이 커지기만 하죠. 이산확률변수에서는 그 집합이 커지다가 확률이 0보다 큰 사건을 만나면 함수가 점프를 뜁니다. 이 때 그 점(point)은 점프를 뛴 위치에 있습니다. t=1 에서 cdf(t) = 1인 것처럼요.
그러므로 step function의 형태를 띄게 됩니다. right continuous한 형태의 step function을 말이죠.
여기서 증명은 살짝 뒤로 미루고 연속확률변수(continuous random variable)과 이산확률변수(discrete random variable)에 대해 정의합시다.
정의 1 Definition of continuous r.v and discrete r.v(casella def1.5.7)
A random variable $X$ is continuous if $F_X (x)$ is a continuous function of $x$.
A random variable $X$ is discrete if $F_X (x)$ is a step function of $x$.
Continuous r.v의 정의는 CDF가 연속인 확률변수네요! 여기서는 right continuity 뿐 아니라 left continuity도 성립하겠습니다.
Discrete r.v는 CDF가 step function의 형태로 나타나야 하네요.
그럼 세상에 확률변수는 Continuous와 Discrete인 경우 밖에 없느냐. 그건 아닙니다.
continuous도 discrete도 아닌 random variable?
사실 이런 경우는 만들면 만들 때마다 나옵니다 ㅎ 아래 예시를 보시죠.
동전을 던져서 앞면이 나오면 0부터 1사이의 수를 보여주고 뒷면이 나오면 1을 보여주는 실험을 생각합시다.
그리고 그 실험에서 보게될 숫자를 X라고 놓읍시다.
그러면 cdf는 어떻게 될까요?
- 앞면이 나올 확률은 1/2. 0~1사이 중 x보다 작은 숫자를 볼 확률은 x가 됩니다. (Uniform dist)
- 뒷면이 나올 확률도 1/2. 우리는 1을 보게 되겠죠.
즉 cdf는 다음과 같이 나옵니다.
$F(x) = \begin{cases} 0, & \text{if } x < 0, \\ \frac{x}{2}, & \text{if } 0 \leq x < 1, \\ 1, & \text{if } x \geq 1. \end{cases}$
x = 1 직전까지는 continuous하다가 1에서 jump를 뛰는 양상을 보일겁니다. 아래는 그 그래프입니다.
Proof of Properties of CDF
CDF의 성질들에 대해 하나하나 증명해보겠습니다.
제 수리통계를 위한 해석학 분류에 포스팅한 measure에 관한 내용들을 보시면 더 쉽게 이해하실 수 있습니다.
(a)번 부터 시작하죠!
(a) monotonically increasing
$x_1 < x_2 \rightarrow F(x_1) \leq F(x_2)$
pf) 당연히 if $x_1 < x_2$ 일 때, 집합 $(X \leq x_1)$은 집합$(X \leq x_2)$의 부분집합입니다.
우리는 CDF를 measure의 함수로 정의했습니다.
그렇다면 우리는 $P(X \leq x_1) \leq P(X \leq x_2)$임을 보이면 됩니다.
이를 보이는 것은 다음의 제 포스팅 Step1을 참고해주시면 감사하겠습니다.
https://juhongyee.tistory.com/29
간단히 $(X \leq x_1) \subset (X \leq x_2)$이면 $(X \leq x_2)$를 덮는 제일 작은 cover도 $(X \leq x_1)$를 덮게 되기 때문에 measure는 더 작거나 같게 됩니다.
즉, $P(X \leq x_1) \leq P(X \leq x_2)$ 입니다.
$\therefore$ cdf is monotonically increasing.
(b) (total variance)
$\displaystyle\lim_{x \rightarrow -\infty}{F(x) = 0}$, $\displaystyle\lim_{x \rightarrow +\infty}{F(x) = 1}$
(개인적으로 김우철 수리통계만 봤다가 이해가 안되서 고생했습니다. 책에서 생략한 부분을 본 증명에는 추가했습니다.)
일단 알아야할 중요한 성질이 있습니다. 바로 확률측도의 연속성(continuity of probability measure)입니다.
증명은 따로 포스팅을 하는 걸로 하고 여기선 Statement만 알아봅시다.
정리2 확률측도의 연속성(continuity of probability measure, 수리통계학(김우철) p13.)
(a) $A_1 \subseteq A_2 \subseteq ... \subseteq A_n \subseteq ...$ 이면 $P(\displaystyle\bigcup_{n=1}^{\infty} A_n) = \displaystyle\lim_{n \rightarrow \infty} P(A_n)$
(b) $B_1 \supseteq B_2 \supseteq ... \supseteq B_n \supseteq ...$ 이면 $P(\displaystyle\bigcap_{n=1}^{\infty} B_n) = \displaystyle\lim_{n \rightarrow \infty} P(B_n)$
사건이 지속적으로 포함되는 관계가 있다면 그 측도의 극한을 합집합으로 구할 수 있다는 의미입니다.
증명의 아이디어가 집합론의 아이디어가 강해서 재밌으니 후에 다뤄봅시다.
이제 (b)를 본격적으로 증명해봅시다.
먼저 $\displaystyle\lim_{x \rightarrow +\infty}{F(x) = 1}$부터 증명합시다.
pf) F(x)는 (a)에서 증명했듯 increasing property가 있습니다. 그런데 F(x)는 결국 measure에 관한 함수이므로 upperbound를 1로 갖습니다.
즉, monotone convergence theorem에 의해 $x \rightarrow \infty$에서 극한을 가집니다.
$x \rightarrow \infty$ 일 때 극한을 가진다면 정의역을 자연수로 제한하여 $n \rightarrow \infty$으로 극한을 써도 수렴합니다.
(혹시 헷갈린다면 epsilon-delta method에서 delta보다 더 큰 N을 잡을 때를 생각해보세요!)
고로, $\displaystyle\lim_{n \rightarrow +\infty}{P(X \leq n)}$의 극한을 구하면 됩니다.
이를 위해 위의 정리인 Continuity of probability measure의 (a)를 활용합시다.
$A_n$을 $(X \leq n)$로 간주하면 $\displaystyle\lim_{n \rightarrow +\infty}{P(X \leq n)} = P(S) = 1$ 입니다.(S는 전체집합.)
$A_n$들을 모두 합집합하면 실수전체가 된다는 사실을 잘 생각하면 쉽게 이해할 수 있습니다.
대칭적으로 합집합을 교집합으로 변환하여 생각하면
$\displaystyle\lim_{n \rightarrow -\infty}{P(X \leq n)} = P(\emptyset) = 0$ 이어서
$\displaystyle\lim_{x \rightarrow -\infty}{F(x) = 0}$임도 쉽게 알 수 있겠습니다.
증명 끝.
이제 (c)번을 증명합시다.
(b)와 매우 흡사합니다.
$\displaystyle\lim_{h \rightarrow 0+}{F(x+h)} = F(x)$
pf) F는 measure에 관한 함수이므로 lowerbound를 0으로 가집니다. 또한 x가 증가할 때 F도 증가하므로(increasing) x가 감소할 때 F도 감소합니다.
즉, monotone convergence thm에 의해 수렴값을 가집니다. 이제 그 수렴값을 확인해봅시다.
(b)의 증명과 같은 방식으로 생각하면 $\displaystyle\lim_{n \rightarrow \infty}{F(x+\frac{1}{n})}$과 수렴값이 동일함을 알 수 있습니다.
By, continuity of probability measure,
$\displaystyle\lim_{n \rightarrow \infty}{P(X \leq x+\frac{1}{n})} = P(\displaystyle\bigcap_{n=1}^{\infty} (X \leq x+frac{1}{n}) = P(X \leq x)$
즉, $P(X \leq x)$로 수렴함을 알 수 있습니다. 이는 right continuity, 우연속이라는 뜻이죠.
!수렴값이 함숫값과 같습니다.
근데 왜 left continuity는 안됨? (좌연속은 왜 안되지?)
생각해볼만한 문제죠! 왜냐면 (b)번에서의 증명방식을 비슷하게 (c)를 증명했는데, left방향에서도 연속이 되어야 하는거 아닐까 라는 생각이 자연스럽게 들기 때문입니다.
사실, 항상 수렴값은 monotone convergence thm에 의해 존재하게 됩니다! 비슷한 방식으로요.
그런데 measure를 구하는 방식이 문제입니다.
포함관계가 커지는 사건 $(X \leq x-\frac{1}{n})$을 생각해봅시다.
그러면 (c) 증명과 같은 방식으로,
$\displaystyle\lim_{n \rightarrow \infty}{P(X \leq x-\frac{1}{n})} = P(\displaystyle\bigcup_{n=1}^{\infty} (X \leq x-\frac{1}{n})$ 를 생각할 수 있습니다.
그런데 $\displaystyle\bigcup_{n=1}^{\infty} (X \leq x-\frac{1}{n}$는 어떻게 해도 x를 포함하지 않습니다. 즉, $P(X<x)$로 수렴한다는 뜻입니다.
고로 함숫값인 $F(x)$로는 수렴하지 않으므로 항상 left continuous는 아니라고 할 수 있겠습니다.
그러나 함수가 continuous여서 $P(X<x) = P(X \leq x)$인 경우는 left continuous가 성립하겠습니다.
결론
cdf는 pdf보다 더 큰 개념으로 확률 자체를 나타내고 있습니다. measure로 정의되었기 때문이죠.
기억할 점은 누적분포함수 cdf가 3가지 중요한 성질을 가지고 있다는 것입니다. 그 성질을 증명하는 것은 measure와 유사한 관련이 있습니다. probability measure의 성질을 잘 이해한다면 이들을 쉽게 증명할 수 있었습니다.
나중에 확률변수의 수렴에서 right continuity등을 다시 만나실 수 있을 겁니다 ㅎㅎ
right continuity는 성립하지만 left continuity는 성립하지 않는다는 것도 우리가 확인했습니다. 헷갈리지 마시길!
개인적으로 책에서 증명이 생략된 부분이 있어 난항이었습니다. 여러분들은 이 포스팅에 도움을 받아 쉽게 해내시길 바라겠습니다.
'완벽히 이해하는 수리통계학' 카테고리의 다른 글
3 적분의, 기댓값의 Cauchy-Schwartz Inequality (feat. 나의 증명 + 직관) (0) | 2025.01.16 |
---|---|
1 확률이란? (feat. sample space, events) (0) | 2024.06.25 |
시작하는 글 (0) | 2024.06.23 |