지금까지 챕터 1에서는 Kaplan Meier estimator에 대해 배웠고, 어떻게 Survival probability \(S(t)\)를 추정하는지 배웠다. 또한 그를 통해 어떻게 cumulative hazard function \(A(t)\)를 추정하는지, 또 그 둘의 one to one 관계에 대해 배웠다. 하지만 Kaplan Meier estimator를 통해 추정한 \(S(t)\)는 nonparametric estimator임을 명심하자. 때문에 이전 챕터에서 우리는 Greenwood’s formula를 통해 \(S(t)\)의 pointwise한 confidence interval을 추정했다. 이에 확장하여 앞으로의 우리의 목표는 CLT를 통해 \(S(t)\)의 global confidence band를 추정하는 것이다. 이번 챕터부터는 그 전에 배웠던 Probability Theory와 Measure Theory 부분이 많이 이용되니 그 부분에 대한 확실한 예습이 필요하다.
매우 중요하다
Let \((\Omega, \mathcal{F}, P)\) be a probability space, and let \(\mathcal{T}\subset \mathbb{R}\) be an interval of the form \([0,\tau)\) or \([0,\tau]\). A filtration is a family \(\{\mathcal{F}_t, t\in \mathcal{T}\}\) of sub-\(\sigma\)-fileds of \(\mathcal{F}\) that is:
Note that a stochastic process \(U(\cdot)\) is adapted to the filtration if for each \(t\), \(U(t)\in \mathcal{F}_t\).
Filtration에서의 \(\mathcal{F}_t\)은 “all information available at time \(t\)”의 의미이다.
For example, \(\mathcal{F}_t\) is the \(\sigma\)-field generated by the process up to time \(t\): for any \(s<t\), consider \(N_s(\cdot)\), and \(\{\omega|N_s(\omega)\in B\}\) for all \(B\), a Borel subset of \(\mathbb{R}\). 즉 \(\mathcal{F}_t\)는 \(t\)시점까지(쉽게 \(t\)시점에서 불과 0.01초 직전까지 ,e.g. \(s=t-\))의 모든 정보를 의미한다.
예를 들어 regression에서 \(\mathcal{F}_0\)는 covariate information at the start of the study이고, \(\mathcal{F}_t\)는 join of \(\mathcal{F}_0\) and the \(\sigma\)-field generated by the process up to time \(t\)라고 생각할 수 있다.
increasing의 의미는 쉽게 해석하자면 \(s<t\)에 대해 \(t\)시점에서는 그 모든 전 시점 \(s<t\)에 대한 정보를 갖고 있지만, \(s\)시점에서는 \(t\)시점의 정보를 모른다는 의미로 해석할 수 있다.
right continuity는 \(s<t\)에 대해 increasing property에 의해 당연히 \(\mathcal{F}_s\subset \cap_{t>s}\mathcal{F}_t\)이기 때문에 \(\mathcal{F}_s \supset \cap_{t>s}\mathcal{F}_t\)을 의미한다. 이는 \(s=t-\)라고 한다면 즉 there is no information “just after” time \(t-\)의 의미이다.
Complete의 의미는 \(\mathcal{F}\)의 원소인 \(B\)에 대해 \(P(B)=0\), i.e., set \(B\)의 probability measure가 0이면, \(B\)에 대한 모든 subset들은 trivial \(\sigma\)-filed인 \(\mathcal{F}_0\)의 원소라는 의미이다. 이는 즉, probability가 0인 event들에게선 우리는 아무런 정보를 얻을 수 없다는 의미이다.
A stochastic process \(U(\cdot)\)에 대해, \(U(t)\in\mathcal{F}_t\)의 의미는, for any Borel subset \(B\in \mathbb{R}\)에 대해 \(U(t)\) is a random variable such that \[ \{U(t)^{(\omega)}\in B\}\in \mathcal{F}_t, \mbox{ }\mbox{ }\mbox{ where } \mbox{ }\mbox{ }U_t:\Omega\rightarrow \mathbb{R} \] 의 의미이다.
Given a filtration \(\{\mathcal{F}_t,t\in \mathcal{T}\}\), a multivariate counting process \(N=(N_1,\ldots,N_k)\) is a vector of stochastic processes that
are adapted,
are 0 at time 0,
are continuous from the right
are nondecreasing,
have jumps of size +1 only,
are such that no two processes jupt at the same time.
We suppose that each process is almost surely finite for all \(t\in \mathcal{T}\).
Note that \(N_t\stackrel{\text{let}}=N(t)\) is the random variable of stochastic process where \(N_t:\Omega\rightarrow \mathbb{R}\)이다.
adapted 의 의미는 adapted to the filtration의 의미로, for all Borel subset \(B \in \mathbb{R}\) \[ \{N_t\in B\}\in \mathbb{F}_t \] 이다, i.e., at time \(t\), we need to be able to dethermine whether this occured or not.
\(N=(N_1,\ldots,N_k)\)에서 \(k\)는 sample number를 의미한다. 후에 \(k\)-sample problem을 다룰 것이다.
The Poisson process. Let \(\mathcal{F}_t\) be the \(\sigma\)-filed generated by the process up to time \(t\).
Let \(X\) be a positive random variable, and let \(N(t)=I(X\le t)\), \(t\in [0,\infty)\). Let \(\mathcal{F}_t\) be the \(\sigma\)-field generated by the process up to time \(t\). Then, \(N\) is a one-dimensional counting process which has exactly one jump.
Consider the situation of random right censoring, with \(n=1\). Let \(N(t)=I(Z\le t, \delta=1)\), \(t\in [0,\infty)\). Again, let \(\mathcal{F}_t\) be the \(\sigma\)-field generated by the process up to time \(t\). Then, \(N\) is a one-dimensional counting process which has at most one jump (즉, 만약 relapsed된 경우라면, one jump가 있고, censoring된 경우라면 jump가 없는 경우이다).