이번 첫 챕터에서는 survival data수집 과정에서 가장 흔하게 발견되는 censoring과 censored data의 특징에 대해 소개하고 다룰 것이다. 구체적으로 censoring의 종류는 무엇인지, 또 이런 censoring이 있을 때 Survival function을 어떻게 구하는지를 다룰 것이다. 이 내용들을 이해하기 위해서는 기본적인 학부 수준의 survival analysis의 지식과 이해가 필요하다.



우리는 이 챕터 전반에서 아래 Remark에 있는 notation을 사용할 것이다.

Remark (mathematical model for right-censored data)

We have random variables

\[\begin{eqnarray*} X_1\ldots, X_n&\stackrel{\text{iid}}{\sim}&F;\\ Y_1\ldots, Y_n&\stackrel{\text{iid}}{\sim}&G. \end{eqnarray*}\] We assume that \(X_i\) is independent of \(Y_i\). Let \(Z_i=\min\{X_i,Y_i\}\), \(\delta_i=I(X_i\le Y_i).\) For each \(i\), we observe only \((Z_i,\delta_i)\).



Remark (the self-consistency approach to estimating \(S\))

Let \(t>0\). Begin with the naive estimator \[ N(t)= \frac{1}{n}\sum_{i=1}^n I(Z_i>t). \] Now, each of the censored observations to the left of \(t\) potentially could have been greater than \(t\).

Suppose \(Z_i<t\) and \(\delta_i=0\).

We estimate the probability that the \(X\) corresponding to \(Z_i\) was greater than \(t\) by \(\frac{N(t)}{N(Z_i)}\)

back