The general non-sqeuqntial decision theory consists of three basic elements;
parameter space : A nonempty set \(\Theta\), possible states of nature,
actions : A nonempty set \(A\) available to statisticians,
loss function : \(L(\theta,a)\), mapping from \(\Theta\times A\) to \(\mathbb{R}\).
Consider a function \(\delta:\mathcal{X}\rightarrow\Theta\). If \(X=x\) is observed, and \(\theta\) is the true parameter, the loss incurred is \(L(\theta, \delta(x))\). Note that \(L(\theta, \delta(X))\) is a random variable. The average loss or risk is given by \[ R(\theta, \delta)= E_\theta [L(\theta, \delta(X))]=\int L(\theta, \delta(x))f_\theta(x)dx \mbox{ or } \sum L(\theta, \delta(x))f_\theta(x). \]
The fundamental problem of decision theory is to choose the best decision rule that has the smallest risk uniformly for all \(\theta\in \Theta\). But, such a decision rule usually does not exist.
Example : Let \(X_1,\ldots, X_{16} \stackrel{\text{iid}}{\sim}N(\theta, 1)\). Point estimate of \(\theta\)?
Let \(L(\theta, a)=(\theta-a)^2\).
suggested : \(\delta_1(X)=\frac{1}{16}=\bar{X}\), \(\delta_2(X)=0\).
\(\implies\) \(R(\theta,\delta_1)=\frac{1}{16}\), \(R(\theta,\delta_2)= \theta^2\). 비교가 불가능하다.
Best Decision Rule을 구하기 위해 Smallest risk를 구하고 싶지만 항상 존재하지 않는다. 이에 보완책으로 두가지 방법을 사용한다.
아래 두 정의는 Bayes principle에 대한 설명
The Bayes risk of a decision rule \(\delta\) w.r.t a prior distribution \(\xi\) denoted by \(r(\xi,\delta)\) is defined by \[ r(\xi,\delta)=E[R(\omega,\delta)], \] where \(\omega\) is a random variable assuming values \(\theta\in \Theta\) with a distribution \(\xi\).
A decision rule \(\delta_\xi\) is Bayes w.r.t a prior distribution \(\xi\) if \[ r(\xi, \delta_\xi)=\inf_{\delta\in D}r(\xi,\delta). \]
A decision rule \(\delta_\xi\) is -Bayes w.r.t a prior distribution \(\xi\) if for \(\epsilon > 0\), \[ r(\xi, \delta_\xi)\le\inf_{\delta\in D}r(\xi,\delta)+\epsilon. \]
아래부터는 Minimax
A decision rule \(\delta_1\) is preferred to a decision rule \(\delta_2\) if \[ \sup_\theta R(\theta, \delta_1) <\sup_\theta R(\theta, \delta_2) \]
Minimax principle은 여러 액션들 중 worst인 경우의 Risk가 더 작은 Action을 선택한다는 것이다.
Minimax principle은 ordering과 관련이 있다. 즉 worst인 경우의 Risk가 작은 순서대로 action에 order를 줄 수 있다.
A decision rule \(\delta_D\) is Minimax if \[ \sup_{\theta\in\Theta} R(\theta, \delta_D) = \inf_{\delta\in D} \sup_{\theta\in\Theta} R(\theta, \delta). \] * Minimax는 모든 액션 \(\delta\in D\)중 worst인 경우의 Risk가 가장 작은 Action이다.
A decision rule \(\delta_D\) is \(\epsilon\)-Minimax if for \(\epsilon > 0\), \[ \sup_{\theta\in\Theta} R(\theta, \delta_D) \le \inf_{\delta\in D} \sup_{\theta\in\Theta} R(\theta, \delta)+\epsilon. \]
Suppose \(D\) is the space of all non-randomized decision rules. We extend \(D\) to \(D^*\) which is the space of all probability distributions over \(D\), e.g., suppose \(D=\{\delta_1.\delta_2,\delta_3,\delta_4\}\). A typical element of \(D^*\) is a probability distribution \(\delta^*\) such that \(\delta^*\) assigns probability \(\zeta_i\) to \(\delta_i\), \(\zeta_i\ge 0\), \(i=1,2,3,4\), \(\sum_i \zeta_i =1\).
In general, we write the risk function corresponding to \(\delta^*\) as \[ R(\theta,\delta^*)= E[R(\theta,Y)], \] where \(Y\) is a random variable assuming values in \(D\) with distribution given by \(\delta^*\).
통계학자들은 true nature \(\theta\)에 대해, 주어진 data인 \(X=x\)를 가지고 추정을 한다. 이를 Action이라고 명명하고 \(\delta(x)\)를 action이라 하자.
하지만 당연히 \(\theta\)와 \(\delta(x)\) 사이에 차이값이 존재하고 이를 Loss라고 하며 \(L(\theta,\delta(x))\)라 한다.
이 때 통계학자들의 목적은 이 Loss를 가장 적게 갖는 action \(\delta\)를 구하는 것이 목적이며 이는 \(E_\theta(L(\theta,\delta(X)))=R(\theta,\delta)\)를 최소로 만들어주는 \(\delta\)를 구하는 문제로 바뀐다.
하지만 이 \(\delta\)를 항상 구할 수 있는 것이 아니고 minimum 또는 infimum을 구할 수 없을 때가 존재한다. 때문에 이에 두가지 방법이 사용된다.
\(\theta\)의 분포를 알고 있는 경우(prior) \(E[R(\theta,\delta)]\)가 최소값을 갖게하는 \(\delta\)를 선택(Bayes Principle),
Worst Case 에서 가장 risk를 최소로 주는 \(\delta\)를 선택(Minimax).