Bayes-Lec1 经典统计推断回顾

Review of Classical Statistics

Posted by Watthu on September 14, 2022

概率及其解释

概率的公理化定义

概率起源于Fermat和Pascal研究赌博中的机会而发展起来的概率理论,是研究随机性的学科。Kolmogorov(1933)奠定了严格的数学公理化基础。


记 $\Omega$ 为一个随机试验的样本空间,则一个概率测度 $\mathbb P$ 为满足以下条件的函数:

  1. 对任意事件 $A\in\Omega$,$\mathbb P(A)\geq0$;
  2. $\mathbb P(\Omega)=1$;
  3. $\displaystyle\mathbb P\bigg(\bigcup_{j\in J}A_j\bigg)=\sum_{j\in J}\mathbb P(A_j)$,其中 ${A_j:j\in J}$ 为不相容事件的可数集。

这个公理化定义仅仅为纯粹的数学定理,并没有提供关于概率的一个实用解释。

概率的解释方式

  • 古典解释:起源于Jacob Bernoulli(1713)的想法,Laplace(1814)考虑了不充分推理原则,提供了一种赋予认知和主观概率的方式。


    (不充分推理原则) If we are ignorant of the ways an event can occur (and therefore have no reason to believe that one way will occur preferentially compared to another), the event will occur equally likely in any way.


    因此概率是感兴趣结果个数与所有可能结果个数之比(古典概型)。

  • 逻辑解释:一个命题 $H$ 在给定证据 $E$ 下的概率被解释为 $E$ 在逻辑上蕴含 $H$ 的程度。逻辑概率仅仅依赖于两个命题之间的逻辑蕴含关系,例如,“恐龙灭绝 $(H)$ 可能是由于陨星撞击地球 $(E)$ 导致的”,则 $H$ 由 $E$ 所支持的程度就是 $H$ 给定 $E$ 的逻辑概率。
  • 频率解释:给定一个可重复的试验,一个事件的概率是其发生的频率在实验次数趋于无穷时的极限。
  • 倾向性解释:概率是单个物体或者整个系统的一种本质的属性,代表了物理系统具有某种倾向。例如,硬币被抛后有朝上或朝下的倾向。
  • 主观概率:概率是理性主体对事件信念的强度,理性主体的信念在逻辑上是一致的主体。Cox(1946)提出了一致性推理所需要的逻辑条件:
    • 不同命题真实性的相对信念是可传递的:如果 $A\succeq B$,$B\succeq C$,那么 $A\succeq C$。
    • 如果指定了相信事件 $A$ 为真的信念强度,那么暗含指定了相信事件 $A$ 为假的信念强度。
    • 如果指定了相信事件 $A$ 为真的信念强度,以及在给定 $A$ 为真条件下,相信事件 $B$ 为真的信念强度,那么暗含相信事件 $A$ 和 $B$ 都为真的信念强度。

下表总结了几种概率的解释。(来自Wikipedia

  Classical Frequentist Subjective Propensity
Main hypothesis Principle of indifference Frequency of occurrence Degree of belief Degree of causal connection
Conceptual basis Hypothetical symmetry Past data and reference class Knowledge and intuition Present state of system
Conceptual approach Conjectural Empirical Subjective Metaphysical
Single case possible Yes No Yes Yes
Precise Yes No No Yes
Problems Ambiguity in principle of indifference Circular definition Reference class problem Disputed concept

上述解释都存在一定的局限性,比如古典解释不能应用于无穷维和连续样本空间的情形;逻辑解释缺乏实施措施,是一种形式语言;频率解释对不可重复的试验无意义;倾向性解释仅仅表明了概率是一种倾向;主观解释依赖理性人。

统计推断

古典(频率)推断

古典推断依赖于概率的频率解释,它基于似然函数 $L(\theta\mid x)=f(x\mid\theta)$,推断过程基于渐近性能:

  • 定义估计量 $t=t(X)$,
  • $\theta=\theta_0$ 的合理性由似然(密度)来度量
    $L(\theta_0\mid x)\propto f(t(x)\mid\theta_0).$

    (假设 $t(\cdot)$ 是充分统计量)

  • 如果 $t$ 不在 $f(t\mid\theta_0)$ 的尾部,则 $\theta_0$ 是 $\theta$ 的一个合理值。

古典点估计基于选择(矩估计、最大似然估计等等)有良好的渐近性质,如:无偏性、方差最小、效率等。

古典区间估计被定义为对指定的 $\alpha$,满足

$\mathbb P(l(X)<\theta<u(X)\mid\theta)=1-\alpha$

的区间 $(l(X),u(X))$。

古典假设检验则基于

$\mathbb P(t(X)>t(x)\mid\theta_0)<\alpha$

在水平 $\alpha$ 下拒绝 $\theta_0$。


古典推断合理性的原则:

  • 充分性原则:如果一个充分统计量 $t$ 存在,且对两个同样大小的样本 $x_1,x_2$ 满足 $t(x_1)=t(x_2)$ 时,则给定 $x_1$ 和 $x_2$ 下的结论是相同的。


    (充分统计量) 一个统计量 $t=t(x)$ 称为是 $\theta$ 的充分统计量,如果 $f(x\mid t)$ 与$\theta$ 无关。


    从定义出发寻找充分统计量不甚方便,因子分解定理给出了简便方法。


    (因子分解定理) 一个统计量 $t$ 是 $\theta$ 的充分统计量当且仅当存在函数 $g$ 和 $h$ 使得

    $f(x\mid\theta)=g(t,\theta)h(x).$

  • 重复抽样原则:从样本 $x$ 中得出的推断应该基于结论如何随着抽样样本变化而改变的分析基础上,这可以通过对产生样本 $x$ 的试验在完全相同条件下假设重复而得到。


古典推断的批评:

  • 整体批评:概率的频率定义限制了可以被合理分析的问题范围。
  • 特定批评:对于估计存在诸多问题,选择一个估计量的最优方法一般不存在。
    • 设 $X\sim P(\lambda)$,则 $\phi={\rm e}^{-2\lambda}$ 的无偏估计存在且为 $\hat{\phi}=(-1)^X=\pm 1$,然而 $0<\phi\leq1$。
    • 柯西分布位置参数 $\theta$ 不存在矩估计量。
    • 设 $X\sim U(1,\theta)$,则样本量为 $1$ 时 $\theta$ 的最大似然估计为 $\hat{\theta}=X$,其偏差 $\mathbb E(X)-\theta=(1-\theta)/2$,那么当 $\theta$ 较大时偏差程度可以很大。此外,对这一问题,不管样本量多大,最大似然估计都不是无偏估计。
    • 设 $Y\sim N(\theta,\sigma^2I_n)$,则 $\theta$ 的最大似然估计(最小二乘估计)为 $\hat{\theta}=Y$,但当 $n\geq3$ 时,它是不可容许的,因为James-Stein估计量 $\dfrac{1-(n-2)\sigma^2}{|Y|^2}Y$ 的均方误差更小。
    • 存在多余参数时常出问题。设 $Y_{ij}\sim N(\phi_i,\sigma^2)$, $i=1,\dots,n$, $j=1,2$,感兴趣的参数为 $\sigma^2$, $\phi=(\phi_1,\dots,\phi_n)$ 为多余参数。似然函数为

      $\displaystyle L(\sigma^2,\phi\mid y)=\sigma^{-2n}\exp\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n\big[(y_{i1}-\phi_i)^2+(y_{i2}-\phi_i)^2\big]\right\}.$

      估计 $\sigma^2$ 的方法常常是 profile(剖面)似然方法:首先假设 $\sigma^2$ 已知求 $\phi$ 的最大似然估计,再最大化 $\sigma^2$ 的 profile 似然得到

      $\displaystyle\hat{\sigma}^2=\frac{1}{2n}\sum_{i=1}^n(y_{i1}-y_{i2})^2.$

      但是 $\mathbb E[\hat{\sigma}^2]=\dfrac{\sigma^2}{2}$,对任何 $n$,它都是不相合的。

    • 不完全清楚如何预测。一般来说,给定样本后会使用 $\theta$ 的最大似然估计代替 $\theta$ 得到估计的预测分布 $f(x\mid\hat{\theta})$,但这个过程低估了预测的不确定性。

基于似然的方法

基于似然的方法完全建立在似然函数之上。

  • 似然原则:样本 $X$ 中关于 $\theta$ 的所有相关信息都包含在观测值 $x$ 下的似然函数中。进一步,如果依赖于 $\theta$ 的两个不同样本 $X_1$ 和 $X_2$ 的似然函数满足
    $L(\theta\mid X_1)=cL(\theta\mid X_2),\quad\forall\theta,$

    则它们包含了关于 $\theta$ 的相同信息。

    也就是说,如果有两个试验,即样本 $X_i$ 和抽样分布 $f_i(\cdot\mid\theta)$ 下的试验 $E_i$,$i=1,2$,参数空间相同,那么如果 $f_1(X_1\mid\theta,E_1)\propto f_2(X_2\mid\theta,E_2)$,则两个试验提供了相同的证据(EV),从而关于 $\theta$ 的推断是相同的。即

    $L(\theta\mid E_2,X_2)=cL(\theta\mid E_1,X_1)~\text{for some}~c\Longleftrightarrow EV[E_1,X_1]=EV[E_2,X_2].$
  • 停止规则原则:在一个试验序列中,试验所提供的关于未知参数 $\theta$ 的证据不能依赖于停止规则。

    停止规则原则显然是似然原则下的结果,因为似然函数独立于停止规则,但是经典的假设检验并不满足停止规则原则。参看下例。


    例. 设 $\theta$ 为上抛一枚硬币出现正面的概率,在水平 $\alpha=0.05$ 下检验

    $H_0:\theta=\dfrac{1}{2}\longleftrightarrow H_1:\theta>\dfrac{1}{2}.$

    为此做了一系列相互独立的抛硬币试验,结果出现 $9$ 次正面和 $3$ 次反面。

    • 事先决定独立抛 $12$ 次硬币,此时由二项分布知似然函数为
      $\displaystyle L(\theta\mid x=9)=\binom{12}{9}\theta^9(1-\theta)^3,\quad 0<\theta<1.$

      从而 $p$ 值为

      $\displaystyle p=\mathbb P(X\geq9\mid H_0)=\sum_{x=9}^{12}\binom{12}{x}\Big(\frac{1}{2}\Big)^x\Big(\frac{1}{2}\Big)^{12-x}=0.073>\alpha.$

      因此我们不能拒绝原假设。

    • 事先指定试验进行到出现 $3$ 次反面为止,此时由负二项分布知似然函数为
      $\displaystyle L(\theta\mid x=9)=\binom{11}{9}\theta^9(1-\theta)^3,\quad 0<\theta<1.$

      从而 $p$ 值为

      $\displaystyle p=\mathbb P(X\geq9\mid H_0)=\sum_{x=9}^{\infty}\binom{x+2}{2}\Big(\frac{1}{2}\Big)^x\Big(\frac{1}{2}\Big)^{3}=0.0327<\alpha.$

      因此我们拒绝原假设。


    从上例中可以看出,按照经典假设检验的方法得到不一致的结论,本质上是因为两种试验的样本空间不同。

  • 条件性原则:假设可以进行两个试验 $E_1$ 和 $E_2$ 来推断 $\theta$,选择哪个试验通过抛硬币决定,那么对 $\theta$ 的推断应该仅依赖于选择的试验。

    记试验为 $E_i=(x_i,\theta,f_i)$,表示在试验 $E_i$ 下,$x_i\sim f_i(\cdot\mid\theta)$。定义复合试验

    $E^\star=\Big((K,x_K),\theta,\dfrac{1}{2}f_K(x_K)\Big),$

    其中 $K$ 服从 $1$ 和 $2$ 上的两点均匀分布。条件性意味着

    $EV[E^\star,x]=\left\{\begin{array}{ll} EV[E_1,x_1], & \text{if}~K=1~\text{so}~x=(1,x_1),\\ EV[E_2,x_2], & \text{if}~K=2~\text{so}~x=(2,x_2). \end{array}\right.$

    定理. 似然原则等于充分性原则加上条件性原则。

    证明. 仅证明充分性原则加上条件性原则可以导出似然原则.

    记 $E_1,E_2$ 分别为两个试验,定义复合试验 $E^\star$ 同条件性原则里定义。考虑 $x_1^0$ 和 $x_2^0$ 满足:

    $L(\theta\mid E_1,x_1^0)=cL(\theta\mid E_2,x_2^0)$

    对某个常数 $c$ 成立。似然原理意味着

    $EV[E_1,x_1^0]=EV[E_2,x_2^0].$

    对混合试验 $E^\star$,定义统计量

    $T=t(k,x_k)=\left\{\begin{array}{ll} (1,x_1^0), & \text{if}~k=2,x_2=x_2^0,\\ (k,x_k), & \text{otherwise}, \end{array}\right.$

    则 $T$ 对 $(1,x_1^0)$ 和 $(2,x_2^0)$ 取相同值。又因为统计量 $T$ 是充分统计量,故

    $EV[E^\star,(1,x_1^0)]=EV[E^\star,(2,x_2^0)],$

    再由条件性原则得到

    $EV[E^\star,x_1^0]=EV[E^\star,(1,x_1^0)]=EV[E^\star,(2,x_2^0)]=EV[E^\star,x_2^0].$

    这就是似然原则。


信仰统计及相关方法

信仰推断的目的在于给出参数 $\theta$ 的不确定性的后验度量,而无需先验度量。

假设 $X\mid\mu,\sigma^2\sim N(\mu,\sigma^2)$,$\mu$ 为感兴趣参数。由于 $T=\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$,则对任何 $t$, $\mathbb P(T>t)=p(t)$,其中 $p(t)$ 已知。信仰推断的想法是基于

$\displaystyle p(t)=\mathbb P(T>t)=\mathbb P\left(\mu<\overline{X}-\dfrac{tS}{\sqrt{n}}\right),$

然后定义 $p(t)=\mathbb P\left(\mu<\overline{x}-\dfrac{ts}{\sqrt{n}}\right)$ 为 $\mu$ 不超过 $\overline{x}-\dfrac{ts}{\sqrt{n}}$ 的信仰概率(fiducial probability)。

信仰推断的问题在于

  • 概率测度从样本空间转换到参数空间的合理性;
  • 枢轴统计量不存在的情况;
  • 高维问题的处理。

此外,信仰概率区间与特定无信息先验下的贝叶斯信任区间相同,但是贝叶斯信任区间更加合理。

贝叶斯推断

本专题后续内容将围绕贝叶斯推断展开。

后记

本文内容来自中国科学技术大学《贝叶斯分析》(2022Fall)课件。

如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn