MS-Lec2.2 统计学基础（统计决策理论、统计推断概述、渐近准则与推断）

统计决策理论

决策准则、损失函数和风险

设 $X$ 是取自总体 $P\in\cal P$ 的一个样本。

统计决策是指观察 $X$ 后采取的行动，这些行动来自一个可允许行动的集合 $A$。
设 $\mathcal F_A$ 是 $A$ 上的 $\sigma$-域，可测空间 $(A,\mathcal F_A)$ 称为行动空间（或决策空间）。
决策准则是 $(\mathscr{X},\mathcal F_{\mathscr{X}})$ 到 $(A,\mathcal F_A)$ 的一个可测函数（统计量）$T$，这里 $\mathscr{X}$ 是 $X$ 的值域，$\mathcal F_{\mathscr{X}}$ 是 $\mathscr{X}$ 的一个 $\sigma$-域。

在 Wald 统计决策理论中，关心如何选择最合适的决策准则，也就是决策准则表现的判断标准。我们常用损失函数 $L$ 来设定这样一个标准，它是 $\mathcal P\times A$ 到 $[0,+\infty)$ 的一个函数，而对固定的 $P\in\cal P$，它是 $(A,\mathcal F_A)$ 上的 Borel 函数。

决策准则 $T$ 的平均损失称为 $T$ 的风险，定义为

$\displaystyle R_T(P)=\mathsf{E}[L(P,T(X))]=\int_{\mathscr{X}}L(P,T(x))\text{d}P_X(x).$

如果 $\cal P$ 是一个参数为 $\theta$ 的参数族，那么损失函数和风险函数可表示为 $L(\theta,a)$ 和 $R_T(\theta)$。

准则的优劣性: 准则 $T_1$ 不劣于另一准则 $T_2$ 当且仅当

$R_{T_1}(P)\leq R_{T_2}(P),\quad\forall P\in\mathcal P.$

另外

准则 $T_1$ 优于另一准则 $T_2$ 当且仅当上式成立，且至少存在一个 $P\in\cal P$ 使得不等号严格成立。
准则 $T_1$ 和另一准则 $T_2$ 是等价的，当且仅当 $R_{T_1}(P)=R_{T_2}(P)$ 对所有 $P\in\cal P$ 成立。
如果存在一个决策准则 $T_\star$ 不劣于所有 $T\in\mathfrak T$，则称它是（相对于 $\mathfrak T$）最优的。

例1. 考虑基于样本 $X=(X_1,\dots,X_n)$ 做一个关于 $\theta\in\mathbb R$ 值的决策。若 $\Theta$ 是 $\theta$ 的所有可能值，则应该考虑行动空间 $(A,\mathcal F_A)=(\Theta,\mathcal B_\Theta)$。常用的决策准则是样本均值 $T(X)=\overline{X}$，损失函数是平方误差损失 $L(P,a)=(\theta-a)^2,~a\in A$，则它的风险函数为

$R_{\overline{X}}(P)=\textsf{E}(\theta-\overline{X})^2=(\theta-\textsf{E}(\overline{X}))^2+\textsf{Var}(\overline{X})=(\theta-\mu)^2+\frac{\sigma^2}{n},$

其中 $\mu$ 和 $\sigma^2<\infty$ 是总体的均值和方差。

例2. 设 $\cal P$ 是一个分布族，$\mathcal P_0\subset\mathcal P$，$\mathcal P_1=\{P\in\mathcal P:P\notin\mathcal P_0\}$。假设检验问题可描述为确定下面两种说法哪一个为真：

$H_0:P\in\mathcal P_0\longleftrightarrow H_1:P\in\mathcal P_1.$

这里 $H_0$ 称为原假设，$H_1$ 称为备择假设。该问题的行动空间只有两个元素，即 $A=\{0,1\}$，其中 $0$ 表示接受 $H_0$ 的行动，$1$ 表示接受 $H_1$ 的行动。此时的决策准则 $T(X)$ 称为检验，它是 $\mathscr{X}$ 到 $\{0,1\}$ 的函数，即 $T(X)=I_C(X)$，其中 $C\in\mathcal F_{\mathscr{X}}$ 称为 $H_0$ 对 $H_1$ 的拒绝域。

针对假设检验问题，常用的损失函数是 0-1 损失：

$L(P,a)=\left\{\begin{array}{ll} 0, & \text{若决策正确},~P\in\mathcal P_a,\\ 1, & \text{若决策错误},~P\notin\mathcal P_a. \end{array}\right.$

此时，风险为

$R_T(P)=\left\{\begin{array}{ll} P(T(X)=1)=P(X\in C), & P\in\mathcal P_0,\\ P(T(X)=0)=P(X\notin C), & P\in\mathcal P_1. \end{array}\right.$

有时我们会考虑随机化决策准则如下。所谓随机化决策准则是一个 $\mathscr{X}\times\mathcal F_A$ 上的函数 $\delta$，使得

对于每个 $B\in\mathcal F_A$，$\delta(\cdot,B)$ 是一个 Borel 函数；
对于每个 $x\in\mathscr{X}$，$\delta(x,\cdot)$ 是 $(A,\mathcal F_A)$ 上的概率测度。

当使用随机化决策准则 $\delta$ 时，在有了样本 $x$ 后，根据概率分布 $\delta(x,\cdot)$ 随机地从 $A$ 中选择一个行动作为采取的决策。事实上，非随机化决策准则 $T$ 可以看作退化分布下的随机决策准则，即

$\delta(x,\{a\})=I_{\{a\}}(T(x)),\quad a\in A,~x\in\mathscr{X}.$

对随机化决策准则，定义它的损失函数为

$\displaystyle L(P,\delta,x)=\int_A L(P,a)\delta(x,\text{d}a).$

它的风险为

$\displaystyle R_\delta(P)=\textsf{E}[L(P,\delta,X)]=\int_{\mathscr{X}}\int_AL(P,a)\delta(x,\text{d}a)\text{d}P_X(x).$

容许性和最优性

定义1 (容许性). 设 $\mathfrak T$ 是一决策准则类（随机化或非随机化）。决策准则 $T\in\mathfrak T$ 称为 $\mathfrak T$ 容许的（或容许的，若 $\mathfrak T$ 包含所有可能的决策准则），当且仅当不存在（就风险而言）优于 $T$ 的 $S\in\mathfrak T$。

若 $T_\star$ 是 $\mathfrak T$ 最优的，那么它也是 $\mathfrak T$ 容许的；
若 $T_\star$ 是 $\mathfrak T$ 最优的，且 $T_0$ 是 $\mathfrak T$ 容许的，那么 $T_0$ 也是 $\mathfrak T$ 最优的，且等价于 $T_\star$；
若存在两个不等价的 $\mathfrak T$ 容许准则，那么不存在任何 $\mathfrak T$ 最优准则。

直观上看，假设 $T(X)$ 是 $P\in\cal P$ 的充分统计量，那么决策准则应该是 $T$ 的函数。但下面的结果说明，如果允许随机化决策准则，这个结论才成立。

命题1. 假设 $A$ 是 $\mathbb R^k$ 的子集。设 $T(X)$ 是 $P\in\cal P$ 的充分统计量，令 $\delta_0$ 是一个决策准则，那么

$\delta_1(t,B)=\mathsf{E}[\delta_0(X,B)\mid T=t]$

是一个仅依赖 $T$ 的随机化决策准则，在 $R_{\delta_0}(P)<\infty$ 对任意 $P\in\cal P$ 成立的条件之下它等价于 $\delta_0$。

注: 如果 $\delta_0$ 是一个非随机化决策准则，那么

$\delta_1(t,B)=\textsf{E}[I_B(\delta_0(X))\mid T=t]=P(\delta_0(X)\in A\mid T=t)$

仍为随机化决策准则。

下面的结果告诉我们何时只需要考虑非随机化决策准则，何时不是充分统计量函数的决策准则是不容许的。

定理1. 假设 $A$ 是 $\mathbb R^k$ 的一个凸子集，且对任意 $P\in\cal P$，$L(P,a)$ 是 $a$ 的凸函数。

令 $\delta$ 为一个随机化准则，满足 $\int_A|a|\delta(x,\text{d}a)<\infty$ 对任意 $x\in\mathscr{X}$ 成立。令 $T_1(x)=\int_Aa\delta(x,\text{d}a)$，那么 $L(P,T_1(x))\leq L(P,\delta,x),\quad\forall x\in\mathscr{X},~P\in\cal P.$
如果 $L$ 关于 $a$ 严格凸，则不等号严格成立。
(Rao-Blackwell 定理) 设 $T$ 是 $P\in\cal P$ 的一个充分统计量，$T_0\in\mathbb R^k$ 是一个非随机化决策准则，满足 $\textsf{E}|T_0|<\infty$。令 $T_1=\textsf{E}[T_0(X)\mid T]$，那么 $R_{T_1}(P)\leq R_{T_0}(P),\quad\forall P\in\cal P.$
如果 $L$ 关于 $a$ 严格凸且 $T_0$ 不是 $T$ 的函数，那么 $T_0$ 是不容许的。

容许性的概念帮助我们淘汰掉一些决策准则。然而，根据容许性和充分性淘汰一些准则后，通常还有很多留下的准则。另外，尽管感兴趣的是 $\mathfrak T$ 最优准则，但若 $\mathfrak T$ 太大或太小，它常常不存在。

例3. 设 $X_1,\dots,X_n$ 是来自总体 $P\in\cal P$ 的独立同分布随机变量，$\cal P$ 为有均值 $\mu$ 和有限方差 $\sigma^2$ 的分布的分布族。考虑平方误差损失下 $\mu$ 的估计，行动空间 $A=\mathbb R$。

若 $\mathfrak T$ 是所有可能估计量构成的集合，那么不存在 $\mathfrak T$ 最优准则。

假设存在最优准则 $T^\star$。令 $P_1$ 和 $P_2$ 是两个可能的 $X=(X_1,\dots,X_n)$ 的分布，满足在 $P_j$ 下 $\mu=\mu_j$，且 $\mu_1\neq\mu_2$。

对 $T_1(X)\equiv\mu_1$，有 $R_{T_1}(P_1)=0$，而 $T^\star$ 是最优准则，必有 $T^\star\equiv\mu_1$ a.s. $P_1$。

令 $\overline{P}=(P_1+P_2)/2$，则若 $X$ 服从分布 $\overline{P}$，那么 $\mu=(\mu_1+\mu_2)/2$。

对 $T_0(X)\equiv(\mu_1+\mu_2)/2$，有 $R_{T_0}(\overline{P})=0$，而 $T^\star$ 是最优准则，必有 $T^\star\equiv(\mu_1+\mu_2)/2$ a.s. $\overline{P}$。

现在注意到 $P_1\ll\overline{P}$，所以应有 $T^\star\equiv(\mu_1+\mu_2)/2$ a.s. $P_1$，这就导出了矛盾。

令 $\mathfrak T_1$ 是 $X=(X_1,\dots,X_n)$ 的所有线性函数构成的集合，即 $T(X)=\sum\limits_{i=1}^nc_iX_i$，其中 $c_i\in\mathbb R$ 已知，$i=1,\dots,n$。那么也不存在 $\mathfrak T_1$ 最优准则。

首先计算它的风险函数
$\displaystyle R_T(P)=\textsf{E}\left(\sum_{i=1}^nc_iX_i-\mu\right)^2=\mu^2\left(\sum_{i=1}^nc_i-1\right)^2+\sigma^2\sum_{i=1}^nc_i^2.$
如果存在 $T^\star=\sum\limits_{i=1}^nc_i^\star X_i$，使得右侧关于 $(c_1,\dots,c_n)$ 是函数的最小值，所以
$c_1^\star=\cdots=c_n^\star=\dfrac{\mu^2}{\sigma^2+n\mu^2},$
这依赖于总体 $P$，因此 $T^\star$ 不是一个统计量。这说明不存在 $\mathfrak T_1$ 最优准则。

进一步考虑子类 $\mathfrak T_2\subset\mathfrak T_1$，对 $c_i$ 加上满足 $\sum\limits_{i=1}^nc_i=1$ 的条件，则样本均值 $\overline{X}$ 是 $\mathfrak T_2$ 最优准则。

此时风险函数 $R_T(P)=\sigma^2\sum\limits_{i=1}^nc_i^2$，于是最优解即为 $c_i=1/n$，从而 $\overline{X}$ 是 $\mathfrak T_2$ 最优准则。

如果在 $\mathfrak T_2$ 中挖去 $\overline{X}$ 这一准则，那么剩下的类就又不存在最优准则了。

从这个例子中可以看到，最优准则常常不存在。在实际问题中，往往采用下面两种方法来选择决策准则。

性质准则

定义一个满足一些好性质（如无偏性、不变性等）的决策准则类 $\mathfrak T$，然后再在其中找最好的准则。

定义2 (无偏性). 在估计问题中，未知总体实值参数 $\theta$ 的估计量 $T(X)$ 的偏差定义为

$b_T(P)=\textsf{E}[T(X)]-\theta.$

这里当 $P$ 属于参数为 $\theta$ 的参数族时，也记作 $b_T(\theta)$。估计量 $T(X)$ 称为关于 $\theta$ 无偏的，当且仅当 $b_T(P)=0$ 对任意 $P\in\cal P$ 成立。

定义3 (不变性). 设 $X$ 是来自 $P\in\cal P$ 的一个样本。

$X$ 的一对一变换构成的类 $\cal G$ 称为群，当且仅当由 $g_i,g_j\in\cal G$ 可推出 $g_i\circ g_j\in\cal G$ 和 $g_i^{-1}\in\cal G$。
称 $\cal P$ 在 $\cal G$ 下是不变的，当且仅当对每一 $g\in\cal G$，$\overline{g}(P_X)=P_{g(X)}$ 是 $\cal P$ 到 $\cal P$ 上的一对一变换。
决策问题称为不变的，当且仅当 $\cal P$ 是在 $\cal G$ 下不变的，且损失函数 $L(P,a)$ 是不变的，即对每一 $g\in\cal G$ 和每一 $a\in A$，存在唯一的 $g(a)\in A$，使得 $L(P_X,a)=L(P_{g(X)},g(a))$。（这里 $g(X)$ 和 $g(a)$ 一般是不同的函数。）
决策准则 $T(x)$ 称为不变的，当且仅当对每一 $g\in\cal G$ 和每一 $x\in\mathscr{X}$，$T(g(x))=g(T(x))$。

注: 简单来说，不变性意味着决策准则不受数据的一对一变换的影响。

例4. 设 $X$ 来自属于位置分布族 $\mathcal P=\{P_\mu:\mu\in\mathbb R\}$ 的总体，其分量独立同分布。考虑位置变换 $g_c(X)=X+cJ_k$，其中 $c\in\mathbb R$ 且 $J_k$ 是分量均为1的 $k$ 维向量。

变换构成的群是 $\mathcal G={g_c:c\in\mathbb R}$，它是一个位置尺度变换群。
$\cal P$ 在 $\cal G$ 下是不变的，其中 $\overline{g}c(P\mu)=P_{\mu+c}$。
在损失函数 $L(\mu,a)=L(\mu-a)$ 下估计 $\mu$，决策问题是不变的，其中 $g_c(a)=a+c$。
决策准则 $T$ 是不变的，当且仅当 $T(x+cJ_k)=T(x)+c$ 对每一 $x\in\mathbb R^k$ 和 $c\in\mathbb R$ 成立。

特征准则

考虑风险函数 $R_T(P)$ 的一些特征 $R_T$，然后在 $T\in\mathfrak T$ 的约束下使风险函数最小（如 Bayes 准则、Minimax 准则等）。

Bayes 准则：考虑在 $P\in\cal P$ 上风险函数 $R_T(P)$ 的平均值： $r_T(\Pi)=\displaystyle\int_{\mathcal P}R_T(P)\text{d}\Pi(P),$
其中 $\Pi$ 是 $(\mathcal P,\mathcal F_{\mathcal P})$ 上已知的概率测度，$\mathcal F_{\mathcal P}$ 是一个合适的 $\sigma$-域。称 $r_T(\Pi)$ 为 $T$ 关于 $\Pi$ 的 Bayes 风险。若 $T^\star\in\mathfrak T$ 及 $r_{T^\star}(\Pi)\leq r_T(\Pi)$ 对任意 $T\in\mathfrak T$ 成立，则 $T^\star$ 称为关于 $\Pi$ 的 $\mathfrak T$-Bayes 准则（或 Bayes 准则，若 $\mathfrak T$ 包含所有可能的准则）。
Minimax 准则：考虑最坏的情形，即风险函数的最大值： $M(T)=\sup\limits_{P\in\mathcal P}R_T(P).$
若 $T^\star\in\mathfrak T$ 及 $M(T^\star)\leq M(T)$ 对任意 $T\in\mathfrak T$ 成立，则 $T^\star$ 称为 $\mathfrak T$-Minimax 准则（或 Minimax 准则，若 $\mathfrak T$ 包含所有可能的准则）。

例5. 设 $X=(X_1,\dots,X_n)$ 的分量独立同分布服从 $N(\theta,\sigma^2)$，其中 $\theta\in\mathbb R$ 未知，$\sigma^2$ 已知。令 $\Pi$ 是 $N(\mu_0,\sigma_0^2)$，其中 $\mu_0$ 和 $\sigma_0^2$ 已知。在给定 $X=x$ 下，我们知道 $\theta$ 的条件分布是

$N(\mu^\star(x),c^2)=N\left(\dfrac{\sigma^2\mu_0+n\sigma_0^2\overline{x}}{\sigma^2+n\sigma_0^2},\dfrac{\sigma^2\sigma_0^2}{\sigma^2+n\sigma_0^2}\right),$

此时关于 $\Pi$ 的 Bayes 准则是 $\textsf{E}(\theta\mid X)=\mu^\star(X)$，而 Minimax 准则是样本均值 $\overline{X}$。事实上，对任意决策准则 $T$，有

$\begin{array}{rl} \sup\limits_{\theta\in\mathbb R}R_T(\theta)\geq\displaystyle\int_{\mathbb R}R_T(\theta)\text{d}\Pi(\theta)&\!\!\!\!\geq\displaystyle\int_{\mathbb R}R_{\mu^\star}(\theta)\text{d}\Pi(\theta)\\ &\!\!\!\!=\textsf{E}[\theta-\mu^\star(X)]^2=\textsf{E}\{\textsf{E}([\theta-\mu^\star(X)]^2\mid X)\}=c^2. \end{array}$

注意到当 $\sigma_0^2\rightarrow\infty$ 时，$c^2\rightarrow\sigma^2/n$，所以

$M(T)=\sup\limits_{\theta\in\mathbb R}R_T(\theta)\geq\dfrac{\sigma^2}{n}=M(\overline{X}).$

统计推断

在统计推断中，我们基于样本 $X$ 用推断方法对未知总体做推断而不用任何损失函数。常见的三类主要的推断方法是：点估计、假设检验和置信集。

点估计

设 $\vartheta\in\tilde{\Theta}\subset\mathbb R$ 是待估计的参数，其为未知总体 $P$ 或 $\theta$（若 $P$ 属于参数族时）的函数。估计量是取值范围为 $\tilde{\Theta}$ 的统计量，且对任意 $\vartheta$ 的估计量 $T(X)$，我们总有一定的误差 $T(X)-\vartheta$，它的均值就是所谓的偏差。除此之外，我们还关心这种误差的波动程度，由此引入均方误差（mse），定义为

$\text{mse}_T(P)=\textsf{E}[T(X)-\vartheta]^2=[b_T(P)]^2+\textsf{Var}(T(X)),$

若 $P$ 属于参数族，则记作 $\text{mse}_T(\theta)$。可以看到 $\text{mse}_T(P)$ 等于 $\textsf{Var}(T(X))$ 当且仅当 $T(X)$ 是无偏的。另外，均方误差在统计决策理论中就是平方误差损失下 $T$ 的风险函数。

假设检验

对于例2中给出的假设检验问题，我们只可能犯两类统计错误：当 $H_0$ 为真时拒绝 $H_0$（称为第 I 类错误）以及当 $H_0$ 为假时接受 $H_0$（称为第 II 类错误）。在统计推断中，检验 $T$，一个 $\mathscr{X}$ 到 $\{0,1\}$ 的统计量，可由犯两类错误的概率来进行评价：

$\alpha_T(P)=P(T(X)=1),\quad P\in\mathcal P_0$ 和 $1-\alpha_T(P)=P(T(X)=0),\quad P\in\mathcal P_1,$

若 $P$ 属于参数族，则分别记作 $\alpha_T(\theta)$ 和 $1-\alpha_T(\theta)$。在统计决策理论中，这些就是0-1损失函数下 $T$ 的风险函数。

犯两类错误的概率不能同时最小化；
对固定的样本量，犯两类错误的概率也不能同时以一固定的 $\alpha\in(0,1)$ 为界。

寻找最优检验的通常方法是将犯其中一个错误的概率限定在一个小的界 $\alpha$ 内，如 $\alpha_T(P),~P\in\mathcal P_0$，然后在约束

$\sup\limits_{P\in\cal P_0}\alpha_T(P)\leq\alpha$

下最小化犯另一个错误的概率 $1-\alpha_T(P),~P\in\mathcal P_1$。这里的上界 $\alpha$ 称为显著性水平，左侧称为检验 $T$ 的检验水准。

例6. 设 $X_1,\dots,X_n$ 是服从 $N(\mu,\sigma^2)$ 分布的独立同分布随机变量，其中 $\mu\in\mathbb R$ 未知，$\sigma^2$ 已知。考虑假设

$H_0:\mu\leq\mu_0\longleftrightarrow H_1:\mu>\mu_0,$

其中 $\mu_0$ 为固定常数。因为样本均值 $\overline{X}$ 是 $\mu\in\mathbb R$ 的充分统计量，考虑下面的检验类：

$T_c(X)=I_{(c,+\infty)}(\overline{X})$，即若 $\overline{X}>c$ 则拒绝 $H_0$，

其中 $c\in\mathbb R$ 是固定常数。令 $\Phi$ 是 $N(0,1)$ 的 c.d.f.，根据正态分布的性质，

$\alpha_{T_c}(\mu)=P(T_c(X)=1)=1-\Phi\left(\dfrac{\sqrt{n}(c-\mu)}{\sigma}\right).$

于是

$\sup\limits_{P\in\mathcal P_0}\alpha_{T_c}(\mu)=1-\Phi\left(\dfrac{\sqrt{n}(c-\mu_0)}{\sigma}\right),$ 且 $\sup\limits_{P\in\mathcal P_1}[1-\alpha_{T_c}(\mu)]=\Phi\left(\dfrac{\sqrt{n}(c-\mu_0)}{\sigma}\right).$

若要取显著性水平为 $\alpha$，则最有效的方法是选择一个 $c_\alpha$ 使得

$1-\Phi\left(\dfrac{\sqrt{n}(c_\alpha-\mu_0)}{\sigma}\right)=\alpha~\Longrightarrow~c_\alpha=\mu_0+\dfrac{\sigma}{\sqrt{n}}z_{1-\alpha},$

其中 $\Phi(z_{\alpha})=\alpha$。

通常，小的 $\alpha$ 导致一个“小的”拒绝域。一个好的实际应用中的做法是，不仅确定对给定的 $\alpha$ 和所选的检验 $T_\alpha$ 而言是否拒绝 $H_0$，而且确定可能的最小显著性水平使得在计算 $T_\alpha(x)$ 后 $H_0$ 仍被拒绝，即

$\hat{\alpha}=\inf\{\alpha\in(0,1):T_\alpha(x)=1\}.$

这样的一个 $\hat{\alpha}$，依赖 $x$ 和所选的检验，是一个统计量，称为检验 $T_\alpha$ 的 $\pmb p$ 值。

下面我们考虑随机检验，这是因为有时候约束 $\sup\limits_{P\in\mathcal P_0}\alpha_T(P)\leq\alpha$ 中的等号取不到。任意随机检验 $\delta(X,\cdot)$ 等价于一个统计量 $T(X)\in[0,1]$，$T(x)=\delta(x,\{1\})$ 且 $1-T(x)=\delta(x,\{0\})$。这个检验犯第 I 和第 II 类错误的概率分别为

$\alpha_T(P)=\textsf{E}[T(X)],\quad P\in\mathcal P_0$ 和 $1-\alpha_T(P)=\textsf{E}[1-T(X)],\quad P\in\mathcal P_1.$

同样我们希望在约束下使 $1-\alpha_T(P)$ 最小化。

例7. 设样本 $X$ 服从二项分布 $B(n,\theta)$，$\theta\in(0,1)$ 未知，$n>1$ 是一个固定整数。考虑假设检验问题

$H_0:\theta\in(0,\theta_0]\longleftrightarrow H_1:\theta\in(\theta_0,1),$

其中 $$\theta_0\in(0,1)$ 是一个固定值。考虑下面的随机检验类

$T_{j,q}(X)=\left\{\begin{array}{ll} 1, & X>j,\\ q, & X=j,\\ 0, & X<j, \end{array}\right.$

其中 $j=0,1,\dots,n-1$，$q\in[0,1]$。那么

$\alpha_{T_{j,q}}(\theta)=P(X>j)+qP(X=j),\quad 0<\theta\leq\theta_0,$

且

$1-\alpha_{T_{j,q}}(\theta)=P(X<j)+(1-q)P(X=j),\quad\theta_0<\theta<1.$

可以证明，对任意 $\alpha\in(0,1)$，存在一个整数 $j$ 和 $q\in(0,1)$，使得 $T_{j,q}$ 的检验水准为 $\alpha$。

置信集

设 $\vartheta$ 是与未知总体 $P\in\cal P$ 有关的 $k$ 维随机向量，$C(X)\in\mathcal B_{\tilde{\Theta}}^k$ 仅依赖样本 $X$，其中 $\tilde{\Theta}\in\mathcal B^k$ 是 $\vartheta$ 的取值范围。若

$\inf\limits_{P\in\mathcal P}P(\vartheta\in C(X))\geq1-\alpha,$

其中 $\alpha\in(0,1)$ 中的固定常数，则 $C(X)$ 称为显著性水平 $1-\alpha$ 下 $\vartheta$ 的置信集。不等式的左侧称为 $C(X)$ 的置信系数，是 $C(X)$ 可能的最高显著性水平。置信集是以一定概率覆盖未知 $\vartheta$ 的随机元。如果上式成立，则 $C(X)$ 的覆盖概率至少为 $1-\alpha$。

考虑实值的 $\vartheta$。若 $C(X)=[\underline{\vartheta}(X),\overline{\vartheta}(X)]$，其中 $\underline{\vartheta}$ 和 $\overline{\vartheta}$ 是一对实值统计量，则 $C(X)$ 称为 $\vartheta$ 的置信区间。若 $C(X)=(-\infty,\overline{\vartheta}(X)]$（或 $[\underline{\vartheta}(X),+\infty)$），则 $\overline{\vartheta}$（或 $\underline{\vartheta}$）称为 $\vartheta$ 的置信上限（或下限）。

对于所有满足置信系数要求（即上述不等式）的置信区间，我们希望得到的是区间长度最小的。

对一般的置信区间 $[\underline{\vartheta}(X),\overline{\vartheta}(X)]$，其长度为 $\overline{\vartheta}(X)-\underline{\vartheta}(X)$ 且是随机的。我们可以考虑平均长度 $\textsf{E}[\overline{\vartheta}(X)-\underline{\vartheta}(X)]$。
对于一个无界的置信区间，其长度为 $\infty$，我们可以考虑距离 $\overline{\vartheta}(X)-\vartheta$（或 $\vartheta-\underline{\vartheta}(X)$）或它们的期望。

置信系数和平均长度是一对可以用来评价置信区间好坏的指标，我们不能同时使置信系数最大化并且使得平均长度最小化。一般常用的方法是在置信系数约束（即上述不等式）下最小化平均长度。

例8. 设 $X_1,\dots,X_n$ 是服从 $N(\mu,\sigma^2)$ 分布的独立同分布随机变量，$\mu\in\mathbb R$ 和 $\sigma^2>0$ 均未知。令 $\theta=(\mu,\sigma^2)$，$\alpha\in(0,1)$ 给定。令 $\overline{X}$ 为样本均值，$S^2$ 为样本方差，则 $(\overline{X},S^2)$ 是充分的，且

$\overline{X}\sim N\Big(\mu,\dfrac{\sigma^2}{n}\Big),\quad\dfrac{(n-1)S^2}{\sigma^2}\sim\chi_{n-1}^2,\quad$ 且 $\overline{X}$ 与 $S^2$ 相互独立。

于是存在 ${\tilde{c}}{\alpha}$, $c{1\alpha}$, $c_{2\alpha}$ 使得 $P\left(-\tilde{c}_\alpha\leq\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\leq\tilde{c}_\alpha\right)=\sqrt{1-\alpha},\quad P\left(c_{1\alpha}\leq\dfrac{(n-1)S^2}{\sigma^2}\leq c_{2\alpha}\right)=\sqrt{1-\alpha}.$

事实上，可取

$\tilde{c}_\alpha=\Phi^{-1}\left(\dfrac{1+\sqrt{1-\alpha}}{2}\right),\quad c_{1\alpha}=F_{\chi_{n-1}^2}^{-1}\left(\dfrac{1-\sqrt{1-\alpha}}{2}\right),\quad c_{2\alpha}=F_{\chi_{n-1}^2}^{-1}\left(\dfrac{1+\sqrt{1-\alpha}}{2}\right).$

于是

$P\left(\dfrac{n(\overline{X}-\mu)^2}{\tilde{c}_\alpha^2}\leq\sigma^2,~\dfrac{(n-1)S^2}{c_{2\alpha}}\leq\sigma^2\leq\dfrac{(n-1)S^2}{c_{1\alpha}}\right)=1-\alpha.$

这就给出了置信系数为 $1-\alpha$ 的 $\theta$ 的置信集。

渐近准则和推断

在渐近分析中，我们考虑样本 $X=(X_1,\dots,X_n)$ 中的 $n$ 不固定，而是对应于 $n=n_0,n_0+1,\dots$ 的序列中的一个，当 $n\rightarrow\infty$ 时，得到一个适当地标准化的统计量或变量 $T_n(X)$ 分布的极限。

渐近方法不仅用于没有精确方法可用之时，也提供了一个比基于精确方法产生的推断方法更简单的推断方法。
渐近方法除了能给出更多的理论结果和/或更简单的推断方法外，它需要的数学假设相较于精确方法较弱。
渐近方法的一个主要不足是没有一个对渐近精度的好的估计。

相合性

定义4 (点估计的相合性). 设 $X=(X_1,\dots,X_n)$ 为来自 $P\in\cal P$ 的一个样本，对于每个 $n$，$T_n(X)$ 是 $\vartheta$ 的点估计。

$T_n(X)$ 称为对 $\vartheta$ 是（弱）相合的当且仅当 $T_n(X)\overset{P}{\rightarrow}\vartheta$ 对任意 $P\in\cal P$ 成立。
令 $\{a_n\}$ 是一列发散到 $+\infty$ 的正常数。$T_n(X)$ 称为对 $\vartheta$ 是 $a_n$ 相合的当且仅当 $a_n[T_n(X)-\vartheta]=O_P(1)$ 对任意 $P\in\cal P$ 成立。
$T_n(X)$ 称为对 $\vartheta$ 是强相合的当且仅当 $T_n(X)\overset{\text{a.s.}}{\rightarrow}\vartheta$ 对任意 $P\in\cal P$ 成立。
$T_n(X)$ 称为对 $\vartheta$ 是 $L_r$ 相合的当且仅当 $T_n(X)\overset{L_r}{\rightarrow}\vartheta$ 对任意 $P\in\cal P$ 及某个固定的 $r>0$ 成立。特别地，$L_2$ 相合性也称为 mse 相合性。

例9. 设 $X_1,\dots,X_n$ 为 i.i.d. 来自未知总体 $P$ 的随机变量，其 c.d.f. $F$ 连续并满足 $F(\theta)=1$ 对某个 $\theta\in\mathbb R$ 成立而 $F(x)<1$ 对任意 $x<\theta$ 成立。考虑最大次序统计量 $X_{(n)}$。对任意 $\varepsilon>0$，$F(\theta-\varepsilon)<1$ 且

$P(\vert X_{(n)}-\theta\vert\geq\varepsilon)=P(X_{(n)}\leq\theta-\varepsilon)=[F(\theta-\varepsilon)]^n\rightarrow0,$

这表明 $X_{(n)}\overset{\text{a.s.}}{\rightarrow}\theta$，即 $X_{(n)}$ 是对 $\theta$ 强相合的。

如果假设 $F$ 在 $\theta$ 处的 $i$ 阶左导数 $F^{(i)}(\theta-)$ 存在，对任意 $i\leq m$ 为零且当 $m$ 为非负整数时 $F^{(m+1)}(\theta-)$ 存在且非零，那么

$1-F(X_{(n)})=\dfrac{(-1)^mF^{(m+1)}(\theta-)}{(m+1)!}(\theta-X_{(n)})^{m+1}+o\big(\vert\theta-X_{(n)}\vert^{m+1}\big)\quad$a.s.

又由于 $P(n[1-F(X_{(n)})]\geq s)=(1-s/n)^n$，可得 $(\theta-X_{(n)})^{m+1}=O_P(n^{-1})$，即 $X_{(n)}$ 是 $n^{(m+1)^{-1}}$ 相合的。

下面导出 $n^{(m+1)^{-1}}(X_{(n)}-\theta)$ 的极限分布。令

$h_n(\theta)=\left[\dfrac{(-1)^m(m+1)!}{nF^{(m+1)}(\theta-)}\right]^{(m+1)^{-1}}.$

对 $t\leq0$，由 Slutsky 定理，

$\begin{array}{rl} \lim\limits_{n\rightarrow\infty}P\left(\dfrac{X_{(n)}-\theta}{h_n(\theta)}\leq t\right)&\!\!\!\!=\lim\limits_{n\rightarrow\infty}P\left(\left[\dfrac{\theta-X_{(n)}}{h_n(\theta)}\right]^{m+1}\leq(-t)^{m+1}\right)\\ &\!\!\!\!=\lim\limits_{n\rightarrow\infty}P\left(n[1-F(X_{(n)})]\geq(-t)^{m+1}\right)\\ &\!\!\!\!=\lim\limits_{n\rightarrow\infty}\left[1-(-t)^{m+1}/n\right]^n=\text{e}^{-(-t)^{m+1}}. \end{array}$

假设 $\vartheta$ 的估计量 $T_n$ 满足

$c_n[T_n(X)-\vartheta]\overset{d}{\rightarrow}\sigma Y,$

其中 $Y$ 是服从已知分布的随机变量，$\sigma>0$ 是未知参数，$\{c_n\}$ 是一列常数。例如在上例中

$c_n=n^{(m+1)^{-1}},\quad\sigma=\left[\dfrac{(-1)^m(m+1)!}{F^{(m+1)}(\theta-)}\right]^{(m+1)^{-1}}.$

那么如果可以找到 $\sigma$ 的一个相合估计量 $\widehat{\sigma}_n$，那么根据 Slutsky 定理可知

$c_n[T_n(X)-\vartheta]/\widehat{\sigma}_n\overset{d}{\rightarrow}Y.$

这样我们就可以用 $Y$ 的已知分布来近似 $c_n[T_n(X)-\vartheta]/\widehat{\sigma}_n$ 的分布。

渐近偏差、方差和 mse

定义5. 设对于每个 $n$，$T_n(X)$ 均为 $\vartheta$ 的点估计。

设 $\xi,\xi_1,\xi_2,\dots$ 是随机变量，$\{a_n\}$ 是满足 $a_n\rightarrow\infty$ 或 $a_n\rightarrow a>0$ 的一列正数。若 $a_n\xi_n\overset{d}{\rightarrow}\xi$ 且 $\textsf{E}\vert\xi\vert<\infty$，则 $\textsf{E}(\xi)/a_n$ 称为 $\xi_n$ 的渐近期望。
对每个 $n$，设 $T_n$ 是 $\vartheta$ 的一个点估计。如果 $T_n-\vartheta$ 的渐近期望存在，则称之为 $T_n$ 的渐近偏差，记作 $\tilde{b_{T_n}}(P)$（或 $\tilde{b_{T_n}}(\theta)$ 若 $P$ 属于参数族）。若 $\lim\limits_{n\rightarrow\infty}\tilde{b_{T_n}}(P)=0$ 对任意 $P\in\cal P$ 成立，则 $T_n$ 称为渐近无偏的。

命题2. 设 $\{\xi_n\}$ 是一列随机变量。假设 $\textsf{E}(\xi)/a_n$ 和 $\textsf{E}(\eta)/b_n$ 都是定义5所定义的 $\xi_n$ 的渐近期望。那么，下面三条必有一条成立：

$\textsf{E}(\xi)=\textsf{E}(\eta)=0$；
$\textsf{E}(\xi)\neq0$，$\textsf{E}(\eta)=0$ 且 $b_n/a_n\rightarrow0$；或 $\textsf{E}(\xi)=0$，$\textsf{E}(\eta)\neq0$ 且 $a_n/b_n\rightarrow0$；
$\textsf{E}(\xi)\neq0$，$\textsf{E}(\eta)\neq0$ 且 $[\textsf{E}(\xi)/a_n]/[\textsf{E}(\eta)/b_n]\rightarrow1$。

定义6. 设对于每个 $n$，$T_n(X)$ 都是 $\vartheta$ 的估计量，$\{a_n\}$ 是满足 $a_n\rightarrow\infty$ 或 $a_n\rightarrow a>0$ 的一列正数。假设 $a_n(T_n-\vartheta)\overset{d}{\rightarrow}Y$，其中 $0<\textsf{E}(Y^2)<\infty$。

$T_n$ 的渐近均方误差，记作 $amse_{ T_{n} }(P)$ 或 $amse_{ T_{n} }(\theta)$（若 $P$ 属于参数为 $\theta$ 的参数族），定义为 $(T_n-\vartheta)^2$ 的渐近期望，即 $\begin{array}{l}{ \mathrm{amse} }_{ T_{n} }(P)=\mathsf{E}(Y^2)/a_{n}^2\end{array}$。$T_n$ 的渐近方差定义为 $\sigma_{T_{n}}^2(P)=\mathsf{Var}(Y)/a_{n}^2$。
令 $T_n’$ 是 $\vartheta$ 的另一估计量。$T_n’$ 关于 $T_n$ 的渐近相对效率定义为 $e_{T_n',T_n}(P)=\dfrac{\text{amse}_{T_n}(P)}{\text{amse}_{T_n'}(P)}.$
$T_n$ 称为比 $T_n’$ 渐近更有效当且仅当 $\limsup\limits_{n\rightarrow\infty} e_{T_n’,T_n}(P)\leq 1$ 对任意 $P$ 成立，且对某个 $P$ 有 $<1$ 成立。

渐近均方误差和渐近方差相等当且仅当 $\text{E}(Y)=0$。
当 $mse_{T_n}(P)$ 和 $mse_{T_n’}(P)$ 都存在时，比较 $T_n$ 和 $T_n’$ 可通过衡量相对效率 $mse_{T_n}(P)/mse_{T_n’}(P)$。但是比较结果可能与渐近相对效率所得结果不同。

下面结果说明，当 $T_n$ 的精确均方误差存在时，它会小于 $T_n$ 的渐近均方误差。它也提供了精确均方误差和渐近均方误差相同所需的条件。

命题3. 设对每个 $n$，$T_n$ 是 $\vartheta$ 的估计量，$\{a_n\}$ 是满足 $a_n\rightarrow\infty$ 或 $a_n\rightarrow a>0$ 的一列正数。假设 $a_n(T_n-\vartheta)\overset{d}{\rightarrow}Y$，其中 $0<\textsf{E}(Y^2)<\infty$。则

$\textsf{E}(Y^2)\leq\liminf\limits_{n\rightarrow\infty}\textsf{E}[a_n^2(T_n-\vartheta)^2]$ 且
$\textsf{E}(Y^2)\leq\lim\limits_{n\rightarrow\infty}\textsf{E}[a_n^2(T_n-\vartheta)^2]$ 当且仅当 $\{a_n^2(T_n-\vartheta)^2\}$ 一致可积。

例10. 设 $X_1,\dots,X_n$ 为 i.i.d. 来自泊松分布 $\mathcal P(\theta)$ 的随机变量，$\theta>0$ 未知。考虑 $\vartheta=P(X_i=0)=\text{e}^{-\theta}$ 的估计。令 $T_{1n}=F_n(0)$，其中 $F_n$ 是经验分布函数，那么 $T_{1n}$ 无偏且

$\text{mse}_{T_{1n}}(\theta)=\dfrac{\text{e}^{-\theta}(1-\text{e}^{-\theta})}{n}.$

根据CLT，$\sqrt{n}(T_{1n}-\vartheta)\overset{d}{\rightarrow}N(0,\text{e}^{-\theta}(1-\text{e}^{-\theta}))$。因此，在这种情况下，$amse_{T_{1n}}(\theta)=mse_{T_{1n}}(\theta)$。

令 $T_{2n}=\text{e}^{-\overline{X}}$，于是 $nb_{T_{2n}}(\theta)\rightarrow\theta\text{e}^{-\theta}/2$，且由CLT可知 $\sqrt{n}(T_{2n}-\vartheta)\overset{d}{\rightarrow}N(0,\text{e}^{-2\theta}\theta)$。此时 $amse_{T_{2n}}(\theta)=\text{e}^{-2\theta}\theta/n$，于是 $T_{1n}$ 关于 $T_{2n}$ 的渐近相对效率为

$e_{T_{1n},T_{2n}}(\theta)=\dfrac{\theta}{\text{e}^{\theta}-1}<1.$

也就是说，$T_{2n}$ 比 $T_{1n}$ 渐近更有效。

定理2. 设 $g$ 是 $\mathbb R^k$ 上的一个函数，在 $\theta\in\mathbb R^k$ 处可微，令 $U_n$ 是满足 $a_n(U_n-\theta)\overset{d}{\rightarrow}Y$ 的一个 $k$ 维统计向量，其中 $k$ 维随机向量 $Y$ 满足 $0<\textsf{E}|Y^2|<\infty$，正数列 $\{a_n\}$ 满足 $a_n\rightarrow\infty$。令 $T_n=g(U_n)$ 是 $\vartheta=g(\theta)$ 的一个估计量，那么 $T_n$ 的渐近均方误差和渐近方差分别为

$\text{amse}_{T_n}(\theta)=\textsf{E}\big\{[\nabla g(\theta)]^{\textsf{T}}Y\big\}^2/a_n^2,\quad\text{avar}_{T_n}(\theta)=[\nabla g(\theta)]^{\textsf{T}}\textsf{Var}(Y)[\nabla g(\theta)]/a_n^2.$

渐近推断

基于渐近准则和近似的统计推断称为渐近统计推断或简称为渐近推断。前面我们已经介绍了渐近估计的相关内容，下面简单介绍渐近假设检验和置信集。

定义7. 设 $X=(X_1,\dots,X_n)$ 是来自 $P\in\cal P$ 的样本，$T_n(X)$ 是针对 $H_0:P\in\mathcal P_0\leftrightarrow H_1:P\in\mathcal P_1$ 的检验。

若 $\limsup\limits_{n\rightarrow\infty}\alpha_{T_n}(P)\leq\alpha$ 对任意 $P\in\mathcal P_0$ 成立，则 $\alpha$ 是 $T_n$ 的渐近显著性水平。
若 $\lim\limits_{n\rightarrow\infty}\sup\limits_{P\in\mathcal P_0}\alpha_{T_n}(P)$ 存在，则称它为 $T_n$ 的极限检验水准。
称 $T_n$ 是相合的当且仅当其犯第 II 类错误的概率收敛到 $0$，即 $\lim\limits_{n\rightarrow\infty}[1-\alpha_{T_n}(P)]=0,~\forall P\in\mathcal P_1$。
称 $T_n$ 是 Chernoff 相合的当且仅当 $T_n$ 是相合的且其犯第 I 类错误的概率收敛到 $0$，即 $\lim\limits_{n\rightarrow\infty}\alpha_{T_n}(P)=0,~\forall P\in\mathcal P_0$。
称 $T_n$ 是强 Chernoff 相合的当且仅当 $T_n$ 是相合的且 $T_n$ 的极限检验水准为 $0$。

定义8. 设 $X=(X_1,\dots,X_n)$ 是来自 $P\in\cal P$ 的样本，$\vartheta$ 是与 $P$ 有关的 $k$ 维参数向量，$C(X)$ 是 $\vartheta$ 的置信集。

若 $\liminf_{n\rightarrow\infty}P(\vartheta\in C(X))\geq1-\alpha$ 对任意 $P\in\cal P$ 成立，则 $C(X)$ 的渐近显著性水平是 $1-\alpha$。
若 $\lim\limits_{n\rightarrow\infty}\inf\limits_{P\in\mathcal P}P(\vartheta\in C(X))$ 存在，则称其为 $C(X)$ 的极限置信系数。

后记

本节内容来自于 Mathematical Statistics by Jun Shao.

Fundamentals of Statistics (Statistical Decision Theory, Statistical Inference, Asymptotic Criteria and Inference)