MS-Lec2.1 统计学基础（总体、样本、模型、统计量、充分性和完备性）

总体和样本

在统计推断和决策理论中，数据集是指定义在与随机试验有关的概率空间 $(\Omega,\mathcal F,P)$ 上的一个随机元的实际观测结果。概率测度 $P$ 称为总体，数据集或产生数据的随机元称为 $P$ 的样本，数据集的大小称为样本量。

总体 $P$ 是已知的当且仅当对每一事件 $A\in\mathcal F$，$P(A)$ 已知。一般而言，总体 $P$ 是部分未知的，我们要基于已有的样本去推断 $P$ 的一些性质。

例1. 为了度量一个未知量 $\theta$，我们通常假设做 $n$ 次独立试验得到 $n$ 个观测值 $(x_1,\dots,x_n)$，它也可以看作是样本空间为 $\Omega=\mathbb R^n$ 的试验的一个结果。一般地，定义 $\prod_{i=1}^n(\mathbb R,\mathcal B,P)$ 上的 $n$ 维随机向量 $X=(X_1,\dots,X_n)$，其观测值为 $(x_1,\dots,x_n)$。$P$ 是总体（部分未知），随机向量 $X$ 是一个样本，$n$ 是样本量。

在实际应用中，样本 $(X_1,\dots,X_n)$ 的分量经常是独立同分布（i.i.d.）的，在这情形下总体由 $X_i$ 的边际分布决定。

参数与非参数模型

对一给定问题，关于总体 $P$ 的统计模型（一些假设）常常是为了使分析数据变得可能或简便。

定义1. $(\Omega,\mathcal F)$ 上的一个概率测度族 $P_\theta$（参数为 $\theta\in\Theta$）称为参数族当且仅当存在固定的正整数 $d$ 使得 $\Theta\subset\mathbb R^d$，且当 $\theta$ 已知时，每个 $P_\theta$ 都是已知的概率测度。集合 $\Theta$ 称为参数空间，$d$ 是它的维数。

参数模型是指假定总体 $P$ 属于一个给定的参数族。参数族 $\{P_\theta:\theta\in\Theta\}$ 称为可识别的，当且仅当 $\theta_1\neq\theta_2$ 和 $\theta_i\in\Theta$ 可以推出 $P_{\theta_1}\neq P_{\theta_2}$。大多数情况下，可识别的参数族可以通过重新参数化得到，所以一般可以假定每个参数族都是可识别的。

一个概率测度族称为非参数的，当且仅当其不满足定义1。非参数模型是指假定总体 $P$ 属于一个给定的非参数族。非参数族可以几乎不做任何假设，例如 $(\mathbb R^k,\mathcal B^k)$ 上所有概率测度构成的分布族。不过实际情况中，可能会要求联合 c.d.f. 连续或对称或期望、方差有限等等。

还有一类模型是含有参数的非参数模型，也称为半参数模型，对应的概率测度族称为半参数族。

例2 (半参数模型). 考虑一个以 $X$（$p$ 维变量）和 $T$（一维变量）为协变量、$Y$（一维变量）为响应变量的均值回归模型

$\textsf{E}(Y\mid X=x,T=t)=\alpha+x^\textsf{T}\beta+g(t),$

其中 $\alpha,\beta_{p\times 1}$ 未知，$g$ 是定义在某区间上满足一定条件的未知函数。对这一问题，我们既关心 $\alpha,\beta$ 的估计问题，又关注 $g$ 的估计问题，兼有参数和非参数的特点。注意此时参数空间有结构 $\Theta=\Theta_1\times\Theta_2$，其中 $\Theta_1\subset\mathbb R^{p+1}$，而 $\Theta_2$ 是无限维空间。

指数族与群族

指数分布族

定义2. 一个被 $(\Omega,\mathcal F)$ 上 $\sigma$ 有限测度 $\nu$ 控制的参数族 $\{P_\theta:\theta\in\Theta\}$ 称为指数分布族，当且仅当

$\text{d}P_\theta(\omega)=\exp\big\{[\eta(\theta)]^\textsf{T}T(\omega)-\xi(\theta)\big\}h(\omega)\text{d}\nu(\omega),\quad\omega\in\Omega,$

其中 $T$ 是 $p$ 维随机向量，$p$ 是固定的正整数，$\eta$ 是一个 $\Theta$ 到 $\mathbb R^p$ 的函数，$h$ 是 $(\Omega,\mathcal F)$ 上的一个非负 Borel 函数，且

$\displaystyle\xi(\theta)=\log\left\{\int_{\Omega}\exp\big\{[\eta(\theta)]^\textsf{T}T(\omega)\big\}h(\omega)\text{d}\nu(\omega)\right\}.$

事实上，我们可以把 $h$ “吸收”进测度中，即对于任意 $A\in\mathcal F$，定义 $\lambda(A)=\int_Ah\text{d}\nu$，则指数分布族的密度函数改写为

$\text{d}P_\theta(\omega)=\exp\big\{[\eta(\theta)]^\textsf{T}T(\omega)-\xi(\theta)\big\}\text{d}\lambda(\omega),\quad\omega\in\Omega,$

另外，如果我们考虑重新参数化 $\eta=\eta(\theta)$，可得密度的典则化形式

$f_\eta(\omega)=\exp\big\{\eta^\textsf{T}T(\omega)-\zeta(\eta)\big\}h(\omega),\quad\omega\in\Omega,$

其中 $\zeta(\eta)=\log\big\{\int_{\Omega}\exp\{\eta^\textsf{T}T(\omega)\}h(\omega)\text{d}\nu(\omega)\big\}$。此时新的参数 $\eta$ 称为自然参数，新的参数空间 $\Xi=\{\eta(\theta):\theta\in\Theta\}$ 是 $\mathbb R^p$ 的子集，称为自然参数空间。典则化形式的指数分布族称为自然指数分布族。

定义3. 对于概率空间 $(\Omega,\mathcal F,P)$，集合

$\big\{x:P(X\in A)>0,~~\forall A\in\mathcal F~\text{为包含}~x~\text{的开矩形}\big\}$

称为概率测度 $P$ 的支撑。

对参数族 $\mathcal P=\{P_\theta:\theta\in\Theta\}$，若 $P_\theta$ 的支撑 $A_\theta$ 不依赖于 $\theta$，则称 $\cal P$ 有公共的支撑。
若指数分布族的自然参数空间包含一个开集，则称该分布族是满秩的。
指数族有公共的支撑。

例3. 令 $P_\theta$ 是参数为 $\theta$ 的二项分布 $B(n,\theta)$，其中 $n$ 是固定的参数。那么 $\{P_\theta:\theta\in(0,1)\}$ 是指数分布族，因为 $P_\theta$ 关于计数测度的 p.d.f. 为

$\displaystyle f_\theta(x)=\exp\left\{x\log\dfrac{\theta}{1-\theta}+n\log(1-\theta)\right\}\cdot\binom{n}{x}I_{\{0,1,\dots,n\}}(x).$

令 $\eta=\log\dfrac{\theta}{1-\theta}$，则 $\Xi=\mathbb R$，且 p.d.f. 为

$\displaystyle f_\eta(x)=\exp\{x\eta-n\log(1+\text{e}^\eta)\}\cdot\binom{n}{x}I_{\{0,1,\dots,n\}}(x).$

这是一个满秩的自然指数分布族，参数族的公共支撑为 $A=(0,1)$。

例4. 正态分布族 $\{N(\mu,\sigma^2):\mu\in\mathbb R,\sigma>0\}$ 是指数分布族，因为 $N(\mu,\sigma^2)$ 的 Lebesgue p.d.f. 可写成

$\dfrac{1}{\sqrt{2\pi}}\exp\left\{\dfrac{\mu}{\sigma^2}x-\dfrac{1}{2\sigma^2}x^2-\dfrac{\mu^2}{2\sigma^2}-\log\sigma\right\}.$

令 $\eta=(\eta_1,\eta_2)=\Big(\dfrac{\mu}{\sigma^2},\dfrac{1}{2\sigma^2}\Big)$，则 $\Xi=\mathbb R\times(0,+\infty)$，可以得到一个满秩的自然指数分布族

$\dfrac{1}{\sqrt{2\pi}}\exp\left\{x\eta_1-x^2\eta_2-\dfrac{\eta_1^2}{4\eta_2}+\dfrac{1}{2}\log(2\eta_2)\right\}.$

注: 上述正态分布族的子族 $\{N(\mu,\mu^2):\mu\in(-\infty,0)\cup(0,+\infty)\}$ 是指数分布族，但不是满秩的，因为其自然参数空间为 $\Xi=\{(x,y):y=2x^2,x\in\mathbb R,y>0\}$。

下面的结论总结了指数分布族的一些有用的性质。

定理1. 设 $\mathcal P=\{P_\eta:\eta\in\Xi\}$ 是自然指数分布族，其密度的典则化形式为

$f_\eta(\omega)=\exp\big\{\eta^\textsf{T}T(\omega)-\zeta(\eta)\big\}h(\omega),\quad\omega\in\Omega.$

那么

自然参数空间 $\Xi$ 是 $\mathbb R^p$ 中的凸集；
令 $T=(Y,U)$，$\eta=(\theta,\varphi)$，其中 $Y$ 和 $\theta$ 的维数相同。那么 $Y$ 存在关于依赖 $\varphi$ 的 $\sigma$ 有限测度的 p.d.f. $f_\eta(y)=\exp\{\theta^\textsf{T}y-\zeta(\eta)\}.$
特别地，$T$ 的 p.d.f. 属于自然指数分布族。此外，给定 $U=u$ 时，$Y$ 的条件分布的 p.d.f.（关于依赖 $u$ 的 $\sigma$ 有限测度）是
$f_{\theta,u}(y)=\exp\{\theta^\textsf{T}y-\zeta_u(\theta)\},$
这也属于自然指数分布族，参数为 $\theta$。
若 $\eta_0$ 是自然参数空间的一个内点，则 $P_{\eta_0}\circ T^{-1}$ 的矩母函数 $\psi_{\eta_0}$ 在 $0$ 的一个邻域内有限，可表示为 $\psi_{\eta_0}(t)=\exp\{\zeta(\eta_0+t)-\zeta(\eta_0)\}.$
此外，若 $g$ 为 Borel 函数且满足 $\int\vert g\vert\text{d}P_{\eta_0}<\infty$，则函数
$\displaystyle\int g(\omega)\exp\{\eta^\textsf{T}T(\omega)\}h(\omega)\text{d}\nu(\omega)$
在 $\eta_0$ 的一个邻域内无限阶可微，且对 $\eta$ 求导可与积分交换计算。

例5 (Stein 恒等式). 设 $X$ 关于 Lebesgue 测度的密度具有指数族形式

$f_\theta(x)=\exp\big\{[\eta(\theta)]^\textsf{T}T(x)-\xi(\theta)\big\}h(x),$

其支撑为 $(-\infty,+\infty)$。设 $g$ 为满足 $\textsf{E}\vert g’(X)\vert<\infty$ 的任一可微函数，则

$\textsf{E}\left[\Big([\eta(\theta)]^\textsf{T}T'(x)+\dfrac{h'(X)}{h(X)}\Big)g(X)\right]=-\textsf{E}[g'(X)].$

事实上，注意到

$\dfrac{f_\theta'(x)}{f_\theta(x)}=\dfrac{\partial\log f_\theta(x)}{\partial x}=\dfrac{\partial}{\partial x}\big([\eta(\theta)]^\textsf{T}T(x)-\xi(\theta)+\log h(x)\big)=[\eta(\theta)]^\textsf{T}T'(x)+\dfrac{h'(x)}{h(x)},$

于是

$\begin{array}{rl} \displaystyle\textsf{E}\left[\Big([\eta(\theta)]^\textsf{T}T'(x)+\dfrac{h'(X)}{h(X)}\Big)g(X)\right]&\!\!\!\!=\displaystyle\int_{\Omega}\left[[\eta(\theta)]^\textsf{T}T'(x)+\dfrac{h'(x)}{h(x)}\right]g(x)f_\theta(x)\text{d}x\\ &\!\!\!\!=\displaystyle\int_{\Omega}g(x)f_\theta'(x)\text{d}x=-\int_{\Omega}g'(x)f_\theta(x)\text{d}x=-\textsf{E}[g'(X)]. \end{array}$

群族

一个服从特定分布的随机变量经过某个变化作用后便得到分布的群族。

定义4. 设 $P$ 是 $(\mathbb R^k,\mathcal B^k)$ 上的一个已知概率测度，$\mathcal V\subset\mathbb R^k$，$\mathcal M_k$ 为 $k\times k$ 对称正定矩阵的集合。分布族

$\{P_{(\mu,\Sigma)}:\mu\in\mathcal V,\Sigma\in\mathcal M_k\}$

称为（$\mathbb R^k$ 上）位置尺度分布族，其中

$P_{(\mu,\Sigma)}(B)=P(\Sigma^{-1/2}(B-\mu)),\quad B\in\mathcal B^k,$

参数 $\mu$ 和 $\Sigma^{1/2}$ 分别称为位置参数和尺度参数。

特别地，分布族 $\{P_{(\mu,I_k)}:\mu\in\mathcal V\}$ 称为位置分布族，$\{P_{(0,\Sigma)}:\Sigma\in\mathcal M_k\}$ 称为尺度分布族。

上述三个分布族对应有三种变换（位置变换、尺度变换、位置尺度变换），它们对复合运算及逆运算都是封闭的，我们也称这种变换形成的集合是一个变换群。

常见的位置尺度分布（群）族有正态分布族、双指数分布族、柯西分布族、逻辑分布族、指数分布族、均匀分布族等。

统计量和它们的分布

定义5. 一个 $X$ 的可测函数 $T(X)$ 称为统计量，若当 $X$ 已知时 $T(X)$ 即为已知。

对于参数模型 $(\Omega,\mathcal F,P_\theta)$，$\theta\in\Theta$ 而言，统计量 $T$ 是不依赖于 $\theta$ 的可测函数。
统计量 $T(X)$ 中关于 $X$ 的未知分布的“信息”包含于 $\sigma$-域 $\sigma(T(X))$。
通常统计量是对 $\sigma$-域做了“简化”，即 $\sigma(T(X))\subset\sigma(X)$。
这两个 $\sigma$-域相等当且仅当 $T$ 是一对一映射。

令 $X_1,\dots,X_n$ 是独立同分布的随机变量，公共的分布为 $P$，$X=(X_1,\dots,X_n)$。定义样本均值和样本方差分别为

$\displaystyle\overline{X}=\dfrac{1}{n}\sum_{i=1}^nX_i,\quad S^2=\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2.$

下面考虑它们的分布。对于样本均值 $\overline{X}$ 来说：

如果 $P$ 属于一个参数分布族，我们总能找到 $\overline{X}$ 的分布。
如果 $P$ 不属于任何参数分布族，通常用中心极限定理得到 $\overline{X}$ 的近似分布。

相比于 $\overline{X}$，样本方差 $S^2$ 的分布更难得到：

假定 $P$ 是 $N(\mu,\sigma^2)$，则 $(n-1)S^2/\sigma^2$ 是卡方分布 $\chi^2(n-1)$。
如果没有正态假设，假定 $\mu=\textsf{E}(X_1)$，$\sigma^2=\textsf{Var}(X_1)$ 和 $\textsf{E}\vert X_1\vert^4$ 有限。令 $Y_i=(X_i-\mu,(X_i-\mu)^2),\quad i=1,\dots,n.$
那么 $Y_1,\dots,Y_n$ 是独立同分布的2维随机向量，且 $\textsf{E}(Y_1)=(0,\sigma^2)$，协方差矩阵为
$\Sigma=\left(\begin{array}{cc} \sigma^2 & \textsf{E}(X_1-\mu)^3\\ \textsf{E}(X_1-\mu)^3 & \textsf{E}(X_1-\mu)^4-\sigma^4 \end{array}\right).$
对 $Y_i$ 使用中心极限定理可得
$\displaystyle\sqrt{n}\left(\overline{X}-\mu,\dfrac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\sigma^2\right)\overset{d}{\rightarrow}N_2(0,\Sigma).$
而 $S^2=\dfrac{n}{n-1}\Big[\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2\Big]$，且 $\overline{X}\overset{\text{a.s.}}{\rightarrow}\mu$，由 Slutsky 定理可得
$\sqrt{n}(\overline{X}-\mu,S^2-\sigma^2)\overset{d}{\rightarrow}N_2(0,\Sigma).$

次序统计量

下面来看一个特殊的统计量。设 $X=(X_1,\dots,X_n)$ 的各分量是独立同分布的随机变量，令 $X_{(i)}$ 是 $X_1,\dots,X_n$ 中的第 $i$ 小值。统计量 $T(X)=(X_{(1)},\dots,X_{(n)})$ 称为次序统计量。假设 $X_i$ 的 c.d.f. 为 $F$ 且有 Lebesgue p.d.f. $f$，那么 $X_{(1)},\dots,X_{(n)}$ 的联合 Lebesgue p.d.f. 为

$g(y_1,y_2,\dots,y_n)=\left\{\begin{array}{ll} n! f(y_1)f(y_2)\cdots f(y_n), & y_1<y_2<\cdots<y_n,\\ 0, & \text{otherwise}. \end{array}\right.$

$X_{(i)}$ 和 $X_{(j)}$（$1\leq i<j\leq n$）的联合 Lebesgue p.d.f. 为

$g_{ij}(y_i,y_j)=\left\{\begin{array}{ll} \dfrac{n![F(y_i)]^{i-1}[F(y_j)-F(y_i)]^{j-i-1}[1-F(y_j)]^{n-j}}{(i-1)!(j-i-1)!(n-j)!}f(y_i)f(y_j), & y_i<y_j,\\ 0, & \text{otherwise}. \end{array}\right.$

$X_{(i)}$ 的 Lebesgue p.d.f. 为

$g_i(y_i)=\dfrac{n!}{(i-1)!(n-i)!}[F(y_i)]^{i-1}[1-F(y_i)]^{n-i}f(y_i).$

基于次序统计量，有时我们还关心样本的极差 $R_n=X_{(n)}-X_{(1)}$，它也是一个统计量，其 Lebesgue p.d.f. 为

$\displaystyle f_{R_n}(r)=n(n-1)\int[F(z+r)-F(z)]^{n-2}f(z)f(z+r)\text{d}z,\quad r>0.$

充分性和最小充分性

充分统计量

前面我们知道统计量会简化 $\sigma$-域，现在我们关心这种简化会不会丢失与未知总体相关的信息。

定义6. 设 $X$ 是来自未知总体 $P\in\cal P$ 的一个样本，其中 $\cal P$ 是一族总体。统计量 $T(X)$ 对于 $P\in\cal P$（或者对 $\theta\in\Theta$，当 $\mathcal P=\{P_\theta:\theta\in\Theta\}$ 是参数族时）称为充分的，当且仅当给定 $T$ 时 $X$ 的条件分布已知（不依赖于 $P$ 或 $\theta$）。

充分统计量 $T(X)$ 包含了 $X$ 中关于 $P$ 的所有信息，且当 $T$ 不是一对一映射时简化了数据。
充分统计量不是唯一的：设 $T$ 为充分统计量，可测函数 $g$ 为一一映射（不依赖于 $P$），则 $g(T)$ 也是一个充分统计量。
次序统计量 $T(X)=(X_{(1)},\dots,X_{(n)})$ 是一个充分统计量。

引理1. 如果分布族 $\cal P$ 被一个 $\sigma$ 有限的测度控制，则 $\cal P$ 被概率测度 $Q=\sum_{i=1}^{\infty}c_iP_i$ 控制，其中 $c_i$ 为非负常数，$\sum_{i=1}^nc_i=1$ 且 $P_i\in\cal P$。

定理2 (因子分解定理). 假设 $X$ 是来自 $P\in\cal P$ 的一个样本，$\cal P$ 是 $(\mathbb R^n,\mathcal B^n)$ 上被 $\sigma$ 有限测度 $\nu$ 控制的概率测度族。那么 $T(X)$ 是 $P\in\cal P$ 的充分统计量，当且仅当存在 $(\mathbb R^n,\mathcal B^n)$ 上的非负 Borel 函数 $h$（不依赖于 $P$）和定义在 $T$ 的值域上的 $g_P$（依赖于 $P$），使得

$\text{d}P(x)=g_P(T(x))h(x)\text{d}\nu(x).$

证明. “$\Rightarrow$”：假设 $T$ 是 $P\in\cal P$ 的充分统计量。于是对任意 $A\in\mathcal B^n$，$P(A\mid T)$ 不依赖于 $P$。令 $Q$ 为引理1中的概率测度，则对任意 $B\in\sigma(T)$，

$\begin{array}{rl} \displaystyle Q(A\cap B)=\sum_{i=1}^{\infty}c_iP_i(A\cap B)&\!\!\!\!\displaystyle=\sum_{i=1}^{\infty}c_i\int_BP(A\mid T)\text{d}P_i\\ &\!\!\!\!\displaystyle=\int_B\sum_{i=1}^{\infty}c_iP(A\mid T)\text{d}P_i=\int_BP(A\mid T)\text{d}Q. \end{array}$

因此 $P(A\mid T)=\textsf{E}_Q(I_A\mid T)$ a.s. $Q$。令 $g_P(T)$ 是空间 $(\mathbb R^n,\sigma(T),Q)$ 上的 Radon-Nikodym 导数 $\text{d}P/\text{d}Q$，于是对任意 $A\in\mathcal B^n$，

$\begin{array}{rl} \displaystyle P(A)=\int P(A\mid T)\text{d}P&\!\!\!\!\displaystyle=\int\textsf{E}_Q(I_A\mid T)g_P(T)\text{d}Q\\ &\!\!\!\!\displaystyle=\int\textsf{E}_Q[I_Ag_P(T)\mid T]\text{d}Q=\int_Ag_P(T)\dfrac{\text{d}Q}{\text{d}\nu}\text{d}\nu. \end{array}$

于是结论成立，其中 $h=\text{d}Q/\text{d}\nu$。

“$\Leftarrow$”：假设结论成立，那么

$\displaystyle\dfrac{\text{d}P}{\text{d}Q}=\dfrac{\text{d}P}{\text{d}\nu}\bigg/\sum_{i=1}^\infty c_i\dfrac{\text{d}P_i}{\text{d}\nu}=g_P(T)\bigg/\sum_{i=1}^\infty g_{P_i}(T)$ a.s. $Q,$

令 $A\in\sigma(X)$ 和 $P\in\cal P$，由 $T$ 的充分性可知只要证明

$P(A\mid T)=\textsf{E}_Q(I_A\mid T)$ a.s. $Q.$

令 $B\in\sigma(T)$，我们又知道 $\text{d}P/\text{d}Q$ 是 $T$ 的 Borel 函数，所以

$\displaystyle\int_B\textsf{E}_Q(I_A\mid T)\dfrac{\text{d}P}{\text{d}Q}\text{d}Q=\int_B\textsf{E}\left(I_A\dfrac{\text{d}P}{\text{d}Q}\bigg\vert T\right)\text{d}Q=\int_BI_A\dfrac{\text{d}P}{\text{d}Q}\text{d}Q,$

这就证明了我们的要求。

例6. 设 $\phi(x)$ 是 $(\mathbb R,\mathcal B)$ 上的正 Borel 函数，满足对于任意 $a$ 和 $b$ 有 $\int_a^b\phi(x)\text{d}x<\infty$，$-\infty<a<b<+\infty$。令 $\theta=(a,b)$，$\Theta=\{(a,b)\in\mathbb R^2:a<b\}$ 且

$f_\theta(x)=c(\theta)\phi(x)I_{(a,b)}(x),$

其中 $c(\theta)=\big[\int_a^b\phi(x)\text{d}x\big]^{-1}$。我们称 $\{f_\theta:\theta\in\Theta\}$ 为截断分布族，它是被 $\mathbb R$ 上的 Lebesgue 测度所控制的参数族。设 $X_1,\dots,X_n$ 是独立随机变量，其 p.d.f. 为 $f_\theta$，则 $X=(X_1,\dots,X_n)$ 的联合 p.d.f. 为

$\displaystyle f_\theta(x)=\prod_{i=1}^n f_\theta(x_i)=[c(\theta)]^nI_{(a,+\infty)}(x_{(1)})I_{(-\infty,b)}(x_{(2)})\prod_{i=1}^n\phi(x_i),$

其中 $x_{(i)}$ 是 $x_1,\dots,x_n$ 中的第 $i$ 小值。根据因子分解定理可知，$T(X)=(X_{(1)},X_{(n)})$ 是 $\theta\in\Theta$ 的充分统计量。

最小充分统计量

由于充分统计量不是唯一的，我们又希望寻找到的充分统计量能够尽可能地简化数据（或 $\sigma$-域），从而有如下最小充分性的概念。

定义7. 令 $T$ 是 $P\in\cal P$ 的充分统计量。$T$ 称为最小充分统计量，当且仅当对任意其它的对 $P\in\cal P$ 的充分统计量 $S$，存在一个可测函数 $\psi$，使得 $T=\psi(S)$ a.s. $\cal P$。

例7. 设 $X_1,\dots,X_n$ 是来自 $P_\theta$ 的 i.i.d. 随机变量，$P_\theta$ 为均匀分布 $U(\theta,\theta+1)$，$\theta\in\mathbb R$。假设 $n>1$，样本 $X=(X_1,\dots,X_n)$ 的联合 Lebesgue p.d.f. 为

$\displaystyle f_\theta(x)=\prod_{i=1}^nI_{(\theta,\theta+1)}(x_i)=I_{(x_{(n)}-1,x_{(1)})}(\theta),\quad x=(x_1,\dots,x_n)\in\mathbb R^n,$

其中 $x_{(i)}$ 是 $x_1,\dots,x_n$ 中的第 $i$ 小值。根据因子分解定理可知，$T(X)=(X_{(1)},X_{(n)})$ 是 $\theta\in\Theta$ 的充分统计量。

下面说明 $T(X)$ 的最小充分性。注意到

$x_{(1)}=\sup\{\theta:f_\theta(x)>0\}$ 且 $x_{(n)}=1+\inf\{\theta:f_\theta(x)>0\}.$

若 $S(X)$ 是 $\theta$ 的充分统计量，则存在 Borel 函数 $h$ 和 $g_\theta$，使得 $f_\theta(x)=g_\theta(S(x))h(x)$。对于满足 $h(x)>0$ 的 $x$，

$x_{(1)}=\sup\{\theta:g_\theta(S(x))>0\}$ 且 $x_{(n)}=1+\inf\{\theta:g_\theta(S(x))>0\}.$

因此，当 $h(x)>0$ 时，存在一个可测函数 $\psi$，使得 $T(x)=\psi(S(x))$。因为 $h>0$ a.s. $\cal P$，所以 $T(X)$ 是最小充分统计量。

在一些较弱的假设下，最小充分统计量存在。例如，假设 $\cal P$ 包含 $\mathbb R^k$ 上被一个 $\sigma$ 有限测度控制的分布函数。下面的定理提供了一些寻找最小充分统计量的方法。

定理3. 设 $\cal P$ 是 $\mathbb R^k$ 上的分布族。

假设 $\mathcal P_0\subset\cal P$，且 a.s. $\mathcal P_0$ 可推出 a.s. $\cal P$。如果 $T$ 是 $P\in\cal P$ 的充分统计量，且是 $P\in\mathcal P_0$ 的最小充分统计量，则 $T$ 是 $P\in\cal P$ 的最小充分统计量。
假设 $\cal P$ 包含关于 $\sigma$ 有限测度的一列 p.d.f. $f_0,f_1,f_2,\dots$。令 $\displaystyle f_{\infty}(x)=\sum_{i=0}^{\infty}c_if_i(x)$，其中 $c_i>0,\forall i$ 且 $\displaystyle\sum_{i=0}^{\infty}c_i=1.$
当 $f_\infty(x)>0$ 时，令 $T_i(x)=f_i(x)/f_\infty(x)$，$i=0,1,2,\dots$，那么 $T(X)=(T_0,T_1,T_2,\dots)$ 是 $P\in\cal P$ 的最小充分统计量。此外，若对所有 $i$ 有 $\{x:f_i(x)>0}\subset{x:f_0(x)>0\}$，则可用 $f_0$ 替换 $f_\infty$，此时 $T(X)=(T_1,T_2,\dots)$ 是 $P\in\cal P$ 的最小充分统计量。
假设 $\cal P$ 包含关于 $\sigma$ 有限测度的 p.d.f. $f_P$，且存在一个充分统计量 $T(X)$，使得对 $X$ 的任意可能值 $x$ 和 $y$， $f_P(x)=f_P(y)\phi(x,y),~\forall P\in\mathcal P\Rightarrow T(x)=T(y),$
其中 $\phi$ 是一个可测函数，那么 $T(X)$ 是 $P\in\cal P$ 的最小充分统计量。

推论1. 设 $X$ 的分布具有自然指数族形式

$\displaystyle f_\eta(x)=\exp\left\{\sum_{i=1}^k\eta_iT_i(x)-\zeta(\eta)\right\}h(x).$

则当下列条件满足时，$T(X)=(T_1(X),\dots,T_k(X))$ 是最小充分统计量：

$T_1,T_2,\dots,T_k$ 线性无关；
参数空间含有 $k+1$ 个点 $\eta^{(0)},\eta^{(1)},\dots,\eta^{(k)}$，它们张成欧氏空间 $\mathbb R^k$。

证明. 显然，$T(X)$ 的充分性由因子分解定理保证。下面证明最小充分性。事实上，由定理3的第二条（可数情形），

$\begin{array}{rl} S(X)&\!\!\!\!=\left(\dfrac{f_{\eta^{(1)}}(X)}{f_{\eta^{(0)}}(X)},\dfrac{f_{\eta^{(2)}}(X)}{f_{\eta^{(0)}}(X)},\dots,\dfrac{f_{\eta^{(k)}}(X)}{f_{\eta^{(0)}}(X)}\right)\\ &\!\!\!\!=\big(\exp\{(\eta^{(1)}-\eta^{(0)})^\textsf{T}T(X)-(\zeta(\eta^{(1)})-\zeta(\eta^{(0)}))\},\dots,\\ &\qquad\exp\{(\eta^{(k)}-\eta^{(0)})^\textsf{T}T(X)-(\zeta(\eta^{(k)})-\zeta(\eta^{(0)}))\}\big) \end{array}$

是最小充分的，进而 $\left((\eta^{(1)}-\eta^{(0)})^\textsf{T}T(X),\dots,(\eta^{(k)}-\eta^{(0)})^\textsf{T}T(X)\right)$，进而 $T(X)$ 是最小充分的。

例8. 令 $\mathcal P=\{f_\theta:\theta\in\Theta\}$ 是一个指数分布族，其 p.d.f. $f_\theta$ 有形式

$f_\theta(\omega)=\exp\big\{[\eta(\theta)]^\textsf{T}T(\omega)-\xi(\theta)\big\}h(\omega),\quad\omega\in\Omega.$

令 $X(\omega)=\omega$。假设存在 $\Theta_0=\{\theta_0,\theta_1,\dots,\theta_p\}\subset\Theta$，使得向量 $\eta_i=\eta(\theta_i)-\eta(\theta_0)$（$i=1,2,\dots,p$）在 $\mathbb R^p$ 中线性无关。令 $\mathcal P_0=\{f_\theta:\theta\in\Theta_0\}$，注意到分布族有公共支撑，当 $f_\infty=f_{\theta_0}$ 时，有

$S(X)=\big(\exp\{\eta_1^\textsf{T}T(x)-\xi_1\},\dots,\exp\{\eta_p^\textsf{T}T(x)-\xi_p\}\big)$

是 $\theta\in\Theta_0$ 的最小充分统计量，其中 $\xi_i=\xi(\theta_i)-\xi(\theta_0)$。因为 $\eta_i$ 线性无关，所以存在一对一可测函数 $\psi$ 使得 $T(X)=\psi(S(X))$ a.s. $\mathcal P_0$。因此 $T$ 是 $\theta\in\Theta_0$ 的最小充分统计量，进而也是 $\theta\in\Theta$ 的最小充分统计量。

完备性

辅助统计量

一个统计量 $V(X)$ 称为辅助的，若它的分布不依赖于总体 $P$；称为一阶辅助的，若 $\textsf{E}[V(X)]$ 不依赖于总体 $P$。

一个平凡的辅助统计量是常数统计量 $V(X)\equiv c\in\mathbb R$。
若 $V(X)$ 是一个非平凡辅助统计量，则 $\sigma(V(X))\subset\sigma(X)$ 是一个非平凡的 $\sigma$-域，它不包含任何有关 $P$ 的信息。
如果 $S(X)$ 是一个统计量且 $V(S(X))$ 是一个非平凡的辅助统计量，这意味着 $\sigma(S(X))$ 包含了一个不包含任何有关 $P$ 信息的非平凡 $\sigma$-域，这就意味着 $S(X)$ 可进一步被简化。
对充分统计量 $T(X)$ 而言，如果不存在 $T$ 的非常值函数是辅助的或一阶辅助的，则 $T(X)$ 最成功地压缩了数据。

完备统计量

定义8. 统计量 $T(X)$ 称为对 $P\in\cal P$ 是完备的，当且仅当对任一 Borel 函数 $f$，

$\textsf{E}[f(T)]=0,~\forall P\in\mathcal P~\Longrightarrow~f(T)\equiv0$ a.s. $\cal P.$

若该命题对任一有界 Borel 函数 $f$ 成立，则称 $T$ 是有界完备的。

完备统计量一定是有界完备的。
若 $T$ 是（有界）完备的且对可测函数 $\psi$ 有 $S=\psi(T)$，则 $S$ 是（有界）完备的。
若最小充分统计量存在，那么一个充分且完备的统计量一定是最小充分统计量，反之不然。

例9. 在例7中我们已经证明了对 $P_\theta=U(\theta,\theta+1)$，$\theta\in\mathbb R$，$T(X)=(X_{(1)},X_{(n)})$ 是最小充分统计量。注意到 $X_{(n)}-X_{(1)}$ 是辅助统计量，且对一切 $\theta\in\mathbb R$，有

$\textsf{E}_\theta\left(X_{(n)}-X_{(1)}-\dfrac{n-1}{n+1}\right)=0.$

但是，$X_{(n)}-X_{(1)}-\dfrac{n-1}{n+1}$ 作为 $T$ 的函数，其以概率 $1$ 不为 $0$。

命题1. 若 $P$ 属于满秩的指数分布族，p.d.f. 为

$f_\eta(\omega)=\exp\big\{\eta^\textsf{T}T(\omega)-\zeta(\eta)\big\}h(\omega),\quad\omega\in\Omega,$

则 $T(X)$ 是 $\eta\in\Xi$ 的充分完备统计量。

证明. $T$ 的充分性已由因子分解定理保证。现假设存在一个函数 $f$，使得 $\textsf{E}[f(T)]=0$ 对所有 $\eta\in\Xi$ 成立，则即

$\displaystyle\int f(t)\exp\big\{\eta^\textsf{T}t-\zeta(\eta)\big\}\text{d}\lambda=0,\quad\forall\eta\in\Xi,$

其中 $\lambda$ 是 $(\mathbb R^p,\mathcal B^p)$ 上的一个测度。令 $\eta_0$ 是 $\Xi$ 的一个内点，那么

$\displaystyle\int f_+(t)\text{e}^{\eta^\textsf{T}t}\text{d}\lambda=\int f_-(t)\text{e}^{\eta^\textsf{T}t}\text{d}\lambda,\quad\forall\eta\in N(\eta_0),$

其中 $N(\eta_0)=\{\eta\in\mathbb R^p:\vert\vert\eta-\eta_0\vert\vert<\varepsilon\}$，$\varepsilon>0$。特别地，

$\displaystyle\int f_+(t)\text{e}^{\eta_0^\textsf{T}t}\text{d}\lambda=\int f_-(t)\text{e}^{\eta_0^\textsf{T}t}\text{d}\lambda=c.$

若 $c=0$，则 $f=0$ a.e. $\lambda$。若 $c>0$，则 $c^{-1}f_+(t)\text{e}^{\eta_0^\textsf{T}t}$ 和 $c^{-1}f_-(t)\text{e}^{\eta_0^\textsf{T}t}$ 是关于 $\lambda$ 的 p.d.f.，那么它们的矩母函数在 $0$ 的一个邻域内相同，从而导出 $f=f_+-f_-=0$ a.e. $\lambda$。综合上述，$T$ 是完备的。

例10. 设 $X_1,\dots,X_n$ i.i.d. 服从 $N(\mu,\sigma^2)$ 分布，$\mu\in\mathbb R$，$\sigma>0$。由例4可知，$X_1,\dots,X_n$ 的联合 p.d.f. 有形式

$(2\pi)^{-\frac{n}{2}}\exp\{\eta_1T_1+\eta_2T_2-n\zeta(\eta)\},$

其中 $T_1=\sum\limits_{i=1}^nX_i$，$T_2=-\sum\limits_{i=1}^nX_i^2$ 和 $\eta=(\eta_1,\eta_2)=\Big(\dfrac{\mu}{\sigma^2},\dfrac{1}{2\sigma^2}\Big)$。这样的正态分布族是满秩的指数分布族，因此 $T(X)=(T_1,T_2)$ 是 $\eta$（进而 $\theta=(\mu,\sigma^2)$）的充分完备统计量。进一步，充分完备统计量的一对一可测函数也是充分完备的，所以 $(\overline{X},S^2)$ 关于 $\theta$ 是充分完备的。

例11. 设 $X_1,\dots,X_n$ i.i.d. 来自总体 $P_\theta$ 为均匀分布 $U(0,\theta)$，$\theta>0$。那么 $X_1,\dots,X_n$ 的联合 Lebesgue p.d.f. 为

$f(x_1,\dots,x_n)=\theta^{-n}\cdot I_{(0,\theta)}(x_{(n)}).$

从而由因子分解定理可知 $X_{(n)}$ 是充分统计量。令 $f$ 为在 $[0,+\infty)$ 上的 Borel 函数，$\textsf{E}[f(X_{(n)})]=0$ 对所有 $\theta>0$ 成立，即

$\displaystyle G(\theta)\triangleq\int_0^\theta f(x)x^{n-1}\text{d}x=0,\quad\forall\theta>0.$

于是 $G’(\theta)=f(\theta)\theta^{n-1}$ a.e. $m_+$，这里 $m_+$ 是 $([0,+\infty),\mathcal B_{[0,+\infty)})$ 上的 Lebesgue 测度。于是

$G(\theta)=0,~\forall\theta>0~\Longrightarrow~f(\theta)\theta^{n-1}=0$ a.e. $m_+~\Longrightarrow~f(x)=0$ a.e. $m_+.$

这就说明了 $X_{(n)}$ 的完备性。

下面结果给出了辅助统计量和充分完备统计量之间的关系。

定理4 (Basu). 设 $V$ 和 $T$ 是两个来自总体 $P\in\cal P$ 的 $X$ 的统计量。如果 $V$ 是辅助的，$T$ 关于 $P\in\cal P$ 是有界完备且充分的，则关于任意 $P\in\cal P$，$V$ 与 $T$ 独立。

证明. 令 $B$ 是 $V$ 值域上的一个事件。

因为 $V$ 是辅助的，所以 $P(V^{-1}(B))$ 是一个常数。
因为 $T$ 是充分的，所以 $\textsf{E}[I_B(V)\mid T]$ 是 $T$ 的函数（不依赖于 $P$）。

注意到 $\textsf{E}\{\textsf{E}[I_B(V)\mid T]-P(V^{-1}(B))\}=0$ 对所有 $P\in\cal P$ 成立，根据 $T$ 的有界完备性，

$P(V^{-1}(B)\mid T)=\textsf{E}[I_B(V)\mid T]=P(V^{-1}(B))$ a.s. $\cal P.$

令 $A$ 是 $T$ 值域上的一个事件。那么

$\begin{array}{rl} P(T^{-1}(A)\cap V^{-1}(B))&\!\!\!\!=\textsf{E}\{\textsf{E}[I_A(T)I_B(V)\mid T]\}\\ &\!\!\!\!=\textsf{E}\{I_A(T)\cdot\textsf{E}[I_B(V)\mid T]\}\\ &\!\!\!\!=\textsf{E}\{I_A(T)\cdot P(V^{-1}(B))\}=P(T^{-1}(A))\cdot P(V^{-1}(B)). \end{array}$

因此，关于任意 $P\in\cal P$，$T$ 与 $V$ 独立。

例12. 设 $X_1,\dots,X_n$ i.i.d. 来自总体 $P_\theta$ 为均匀分布 $U(0,\theta)$，$\theta>0$。考虑 $V=X_{(1)}/X_{(n)}$ 的密度函数为

$f_V(v)=(n-1)(1-v)^{n-2},\quad 0<v<1.$

它与参数 $\theta$ 无关，因此 $V$ 是辅助统计量。例11告诉我们 $X_{(n)}$ 是充分完备统计量。所以由 Basu 定理，$X_{(n)}$ 与 $V=X_{(1)}/X_{(n)}$ 独立。

后记

本节内容来自于 Mathematical Statistics by Jun Shao.

Fundamentals of Statistics (Populations, Samples, Models, Statistics, Sufficiency, and Completeness)