渐近理论研究随机变量以及它们分布的极限行为,本节给出一些重要的结果。
收敛模式和随机次序
定义1. 设 $X,X_1,X_2,\dots$ 是定义在一个概率空间上的 $k$ 维随机向量。
- 称序列 $\{X_n\}$ 几乎处处(a.s.)收敛到 $X$,记为 $X_n\overset{\text{a.s.}}{\rightarrow}X$,当且仅当
$\lim\limits_{n\rightarrow\infty}X_n=X$ a.s. - 称序列 $\{X_n\}$ 依概率收敛到 $X$,记为 $X_n\overset{P}{\rightarrow}X$,当且仅当对于每个固定的 $\varepsilon>0$,
$\lim\limits_{n\rightarrow\infty}P(\|X_n-X\|_2>\varepsilon)=0.$ - 称序列 $\{X_n\}$ $L_r$(或者 $r$ 阶矩)收敛到 $X$,记为 $X_n\overset{L_r}{\rightarrow}X$,当且仅当
$\lim\limits_{n\rightarrow\infty}\textsf{E}\|X_n-X\|_r^r=0,$ 其中 $r>0$ 是固定常数。
- 设 $F,F_n~(n=1,2,\dots)$ 是 $\mathbb R^k$ 上的 c.d.f.,$P,P_n~(n=1,2,\dots)$ 是它们的概率测度。我们称 $\{F_n\}$ 弱收敛到 $F$(或者 $\{P_n\}$ 弱收敛到 $P$),记作 $F_n\overset{w}{\rightarrow}F$(或者 $P_n\overset{w}{\rightarrow}P$),当且仅当对于每个 $F$ 的连续点 $x$,
$\lim\limits_{n\rightarrow\infty}F_n(x)=F(x).$ 称 $\{X_n\}$ 依分布收敛到 $X$,记为 $X_n\overset{d}{\rightarrow}X$,当且仅当 $F_{X_n}\overset{w}{\rightarrow}F_X$。
命题1 (Polya 定理). 如果 $F_n\overset{w}{\rightarrow}F$ 且 $F$ 在 $\mathbb R^k$ 上连续,那么
引理1. 对于概率空间上的 $k$ 维随机向量 $X,X_1,X_2,\dots,X_n\overset{\text{a.s.}}{\rightarrow}X$,当且仅当对于每个 $\varepsilon>0$,
引理2 (Borel-Cantelli). 设 $A_n~(n=1,2,\dots)$ 是概率空间上的一列事件,$\limsup\limits_nA_n=\bigcap\limits_{n=1}^{\infty}\bigcup\limits_{m=n}^{\infty}A_m$。
- 若 $\sum\limits_{n=1}^{\infty}P(A_n)<\infty$,则 $P\big(\limsup\limits_nA_n\big)=0$。
- 若 $A_1,A_2,\dots$ 两两独立且 $\sum\limits_{n=1}^{\infty}P(A_n)=\infty$,则 $P\big(\limsup\limits_nA_n\big)=1$。
–
下面的定理阐述了四种收敛模式之间的基本关系。
定理1. 设 $X,X_1,X_2,\dots$ 是 $k$ 维随机向量。
- 如果 $X_n\overset{\text{a.s.}}{\rightarrow}X$,那么 $X_n\overset{P}{\rightarrow}X$。
- 如果对于 $r>0$ 有 $X_n\overset{L_r}{\rightarrow}X$,那么 $X_n\overset{P}{\rightarrow}X$。
- 如果 $X_n\overset{P}{\rightarrow}X$,那么 $X_n\overset{d}{\rightarrow}X$。
- (Skorohod 定理) 如果 $X_n\overset{d}{\rightarrow}X$,那么存在定义在公共概率空间上的随机向量 $Y,Y_1,Y_2,\dots$,使得 $P_Y=P_X$,$P_{Y_n}=P_{X_n}$,$n=1,2,\dots$,且 $Y_n\overset{\text{a.s.}}{\rightarrow}Y$。
- 如果对于每个 $\varepsilon>0$,有 $\sum\limits_{n=1}^{\infty}P(|X_n-X|_2\geq\varepsilon)<\infty$,那么 $X_n\overset{\text{a.s.}}{\rightarrow}X$。
- 如果 $X_n\overset{P}{\rightarrow}X$,那么存在一个子序列 $\{X_{n_j},j=1,2,\dots\}$ 使得当 $j\rightarrow\infty$ 时,$X_{n_j}\overset{\text{a.s.}}{\rightarrow}X$。
- 如果 $X_n\overset{d}{\rightarrow}X$ 和 $P(X=c)=1$,其中 $c\in\mathbb R^k$ 是一个常数向量,那么 $X_n\overset{P}{\rightarrow}c$。
- 假设 $X_n\overset{d}{\rightarrow}X$,那么对于任意 $r>0$,
$\lim\limits_{n\rightarrow\infty}\textsf{E}\|X_n\|_r^r=\textsf{E}\|X\|_r^r<\infty$ 当且仅当 $\{|X_n|_r^r\}$ 是一致可积的,即
$\lim\limits_{t\rightarrow\infty}\sup\limits_n\textsf{E}\big(\|X_n\|_r^r\cdot I_{\{\|X_n\|_r>t\}}\big)=0.$
下面介绍记号 $O(\cdot),~o(\cdot)$ 以及随机的 $O_P(\cdot)$ 和 $o_P(\cdot)$。在微积分中,对于两列实数 $\{a_n\}$ 和 $\{b_n\}$,
- $a_n=O(b_n)$ 当且仅当对于所有 $n$ 和常数 $c$,$\vert a_n\vert\leq c\vert b_n\vert$;
- $a_n=o(b_n)$ 当且仅当 $n\rightarrow\infty$ 时,$a_n/b_n\rightarrow0$。
定义2. 设 $X_1,X_2,\dots$ 是随机向量,$Y_1,Y_2,\dots$ 是随机变量,均定义在公共概率空间上。
- $X_n=O(Y_n)$ a.s.,当且仅当 $P(|X_n|_2=O(\vert Y_n\vert))=1.$
- $X_n=o(Y_n)$ a.s.,当且仅当 $X_n/Y_n\overset{\text{a.s.}}{\rightarrow}0.$
- $X_n=O_P(Y_n)$,当且仅当对于任意 $\varepsilon>0$,存在常数 $C_\varepsilon>0$,使得 $\sup\limits_nP(|X_n|2\geq C\varepsilon\vert Y_n\vert)<\varepsilon.$
- $X_n=o_P(Y_n)$,当且仅当 $X_n/Y_n\overset{P}{\rightarrow}0.$
- $X_n=o_P(1)$ 就是指 $\{X_n\}$ 依概率收敛;$X_n=O_P(1)$ 是指 $\{X_n\}$ 依概率有界。
- $X_n=o_P(Y_n)$ 可以推出 $X_n=O_P(Y_n)$。
- $X_n=O_P(Y_n)$ 和 $Y_n=O_P(Z_n)$ 可以推出 $X_n=O_P(Z_n)$。
弱收敛
下面的定理给出了依分布收敛的一些充分必要条件。
定理2. 设 $X,X_1,X_2,\dots$ 是 $k$ 维随机向量。$X_n\overset{d}{\rightarrow}X$ 等价于以下任意一个条件:
- 对于任意有界连续函数 $h$,$\textsf{E}[h(X_n)]\rightarrow\textsf{E}[h(X)]$;
- 对于任意闭集 $C\subset\mathbb R^k$,$\limsup\limits_n P_{X_n}(C)\leq P_X(C)$;
- 对于任意开集 $O\subset\mathbb R^k$,$\liminf\limits_n P_{X_n}(O)\geq P_X(O)$;
- (Levy-Cramer 连续定理) 对于所有 $t\in\mathbb R^k$,特征函数 $\phi_{X_n}(t)\rightarrow\phi_X(t)$;
- (Cramer-Wold 的策略) 对于所有 $c\in\mathbb R^k$,$c^\textsf{T}X_n\overset{d}{\rightarrow}c^\textsf{T}X$。
命题2 (Scheffe 定理). 设 $\{f_n\}$ 是 $\mathbb R^k$ 上的一列关于测度 $\nu$ 的 p.d.f. 假设 $\lim\limits_{n\rightarrow\infty}f_n(x)=f(x)$ a.e. $\nu$,其中 $f(x)$ 是关于 $\nu$ 的一个 p.d.f.,那么
变换的收敛性
定理3. 设 $X,X_1,X_2,\dots$ 是定义在概率空间上的 $k$ 维随机向量,$g$ 是 $(\mathbb R^k,\mathcal B^k)$ 到 $(\mathbb R^l,\mathcal B^l)$ 的可测函数。假设 $g$ 连续 a.s. $P_X$,那么
- $X_n\overset{\text{a.s.}}{\rightarrow}X$ 能推出 $g(X_n)\overset{\text{a.s.}}{\rightarrow}g(X).$
- $X_n\overset{P}{\rightarrow}X$ 能推出 $g(X_n)\overset{P}{\rightarrow}g(X).$
- $X_n\overset{d}{\rightarrow}X$ 能推出 $g(X_n)\overset{d}{\rightarrow}g(X).$
定理4 (Slutsky). 设 $X,X_1,X_2,\dots$,$Y_1,Y_2,\dots$ 是概率空间上的随机变量。假设 $X_n\overset{d}{\rightarrow}X$ 和 $Y_n\overset{P}{\rightarrow}c$,其中 $c$ 是固定实数。那么
- $X_n+Y_n\overset{d}{\rightarrow}X+c.$
- $Y_nX_n\overset{d}{\rightarrow}cX.$
- 如果 $c\neq0$,则 $X_n/Y_n\overset{d}{\rightarrow}X/c.$
定理5. 设 $X_1,X_2,\dots$ 和 $Y$ 是 $k$ 维随机向量,满足
其中 $c\in\mathbb R^k$,$\{a_n\}$ 是一列正数,有 $\lim\limits_{n\rightarrow\infty}a_n=\infty$。设 $g$ 是 $\mathbb R^k$ 到 $\mathbb R$ 的一个函数。
- 如果 $g$ 在 $c$ 处可微,那么
$a_n[g(X_n)-g(c)]\overset{d}{\rightarrow}[\nabla g(c)]^\textsf{T}Y,$ 其中 $\nabla g(x)$ 表示 $g$ 在 $x$ 处偏导的 $k$ 维向量。
- 假设 $g$ 在 $c$ 的一个邻域内存在 $m$ 阶连续偏导,其中 $m>1$,且所有的 $j$ 阶偏导在 $c$ 处等于 $0$,$1\leq j\leq m-1$,但是 $m$ 阶偏导在 $c$ 处不全等于 $0$。那么
$\displaystyle a_n^m[g(X_n)-g(c)]\overset{d}{\rightarrow}\dfrac{1}{m!}\sum_{i_1=1}^k\cdots\sum_{i_m=1}^k\dfrac{\partial^m g}{\partial x_{i_1}\cdots\partial x_{i_m}}\bigg\vert_{x=c}Y_{i_1}\cdots Y_{i_m},$ 其中 $Y_j$ 是 $Y$ 的第 $j$ 个分量。
证明. 这里我们仅证明第一条结果,第二条结果的证明是类似的。设
我们只需要证明 $Z_n=o_P(1)$ 即可。注意到 $g$ 在 $c$ 处可微,于是对任意 $\varepsilon>0$,存在一个 $\delta_\varepsilon>0$,对于任意满足 $|x-c|2<\delta\varepsilon$ 的 $x$,都有
令 $\eta>0$ 为一固定数,则
因为 $a_n\rightarrow\infty$,所以条件告诉我们 $X_n\overset{P}{\rightarrow}c$,以及 $a_n|X_n-c|2\overset{d}{\rightarrow}|Y|_2$。不失一般性,假定 $\eta/\varepsilon$ 是 $F{|Y|_2}$ 的连续点,那么
由 $\varepsilon$ 的任意性即得结论成立。
推论1. 假定定理5的条件,如果 $Y$ 服从 $N_k(0,\Sigma)$ 分布,那么
大数定律
大数定律关注的是独立随机变量之和的极限行为。
定理6. 设 $X_1,X_2,\dots$ 是独立同分布的随机变量。
- (弱大数定律) 存在一列实数 $\{a_n\}$ 满足
$\displaystyle\dfrac{1}{n}\sum_{i=1}^nX_i-a_n\overset{P}{\rightarrow}0$ 的充分必要条件是 $nP(\vert X_1\vert>n)\rightarrow0$,在这种情况下,可以令 $a_n=\textsf{E}(X_1I_{\{\vert X_1\vert\leq n\}}).$
- (强大数定律) 存在一个常数 $c$ 满足
$\displaystyle\dfrac{1}{n}\sum_{i=1}^nX_i\overset{\text{a.s.}}{\rightarrow}c$ 的充分必要条件是 $\textsf{E}\vert X_1\vert<\infty$,在这种情况下,$c=\textsf{E}(X_1)$,且对于任意有界实数序列 $\{c_i\}$,
$\displaystyle\dfrac{1}{n}\sum_{i=1}^nc_i(X_i-\textsf{E}(X_i))\overset{\text{a.s.}}{\rightarrow}0.$
定理7. 设 $X_1,X_2,\dots$ 是期望有限的独立随机变量。
- (弱大数定律) 如果存在一个固定常数 $p\in[1,2]$,使得
$\displaystyle\lim_{n\rightarrow\infty}\frac{1}{n^p}\sum_{i=1}^n\textsf{E}\vert X_i\vert^p=0,$ 那么
$\displaystyle\dfrac{1}{n}\sum_{i=1}^n(X_i-\textsf{E}(X_i))\overset{P}{\rightarrow}0.$ - (强大数定律) 如果存在一个固定常数 $p\in[1,2]$,使得
$\displaystyle\sum_{i=1}^{\infty}\dfrac{\textsf{E}\vert X_i\vert^p}{i^p}<\infty,$ 那么
$\displaystyle\dfrac{1}{n}\sum_{i=1}^n(X_i-\textsf{E}(X_i))\overset{\text{a.s.}}{\rightarrow}0.$
中心极限定理
大数定律可能不能用于获得(标准化)独立随机变量和的近似分布,我们需要运用中心极限定理(CLT),这是统计学渐近理论的重要基础。
定理8 (Lindeberg). 设 $\{X_{nj},j=1,\dots,k_n\}$ 是独立随机变量,$0<\sigma_n^2=\textsf{Var}\big(\sum\limits_{j=1}^{k_n}X_{nj}\big)<\infty$,$n=1,2,\dots$,且当 $n\rightarrow\infty$ 时,$k_n\rightarrow\infty$。如果
那么
注: 定理中的条件也称为 Lindeberg 条件,它可以导出 Feller 条件
其中 $\sigma_{nj}^2=\textsf{Var}(X_{nj}).$ 它意味着求和中的每一项都是一致可忽略的。
推论2. 设 $X_1,\dots,X_n$ 是独立同分布的 $k$ 维随机向量,具有有限的 $\Sigma=\textsf{Var}(X_1)$,那么
后记
本节内容来自于 Mathematical Statistics by Jun Shao.