数理统计依赖概率论,而概率论则以测度论为基础。本章是数理统计的基础。
概率空间和随机元
$\sigma$-域与测度
设 $\Omega$ 为感兴趣元素的集合,在统计学中称之为样本空间,它是随机试验所有可能发生结果的集合。在某个给定的样本空间 $\Omega$ 上,测度是针对 $\Omega$ 上特定子集所定义的集合函数。由这些子集所组成的集合类必须满足一定的性质,定义如下:
定义1. 设 $\cal F$ 是样本空间 $\Omega$ 的某些子集组成的集合类。$\cal F$ 称为 $\pmb\sigma$-域(或 $\pmb\sigma$-代数),当且仅当它具有如下性质:
- 空集 $\varnothing\in\cal F$;
- 如果 $A\in\cal F$,则补集 $A^c\in\cal F$;
- 如果 $A_i\in\cal F$,$i=1,2,\dots$,则它们的并 $\bigcup A_i\in\cal F$。
由集合 $\Omega$ 和 $\Omega$ 的子集的 $\sigma$-域 $\cal F$ 构成的 $(\Omega,\mathcal F)$ 称为可测空间,$\cal F$ 的元素(在统计学中)称为事件。
- 包含集合 $A$ $(A\subset\Omega)$ 的最小 $\sigma$-域为 $\sigma({A})={\varnothing, A, A^c, \Omega}$;
- 设 $\cal C$ 是一维实数集 $\mathbb R$ 上所有有限开区间的集合类,$\mathcal B=\sigma(\mathcal C)$ 称为 Borel $\pmb\sigma$-域,其中的元素称为 Borel 集。
- 设 $C\subset\mathbb R^k$ 是一个 Borel 集,令
$\mathcal B_C=\{C\cap B:B\in\mathcal B^k\},$ 那么 $(C,\mathcal B_C)$ 是可测空间,$\mathcal B_C$ 称为 $C$ 上的 Borel $\sigma$-域。
定义2. 设 $(\Omega,\mathcal F)$ 是一个可测空间。定义在 $\cal F$ 上的集合函数 $\nu$ 称为测度,当且仅当它满足如下性质:
- 对于任意 $A\in\cal F$,$0\leq\nu(A)\leq\infty$;
- $\nu(\varnothing)=0$;
- 如果 $A_i\in\cal F$,$i=1,2,\dots$ 且 $A_i$ 两两不相交,即对任意 $i\neq j$,$A_i\cap A_j=\varnothing$,那么
$\displaystyle\nu\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}\nu(A_i).$
进一步称 $(\Omega,\mathcal F,\nu)$ 为测度空间。
- 如果 $\nu(\Omega)=1$,则 $\nu$ 称为概率测度,通常记作 $P$,而称 $(\Omega,\mathcal F,P)$ 为概率空间。
- 如果 $\nu(A)$ 是 $A\in\cal F$ 中元素的个数(若 $A$ 包含无限多个元素,则 $\nu(A)=\infty$),则 $\nu$ 称为 $\cal F$ 上的计数测度。
- 在 $(\mathbb R,\mathcal B)$ 上存在唯一的测度 $m$,对于每个有限区间 $[a,b]$,$-\infty<a\leq b<\infty$,它满足
$m([a,b])=b-a.$ 则 $m$ 称为 Lebesgue 测度。
命题1. 设 $(\Omega,\mathcal F,\nu)$ 是一个测度空间。
- (单调性)如果 $A\subset B$,那么 $\nu(A)\leq\nu(B)$;
- (次可加性)对于任意序列 $A_1,A_2,\dots$,
$\displaystyle\nu\left(\bigcup_{i=1}^{\infty}A_i\right)\leq\sum_{i=1}^{\infty}\nu(A_i);$ - (连续性)如果 $A_1\subset A_2\subset A_3\subset\cdots$(或者 $A_1\supset A_2\supset A_3\supset\cdots$ 且 $\nu(A_1)<\infty$),那么
$\nu\left(\lim\limits_{n\rightarrow\infty}A_n\right)=\lim\limits_{n\rightarrow\infty}\nu(A_n),$ 其中 $\lim\limits_{n\rightarrow\infty}A_n=\bigcup_{i=1}^{\infty}A_i$(或 $\bigcap_{i=1}^{\infty}A_i$)。
命题2 (乘积测度定理). 设 $(\Omega_i,\mathcal F_i,\nu_i)$ 是测度空间,$i=1,\dots,k$,其中 $\nu_i$ 是 $\sigma$-有限的,$k\geq 2$ 为整数。那么,存在乘积 $\sigma$-域 $\sigma(\mathcal F_1\times\cdots\times\mathcal F_k)$ 上的唯一 $\sigma$ 有限测度,称为乘积测度,记为 $\nu_1\times\cdots\times\nu_k$,使得对于任意 $A_i\in\cal F$,$i=1,\dots,k$,有
上述命题也可以推广到涉及无限多个测度空间的情况。
可测函数与分布
由于 $\Omega$ 的任意性,通常考虑从 $\Omega$ 到一个相对简单的空间 $\Lambda$(常为 $\mathbb R^k$)作一函数映射 $f$。令 $B\subset\Lambda$,那么 $B$ 在 $f$ 下的原像为
注意这与反函数的意义不同。容易证明:
- 对于任意 $B\in\Lambda$,$f^{-1}(B^c)=(f^{-1}(B))^c$;
- 对于任意 $B_i\in\Lambda$,$i=1,2,\dots$,$f^{-1}\left(\bigcup B_i\right)=\bigcup f^{-1}(B_i)$。
设 $\cal C$ 是 $\Lambda$ 子集的集类,定义
定义3. 设 $(\Omega,\mathcal F)$ 和 $(\Lambda,\mathcal G)$ 是可测空间,$f$ 是从 $\Omega$ 到 $\Lambda$ 的函数。函数 $f$ 称为 $(\Omega,\mathcal F)$ 到 $(\Lambda,\mathcal G)$ 的可测函数,当且仅当 $f^{-1}(\mathcal G)\subset\mathcal F$。
- 如果 $\Lambda=\mathbb R$ 且 $\mathcal G=\mathcal B$,那么 $f$ 是 Borel 可测的,或称之为 $(\Omega,\mathcal F)$ 上的 Borel 函数。
- 如果 $f$ 是从 $(\Omega,\mathcal F)$ 到 $(\Lambda,\mathcal G)$ 可测的,那么 $f^{-1}(\mathcal G)$ 是 $\cal F$ 的子 $\sigma$-域,称之为由 $\pmb f$ 生成的 $\pmb\sigma$-域,记作 $\sigma(f)$。
在概率论中,可测函数称为随机元,常记为 $X,Y,Z,\dots$。
- 如果 $X$ 是 $(\Omega,\mathcal F)$ 到 $(\mathbb R,\mathcal B)$ 的随机元,则称之为随机变量;
- 如果 $X$ 是 $(\Omega,\mathcal F)$ 到 $(\mathbb R^k,\mathcal B^k)$ 的随机元,则称之为 $\pmb k$ 维随机向量;
如果 $X_1,\dots,X_k$ 是定义在公共概率空间上的随机变量,那么向量 $(X_1,\dots,X_k)$ 是一个 $k$ 维随机向量。
例1 (常见的可测函数). 设 $A\subset\Omega$,$A$ 的示性函数定义为
对于任意 $B\subset\mathbb R$,
那么 $\sigma(I_A)$ 是 $\sigma$ 域。如果 $A$ 是一个可测集,那么 $I_A$ 是一个 Borel 函数。
简单函数类可以通过取可测集示性函数的线性组合构成,即
其中 $A_1,\dots,A_k$ 是 $\Omega$ 上的可测集,$a_1,\dots,a_k$ 是实数。这样得到的函数是 Borel 函数。
命题3. 设 $(\Omega,\mathcal F)$ 是一个可测空间。
- $f$ 是 Borel 函数,当且仅当对于任意 $a\in\mathbb R$,$f^{-1}(a,\infty)\in\cal F$;
- 如果 $f$ 和 $g$ 是 Borel 函数,那么 $fg$ 和 $af+bg$ 也是,其中 $a$ 和 $b$ 是实数;同样地,若对于任意 $\omega\in\Omega$,$g(\omega)\neq0$,那么 $f/g$ 也是 Borel 函数;
- 如果 $f_1,f_2,\dots$ 是 Borel 函数,那么 $\sup_n f_n$,$\inf_n f_n$,$\limsup_n f_n$ 和 $\liminf_n f_n$ 也是;另外,集合
$\displaystyle A=\left\{\omega\in\Omega:\lim_{n\rightarrow\infty}f_n(\omega)~\text{存在}~\right\}$ 是一个事件,函数
$h(\omega)=\left\{\begin{array}{ll} \lim\limits_{n\rightarrow\infty}f_n(\omega), & \omega\in A,\\ f_1(\omega), & \omega\notin A \end{array}\right.$ 是 Borel 函数;
- 假设 $f$ 是从 $(\Omega,\mathcal F)$ 到 $(\Lambda,\mathcal G)$ 上可测的,$g$ 是从 $(\Lambda,\mathcal G)$ 到 $(\Delta,\mathcal H)$ 上可测的,那么复合函数 $g\circ f$ 是从 $(\Omega,\mathcal F)$ 到 $(\Delta,\mathcal H)$ 上可测的;
- 设 $\Omega$ 是 $\mathbb R^p$ 上的 Borel 集,如果 $f$ 是从 $\Omega$ 到 $\mathbb R^p$ 的连续函数,那么 $f$ 是可测的。
设 $(\Omega,\mathcal F,\nu)$ 是一个测度空间,$f$ 是从 $(\Omega,\mathcal F)$ 到 $(\Lambda,\mathcal G)$ 上的可测函数。$f$ 的导出测度是 $\cal G$ 上的测度,记作 $\nu\circ f^{-1}$,定义为
处理 $\nu\circ f^{-1}$ 通常会比处理 $\nu$ 更加容易,因为 $(\Lambda,\mathcal G)$ 通常比 $(\Omega,\mathcal F)$ 简单。
如果 $\nu=P$ 是一个概率测度,$X$ 是一个随机变量或者随机向量,那么 $P\circ X^{-1}$ 称为 $X$ 的分布,记作 $P_X$。称如下定义的累积分布函数(c.d.f.)为 $X$ 的 c.d.f. 或者联合 c.d.f,记作 $F_X$,
命题4. 设 $F$ 是$\mathbb R$ 上的一个 c.d.f.,那么
- $F(-\infty)=\lim\limits_{x\rightarrow-\infty}F(x)=0$,$F(\infty)=\lim\limits_{x\rightarrow\infty}F(x)=1$;
- $F$ 是非降的,即若 $x\leq y$,则 $F(x)\leq F(y)$;
- $F$ 是右连续的,即 $\lim\limits_{y\rightarrow x,y>x}F(y)=F(x)$。
假设 $\mathbb R$ 上的实值函数 $F$ 满足上述三个条件,那么 $F$ 是 $(\mathbb R,\mathcal B)$ 上唯一的概率测度的 c.d.f.。
例2 (常见的随机向量和它们的 c.d.f.). 设 $a_1<a_2<\cdots$ 是一列实数,$p_n~(n=1,2,\dots)$ 是一列正数,且 $\sum_{n=1}^{\infty}p_n=1$。定义
那么,$F$ 是阶梯 c.d.f.,它在每个 $a_n$ 处有 $p_n$ 的跃变,而在 $a_n$ 和 $a_{n+1}$ 之间是平坦的,其中 $n=1,2,\dots$。这样的 c.d.f. 称为离散 c.d.f.,对应的随机变量称为离散随机变量。
与离散 c.d.f. 类对立的是连续 c.d.f. 类,如区间 $[a,b]$ 上的均匀 c.d.f.
以及指数 c.d.f.
其中 $\theta$ 是一个固定正数。
积分和微分
积分
这里我们介绍的积分是 Borel 函数关于测度 $\nu$ 的积分,是平均的一种形式。
定义4. 非负简单函数 $\varphi(\omega)=\sum_{i=1}^ka_iI_{A_i}(\omega)$ 关于 $\nu$ 的积分定义为
进一步,设 $f$ 是一个非负 Borel 函数,$\mathcal S_f$ 是形如非负简单函数且对于任意 $\omega\in\Omega$ 满足 $\varphi(\omega)\leq f(\omega)$ 的所有非负简单函数的集类。$f$ 关于 $\nu$ 的积分定义为
最后,对于 Borel 函数 $f$,定义其正部和负部如下:
则 $f(\omega)=f_+(\omega)-f_-(\omega)$ 和 $\vert f(\omega)\vert=f_+(\omega)+f_-(\omega)$。称 $\int f\text{d}\nu$ 存在,当且仅当 $\int f_+\text{d}\nu$ 和 $\int f_-\text{d}\nu$ 至少有一个是有限的,在这种情况下
如果两者都有限,则称 $f$ 是可积的。
最后的最后,设 $A$ 是一个可测集,$I_A$ 是它的示性函数,$f$ 在 $A$ 上的积分定义为
- 对于任意非负 Borel 函数 $f$,存在一列简单函数 $\varphi_1,\varphi_2,\dots$,使得对于任意 $i$,$0\leq\varphi_i\leq f$,且
$\displaystyle\lim\limits_{n\rightarrow\infty}\int\varphi_n\text{d}\nu=\int f\text{d}\nu.$ - Borel 函数 $f$ 是可积的,当且仅当 $\vert f\vert$ 是可积的。
- 在概率论中,$\int X\text{d}P$ 通常记作 $E(X)$,称为 $X$ 的期望;如果 $F$ 是 $P$ 在 $(\mathbb R^k,\mathcal B^k)$ 上的 c.d.f.,那么 $\int f\text{d}P$ 也可以记作 $\int f\text{d}F$。
命题5. 设 $(\Omega,\mathcal F,\nu)$ 是一测度空间,$f$ 和 $g$ 是 Borel 函数。
- 如果 $\int f\text{d}\nu$ 存在,且 $a\in\mathbb R$,那么 $\int(af)\text{d}\nu$ 存在且等于 $a\int f\text{d}\nu$;
- 如果 $\int f\text{d}\nu$ 和 $\int g\text{d}\nu$ 都存在,且 $\int f\text{d}\nu+\int g\text{d}\nu$ 有明确的定义,那么 $\int(f+g)\text{d}\nu$ 存在且等于 $\int f\text{d}\nu+\int g\text{d}\nu$。
如果某个论述对除去一个 $\nu$-零测集外的集合均成立,则称该论述对于 $\nu$ a.e.(几乎处处)成立。
命题6. 设 $(\Omega,\mathcal F,\nu)$ 是一测度空间,$f$ 和 $g$ 是 Borel 函数。
- 如果 $f\leq g$ a.e.,那么当积分都存在时,$\int f\text{d}\nu\leq\int g\text{d}\nu$;
- 如果 $f\geq 0$ a.e.,且 $\int f\text{d}\nu=0$,那么 $f=0$ a.e.
下面定理是实分析也是概率论中的重要定理,它说明了积分与极限的可交换性。
定理1. 设 $f_1,f_2,\dots$ 是 $(\Omega,\mathcal F,\nu)$ 上的一列 Borel 函数。
- (Fatou引理)如果 $f_n\geq0$,那么
$\displaystyle\int\liminf_{n\rightarrow\infty}f_n\text{d}\nu\leq\liminf_{n\rightarrow\infty}\int f_n\text{d}\nu;$ - (控制收敛定理)如果 $\lim\limits_{n\rightarrow\infty}f_n=f$ a.e.,且存在一个可积函数 $g$,使得 $\vert f_n\vert\leq g$ a.e.,那么
$\displaystyle\int\lim_{n\rightarrow\infty}f_n\text{d}\nu=\lim_{n\rightarrow\infty}\int f_n\text{d}\nu;$ - (单调收敛定理)如果 $0\leq f_1\leq f_2\leq\cdots$ 且 $\lim\limits_{n\rightarrow\infty}f_n=f$ a.e.,那么
$\displaystyle\int\lim_{n\rightarrow\infty}f_n\text{d}\nu=\lim_{n\rightarrow\infty}\int f_n\text{d}\nu.$
例3 (微分和积分的可交换性). 设 $(\Omega,\mathcal F,\nu)$ 是一个测度空间,对于任意固定的 $\theta\in\mathbb R$,$f(\omega,\theta)$ 是 $\Omega$ 上的 Borel 函数。假设对于 $\theta\in(a,b)\subset\mathbb R$,
其中 $g$ 是 $\Omega$ 上的可积函数。那么对于每个 $\theta\in(a,b)$,$\partial f(\omega,\theta)/\partial\theta$ 可积,且
定理2. 设 $f$ 是从 $(\Omega,\mathcal F,\nu)$ 到 $(\Lambda,\mathcal G)$ 的可测函数,$g$ 在 $(\Lambda,\mathcal G)$ 上是 Borel 函数。那么
即如果其中一个积分存在,则另一个积分也存在,且二者相等。
定理2也称为变量转换定理,在概率论中十分重要。例如 $Y$ 是 $\Omega$ 到 $\mathbb R^k$ 的一个随机向量,而 $g$ 是 $\mathbb R^k$ 到 $\mathbb R$ 的 Borel 函数,则
实际问题中视何种情况容易处理选择相应的计算方式。
定理3 (Fubini). 设 $\nu_i$ 是 $(\Omega_i,\mathcal F_i)$ 上的一个 $\sigma$ 有限测度,$i=1,2$,$f$ 是 $\prod_{i=1}^2(\Omega_i,\mathcal F_i)$ 上的 Borel 函数。假设 $f\geq0$ 或者 $f$ 关于 $\nu_1\times\nu_2$ 可积,那么
关于 $\nu_2$ a.e. 存在,且定义了 $\Omega_2$ 上的一个 Borel 函数,其关于 $\nu_2$ 的积分存在,并有
这一结果也可以推广到 $\prod_{i=1}^k(\Omega_i,\mathcal F_i)$ 上乘积测度的积分,其中 $k$ 是任意有限正整数。
Radon-Nikodym 导数
设 $(\Omega,\mathcal F,\nu)$ 是一个测度空间,$f$ 是一个非负 Borel 函数。我们可以证明,集合函数
是可测空间 $(\Omega,\mathcal F)$ 上的测度,且 $\nu(A)=0\Rightarrow\lambda(A)=0$。
定义5. 如果定义在同一测度空间上的两个测度 $\lambda$ 和 $\nu$ 满足
则称 $\lambda$ 关于 $\nu$ 绝对连续(或称 $\lambda$ 受控于 $\nu$),记作 $\lambda\ll\nu$。
定理4 (Radon-Nikodym). 设 $\nu$ 和 $\lambda$ 是 $(\Omega,\mathcal F)$ 上的两个测度,其中 $\nu$ 是 $\sigma$ 有限的。如果 $\lambda\ll\nu$,则存在 $\Omega$ 上的一个非负 Borel 函数 $f$,使得
此外,$f$ 是唯一的 a.e. $\nu$。称 $f$ 为 Radon-Nikodym 导数或者 $\lambda$ 关于 $\nu$ 的密度,记作 $\text{d}\lambda/\text{d}\nu$。
- 如果 $f$ 是 $(\Omega,\mathcal F)$ 上的 Borel 函数,且对于任意 $A\in\mathcal F$ 有 $\int_Af\text{d}\nu=0$,那么 $f=0$ a.e.;
- 对于 $f\geq0$,如果 $\int f\text{d}\nu=1$ a.e. $\nu$,那么 $\lambda$ 是一个概率测度,称 $f$ 为关于 $\nu$ 的概率密度函数(p.d.f.)。
例4. 考虑例2中的离散 c.d.f. $F$,概率测度为
设 $\Omega={a_1,a_2,\dots}$,$\nu$ 为 $\Omega$ 所有子集的集合类上的计数测度,则
其中 $f(a_i)=p_i$,$i=1,2,\dots$。也就是说,$f$ 是 $P$ 或 $F$ 关于 $\nu$ 的 p.d.f. 因此,任意离散 p.d.f. 都存在关于计数测度的 p.d.f.,称为离散 p.d.f.
下面考虑连续 c.d.f. $F$,假定其在微积分学意义上可微,其导数为 $f$,那么
设 $P$ 是对应于 $F$ 的概率测度,可以证明对于任意 $A\in\mathcal B$,$P(A)=\int_Af\text{d}m$,这里 $m$ 是 $\mathbb R$ 上的 Lebesgue 测度。因此,$f$ 是 $P$ 或 $F$ 关于 Lebesgue 测度的 p.d.f. 此时,Radon-Nikodym 导数和微积分学意义上的导数是一样的。
下面命题给出了 Radon-Nikodym 导数的运算法则。
命题7. 设 $\nu$ 是测度空间 $(\Omega,\mathcal F)$ 上的 $\sigma$ 有限测度。下面提到的其他测度都定义在 $(\Omega,\mathcal F)$ 上。
- 如果 $\lambda$ 是一个测度,$\lambda\ll\nu$,且 $f\geq0$,那么
$\displaystyle\int f\text{d}\lambda=\int f\dfrac{\text{d}\lambda}{\text{d}\nu}\text{d}\nu;$ - 如果 $\lambda_i$ 是测度,且 $\lambda_i\ll\nu$,$i=1,2$,那么 $\lambda_1+\lambda_2\ll\nu$,且
$\displaystyle\dfrac{\text{d}(\lambda_1+\lambda_2)}{\text{d}\nu}=\dfrac{\text{d}\lambda_1}{\text{d}\nu}+\dfrac{\text{d}\lambda_2}{\text{d}\nu}$ a.e. $\nu;$ - 如果 $\tau$ 是一个测度,$\lambda$ 是一个 $\sigma$ 有限测度,且 $\tau\ll\lambda\ll\nu$,那么
$\displaystyle\dfrac{\text{d}\tau}{\text{d}\nu}=\dfrac{\text{d}\tau}{\text{d}\lambda}\dfrac{\text{d}\lambda}{\text{d}\nu}$ a.e. $\nu;$ 特别地,如果 $\lambda\ll\nu$ 且 $\nu\ll\lambda$(此时 $\lambda$ 与 $\nu$ 等价),那么
$\displaystyle\dfrac{\text{d}\lambda}{\text{d}\nu}=\left(\dfrac{\text{d}\nu}{\text{d}\lambda}\right)^{-1}$ a.e. $\nu$ 或 $\lambda;$ - 设 $(\Omega_i,\mathcal F_i,\nu_i)$ 是测度空间,$\nu_i$ 是 $\sigma$ 有限的,$i=1,2$。设 $\lambda_i$ 是 $(\Omega_i,\mathcal F_i)$ 上的一个 $\sigma$ 有限测度,且 $\lambda_i\ll\nu_i$,$i=1,2$。那么 $\lambda_1\times\lambda_2\ll\nu_1\times\nu_2$,且
$\displaystyle\dfrac{\text{d}(\lambda_1\times\lambda_2)}{\text{d}(\nu_1\times\nu_2)}(\omega_1,\omega_2)=\dfrac{\text{d}\lambda_1}{\text{d}\nu_1}(\omega_1)\dfrac{\text{d}\lambda_2}{\text{d}\nu_2}(\omega_2)$ a.e. $\nu_1\times\nu_2.$
后记
本节内容来自于 Mathematical Statistics by Jun Shao.