分布及其特征
分布和概率密度
在书本的正文部分,这块内容给出了许多阐述,这边不赘述一些公知的结果,仅给出部分例子与重要定理等。
例1. 设 $X$ 是 $(\Omega,\mathcal F,P)$ 上的随机变量,其 c.d.f. $F$ 对应的 Lebesgue p.d.f. 是 $f$ 且 $F_X(c)<1$,其中 $c$ 是固定常数。设 $Y=\min\{X,c\}$,则 $Y$ 的 c.d.f. 为
这个 c.d.f. 在 $c$ 处是不连续的,所以它不存在 Lebesgue p.d.f.,但它也不是离散的。
为了寻找对应 $F_Y$ 的概率测度 $P_Y$ 关于某个测度的 p.d.f.,定义 $(\mathbb R,\mathcal B)$ 上的一个概率测度,称为 $c$ 处的点质量,
于是 $P_Y\ll m+\delta_c$,这里 $m$ 是 Lebesgue 测度,$P_Y$ 的 p.d.f. 为
下面的结果在计算随机变量变换后的 p.d.f. 时的重要命题。
命题1. 设 $X$ 是 $k$ 维随机向量,Lebesgue p.d.f. 为 $f_X$。令 $Y=g(X)$,其中 $g$ 是 $(\mathbb R^k,\mathcal B^k)$ 到 $(\mathbb R^k,\mathcal B^k)$ 的 Borel 函数。设 $A_1,\dots,A_m$ 是 $\mathcal B^k$ 中互不相交的集合,且 $\mathbb R^k-(A_1\cup\cdots\cup A_m)$ 的 Lebesgue 测度为0,$g$ 是 $A_j$ 上的一对一函数,Jacobi 行列式不为0。那么 $Y$ 有如下 Lebesgue p.d.f.:
其中 $h_j$ 是 $g$ 在 $A_j$ 上的反函数,$j=1,\dots,m$。
例2. 设 $X$ 是一个随机变量,Lebesgue p.d.f. 为 $f_X$。令 $Y=X^2$,$A_1=(-\infty,0)$,$A_2=(0,+\infty)$,$g(x)=x^2$,则命题1的条件满足,而 $h_1(x)=-\sqrt{x}$,$h_2(x)=\sqrt{x}$,因此 $Y$ 的 Lebesgue p.d.f. 为
矩和矩不等式
设 $X$ 是一个随机变量。
- 如果 $\textsf{E}(X^k)$ 有限,其中 $k$ 是正整数,那么 $\textsf{E}(X^k)$ 称为 $X$ 或者 $P_X$ 的 $k$ 阶矩。
- 如果对某个数 $a$,$\textsf{E}\vert X\vert ^a<\infty$,则 $\textsf{E}\vert X\vert ^a$ 称为 $X$ 或者 $P_X$ 的 $a$ 阶绝对矩。
- 如果对于正整数 $k$,$\mu=\textsf{E}(X)$ 和 $\textsf{E}(X-\mu)^k$ 有限,则 $\textsf{E}(X-\mu)^k$ 称为 $X$ 或者 $P_X$ 的 $k$ 阶中心矩。
这里我们还需要注意到,如果对于某个 $a>0$,$\textsf{E}\vert X\vert ^a<\infty$,那么
- 对于任意正数 $t<a$,都有 $\textsf{E}\vert X\vert ^t<\infty$;
- 对于任意正整数 $k\leq a$,$\textsf{E}(X^k)$ 有限。
下面给出了一些常用的矩不等式及其推广。
Cauchy-Schwarz 不等式:
其中 $X$ 和 $Y$ 是 $\textsf{E}(XY)$ 存在的随机变量,等号成立当且仅当对某个非零常数 $\alpha$ 和 $\beta$,$\alpha X=\beta Y$ a.s.
Holder 不等式:
其中 $p$ 和 $q$ 为满足 $p>1$ 和 $1/p+1/q=1$ 的常数,等号成立当且仅当对某个非零常数 $\alpha$ 和 $\beta$,$\alpha\vert X\vert ^p=\beta\vert Y\vert ^q$ a.s.
Liapounov 不等式:
其中 $r$ 和 $s$ 为常数且满足 $1\leq r\leq s$。
Minkowski 不等式:
其中 $X$ 和 $Y$ 是随机变量且 $p$ 是大于等于 $1$ 的常数。
Minkowski 不等式推广到多个随机变量:设 $X_1,\dots,X_n$ 是独立随机变量,均值为 $0$,且 $\textsf{E}\vert X_i\vert ^p<\infty$,$i=1,\dots,n$。
- Esseen and von Bahr:对于 $p\in[1,2]$ 为常数,那么
- Marcinkiewicz and Zygmund:对于 $p\geq2$ 为常数,那么
其中 $C_p$ 都是只依赖于 $p$ 的常数。
下面的不等式是概率与矩之间的不等式。
Chebyshev 不等式:设 $X$ 是随机变量,$\varphi$ 是定义在 $[0,+\infty)$ 上的非负不减的函数,满足 $\varphi(-t)=\varphi(t)$。那么,对于每个常数 $t\geq0$,
Hajek and Renyi 不等式:设 $Y_1,\dots,Y_n$ 是方差有限的独立随机变量,则
其中 $c_i$ 是正常数,满足 $c_1\geq c_2\geq\cdots\geq c_n$。
矩母函数和特征函数
对一般的随机变量,仅知道有限个矩信息不能确定其分布,需要借助下面的工具。
定义1. 设 $X$ 是 $k$ 维随机向量。
- $X$ 或 $P_X$ 的矩母函数(m.g.f.)定义为
$\psi_X(t)=\textsf{E}(\text{e}^{t^{\textsf{T}}X}),\quad t\in\mathbb R^k.$ - $X$ 或 $P_X$ 的特征函数(ch.f.)定义为
$\phi_X(t)=\textsf{E}(\text{e}^{\text{i}t^{\textsf{T}}X})=\textsf{E}[\cos(t^{\textsf{T}}X)]+\text{i}\textsf{E}[\sin(t^{\textsf{T}}X)],\quad t\in\mathbb R^k.$
关于 m.g.f. 和 ch.f. 有如下性质:
- 对于任意随机向量 $X$,$\psi_X(0)=\phi_X(0)=1$;
- ch.f. 是复数且总是存在的;
- 任何 ch.f. 都以1为界,且是 $\mathbb R^k$ 上的一致连续函数;
- m.g.f. 是非负的,但可能在除 $t=0$ 外处处为 $\infty$;
- 如果 m.g.f. 在 $0$ 的一个邻域内有限,那么 $\phi_X(t)$ 可以通过将 $\psi_X(t)$ 中的 $t$ 由 $\text{i}t$ 代替得到;
- 对于线性变换 $Y=A^{\textsf{T}}X+c$,其中 $A$ 是一个 $k\times m$ 的矩阵,$c\in\mathbb R^m$,则
$\psi_Y(u)=\text{e}^{c^{\textsf{T}}u}\psi_X(Au),\quad\phi_Y(u)=\text{e}^{\text{i}c^{\textsf{T}}u}\phi_X(Au),\quad u\in\mathbb R^m.$ - 对于随机变量 $X$,如果当 $t\neq 0$ 时,它在 $t$ 和 $-t$ 处的 m.g.f. 有限,那么 $X$ 存在任意阶的有限矩和绝对矩。
下面我们想知道随机变量(或向量)$X\in\mathbb R^k$ 的矩的具体形式。
1. 从 m.g.f. 出发:
如果 $\psi_X$ 在 $0$ 的一个邻域内有限,那么对于任意非负整数 $r_1,\dots,r_k$,$\mu_{r_1,\dots,r_k}=\textsf{E}(X_1^{r_1}\cdots X_k^{r_k})$ 有限,其中 $X_j$ 是 $X$ 的第 $j$ 个分量,且 $\psi_X$ 对于 $t$ 在 $0$ 的一个邻域内有如下幂级数展开:
其中 $t_j$ 是 $t$ 的第 $j$ 个分量,且 $\mathcal Z\subset\mathbb R^k$ 为包含所有分量是非负整数的向量的集合。综上所述,$X$ 的分量存在各阶有限矩,且
这也称为 $X$ 的矩。特别地,
当 $k=1$ 且 $p$ 是正整数时,$\psi_X^{(p)}(0)=\textsf{E}(X^p)$。
2. 从 ch.f. 出发:
若 $\psi_X$ 是无限的,那么 $X$ 的有限矩可以通过对 ch.f. 微分得到。假设对于非负整数 $r_1,\dots,r_k$,有 $\textsf{E}\vert X_1^{r_1}\cdots X_k^{r_k}\vert <\infty$。令 $r=r_1+\cdots+r_k$,且
那么,$\vert g(t)\vert \leq\vert X_1^{r_1}\cdots X_k^{r_k}\vert$,且 $\vert g(t)\vert$ 可积。因此
且
特别地,
当 $k=1$ 且 $p$ 是正整数时,倘若所有涉及的矩均有限,$\phi_X^{(p)}(0)=(-1)^{p/2}\textsf{E}(X^p)$。
定理1. 设 $X$ 和 $Y$ 是 $k$ 维随机向量。
- 如果对于所有 $t\in\mathbb R^k$,有 $\phi_X(t)=\phi_Y(t)$,那么 $P_X=P_Y$;
- 如果对于 $0$ 的一个邻域内的所有 $t$,有 $\psi_X(t)=\psi_Y(t)<\infty$,那么 $P_X=P_Y$。
条件期望
条件期望与条件概率
定义2. 设 $X$ 是 $(\Omega,\mathcal F,P)$ 上的一个可积随机变量。
- 设 $\cal A$ 是 $\cal F$ 的一个子 $\sigma$-域。给定 $\cal A$ 时 $X$ 的条件期望,记作 $\textsf{E}(X\mid\mathcal A)$,它是 a.s. 唯一的随机变量,满足以下两个条件:
- $\textsf{E}(X\mid\mathcal A)$ 是 $(\Omega,\mathcal A)$ 到 $(\mathbb R,\mathcal B)$ 上的可测函数;
- 对于任意 $A\in\cal A$,有 $\displaystyle\int_A\textsf{E}(X\mid\mathcal A)\text{d}P=\int_AX\text{d}P$。
- 设 $B\in\mathcal F$。给定 $\cal A$ 时 $B$ 的条件概率定义为 $P(B\mid\mathcal A)=\textsf{E}(I_B\mid\mathcal A)$。
- 设 $Y$ 是 $(\Omega,\mathcal F,P)$ 到 $(\Lambda,\mathcal G)$ 上的可测函数。给定 $Y$ 时 $X$ 的条件期望定义为 $\textsf{E}(X\mid Y)=\textsf{E}[X\mid\sigma(Y)]$。
引理1. 设 $Y$ 是 $(\Omega,\mathcal F)$ 到 $(\Lambda,\mathcal G)$ 上的可测函数,$Z$ 是 $(\Omega,\mathcal F)$ 到 $\mathbb R^k$ 上的函数。那么 $Z$ 是 $(\Omega,\sigma(Y))$ 到 $(\mathbb R^k,\mathcal B^k)$ 上的可测函数,当且仅当存在一个 $(\Lambda,\mathcal G)$ 到 $(\mathbb R^k,\mathcal B^k)$ 上的可测函数 $h$,使得 $Z=h\circ Y$。
这一引理告诉我们,对于定义2中的第3条,存在一个定义在 $Y$ 值域上的 Borel 函数 $h$,使得 $\textsf{E}(X\mid Y)=h\circ Y$。
例3. 设 $X$ 是 $(\Omega,\mathcal F,P)$ 上的可积随机变量,$A_1,A_2,\dots$ 是 $(\Omega,\mathcal F,P)$ 上的不相交事件,使得 $\bigcup A_i=\Omega$,且对于任意 $i$ 有 $P(A_i)>0$。令 $a_1,a_2,\dots$ 为不同的实数,定义 $Y=a_1I_{A_1}+a_2I_{A_2}+\cdots$,我们接下来证明
设 $\mathcal A=\sigma(Y)=\sigma(\{A_1,A_2,\dots\})$,显然右侧函数在 $(\Omega,\mathcal A)$ 上是可测的。对于任意 $B\in\mathcal B$,我们有
因此定义2中第1条里的两个条件均满足,结论成立。
上面的结果可以推广到有 p.d.f. 的随机变量的条件期望,见如下命题。
命题2. 设 $X$ 是 $n$ 维随机向量,$Y$ 是 $m$ 维随机向量。假设 $(X,Y)$ 存在关于 $\nu\times\lambda$ 的联合 p.d.f. $f(x,y)$,其中 $\nu$ 和 $\lambda$ 分别是 $(\mathbb R^n,\mathcal B^n)$ 和 $(\mathbb R^m,\mathcal B^m)$ 上的 $\sigma$ 有限测度。设 $g(x,y)$ 是 $\mathbb R^{n+m}$ 上的 Borel 函数,$\textsf{E}\vert g(X,Y)\vert<\infty$,那么
对于关于 $\nu\times\lambda$ 的联合 p.d.f. 为 $f(x,y)$ 的随机向量 $(X,Y)$,定义给定 $Y=y$ 时 $X$ 的条件 p.d.f. 为
其中 $f_Y(y)=\int f(x,y)\text{d}\nu(x)$ 是 $Y$ 关于 $\lambda$ 的边际 p.d.f. 容易验证,对于满足 $f_Y(y)>0$ 的每个固定的 $y$,上述条件 p.d.f. 是关于 $\nu$ 的一个 p.d.f. 进而,命题中的结论可以写成
命题3 (条件期望的性质). 设 $X,Y,X_1,X_2,\dots$ 是 $(\Omega,\mathcal F,P)$ 上的可积随机变量,$\cal A$ 是 $\cal F$ 的子 $\sigma$-域。
- 如果 $X=c$ a.s.,$c\in\mathbb R$,那么 $\textsf{E}(X\mid\mathcal A)=c$ a.s.
- 如果 $X\leq Y$ a.s.,那么 $\textsf{E}(X\mid\mathcal A)\leq\textsf{E}(Y\mid\mathcal A)$ a.s.
- 如果 $a\in\mathbb R$ 且 $b\in\mathbb R$,那么 $\textsf{E}(aX+bY\mid\mathcal A)=a\textsf{E}(X\mid\mathcal A)+b\textsf{E}(Y\mid\mathcal A)$ a.s.
- $\textsf{E}[\textsf{E}(X\mid\mathcal A)]=\textsf{E}(X)$.
- $\textsf{E}[\textsf{E}(X\mid\mathcal A)\mid\mathcal A_0]=\textsf{E}(X\mid\mathcal A_0)=\textsf{E}[\textsf{E}(X\mid\mathcal A_0)\mid\mathcal A]$ a.s.,$\mathcal A_0$ 为 $\cal A$ 的子 $\sigma$-域。
- 如果 $\sigma(Y)\subset\mathcal A$ 且 $\textsf{E}\vert XY\vert<\infty$,那么 $\textsf{E}(XY\mid\mathcal A)=Y\textsf{E}(X\mid\mathcal A)$ a.s.
- 如果 $X$ 和 $Y$ 独立,且对于 Borel 函数 $g$,有 $\textsf{E}\vert g(X,Y)\vert<\infty$,那么 $\textsf{E}[g(X,Y)\mid Y=y]=\textsf{E}[g(X,y)]$ a.s. $P_Y$.
- 如果 $\textsf{E}(X^2)<\infty$,那么 $[\textsf{E}(X\mid\mathcal A)]^2\leq\textsf{E}(X^2\mid\mathcal A)$ a.s.
- (Fatou 引理)如果对于任意 $n$,$X_n\geq0$,那么 $\textsf{E}(\liminf_n X_n\mid\mathcal A)\leq\liminf_n\textsf{E}(X_n\mid\mathcal A)$ a.s.
- (控制收敛定理)假设对于任意 $n$,$\vert X_n\vert\leq Y$,且 $X_n\overset{\text{a.s.}}{\rightarrow}X$,那么 $\textsf{E}(X_n\mid\mathcal A)\overset{\text{a.s.}}{\rightarrow}\textsf{E}(X\mid\mathcal A)$.
将期望 $\textsf{E}$ 用条件期望 $\textsf{E}(\cdot\mid\mathcal A)$ 代替后,前面提到的矩不等式也都在几乎处处的意义下成立。
独立性
定义3. 设 $(\Omega,\mathcal F,P)$ 是一个概率空间。
- 设 $\cal C$ 是 $\cal F$ 的子集。$\cal C$ 中的事件称为独立的,当且仅当对于任意正整数 $n$ 和 $\cal C$ 中的不相交事件 $A_1,\dots,A_n$,有
$P(A_1\cap A_2\cap\cdots\cap A_n)=P(A_1)P(A_2)\cdots P(A_n).$ - 集类 $\mathcal C_i\subset\mathcal F$($i\in\mathcal I$ 为指标集)称为相互独立,当且仅当集类中任意形如 $\{A_i\in\mathcal C_i:i\in\mathcal I\}$ 的事件相互独立。
- 随机元 $X_i~(i\in\mathcal I)$ 称为相互独立,当且仅当 $\sigma(X_i),~i\in\cal I$ 相互独立。
下面的结果可用于检验 $\sigma$-域的独立性。
引理2. 设 $\mathcal C_i$ 是相互独立的事件集类,$i\in\cal I$。假设对于每个 $\mathcal C_i$ 都有如下性质,若 $A\in\mathcal C_i$ 和 $B\in\mathcal C_i$,则 $A\cap B\in\mathcal C_i$。那么 $\sigma(\mathcal C_i)$ 相互独立,$i\in\cal I$。
命题4. 设 $X$ 是随机变量,$\textsf{E}\vert X\vert<\infty$,$Y_i$ 是 $k_i$ 维随机向量,$i=1,2$。假设 $(X,Y_1)$ 和 $Y_2$ 相互独立,那么
显然,对于任意 Borel 函数 $h$,命题中 $X$ 用 $h(X)$ 代替后仍然成立。也就是说,如果 $(X,Y_1)$ 和 $Y_2$ 相互独立,那么
此时也称给定 $Y_1$ 时 $X$ 与 $Y_2$ 条件独立。
Markov 链和鞅
一列随机向量 $\{X_n:n=1,2,\dots\}$ 称为 Markov 链或 Markov 过程,当且仅当
命题5. 一列随机变量 $\{X_n\}$ 是 Markov 链,当且仅当以下三个条件中的一个成立。
- 对于任意 $n=2,3,\dots$ 和任意可积的 $h(X_{n+1})$,其中 $h$ 是 Borel 函数,
$\textsf{E}[h(X_{n+1})\mid X_1,\dots,X_n]=\textsf{E}[h(X_{n+1})\mid X_n]$ a.s. - 对于任意 $n=1,2,\dots$ 和 $B\in\sigma(X_{n+1},X_{n+2},\dots)$,
$P(B\mid X_1,\dots,X_n)=P(B\mid X_n)$ a.s. - 对于任意 $n=2,3,\dots$,$A\in\sigma(X_1,\dots,X_n)$ 和 $B\in\sigma(X_{n+1},X_{n+2},\dots)$,
$P(A\cap B\mid X_n)=P(A\mid X_n)P(B\mid X_n)$ a.s.
设 $\{X_n\}$ 是概率空间 $(\Omega,\mathcal F,P)$ 上的一列可积随机变量,$\mathcal F_1\subset\mathcal F_2\subset\cdots\subset\mathcal F$ 是一列 $\sigma$-域,使得 $\sigma(X_n)\subset\mathcal F_n$,$n=1,2,\dots$。序列 $\{X_n,\mathcal F_n:n=1,2,\dots\}$ 称为鞅,当且仅当
称为下鞅,当且仅当上式中的 $=$ 用 $\geq$ 代替时成立;称为上鞅,当且仅当上式中的 $=$ 用 $\leq$ 代替时成立。
- $\{X_n\}$ 称为鞅(下鞅或者上鞅),当且仅当 $\{X_n,\sigma(X_1,\dots,X_n)\}$ 是鞅(下鞅或者上鞅)。
- 如果 $\{X_n,\mathcal F_n\}$ 是鞅(下鞅或者上鞅),那么 $\{X_n\}$ 也是。
对于任意概率空间 $(\Omega,\mathcal F,P)$ 和 $\sigma$-域 $\mathcal F_1\subset\mathcal F_2\subset\cdots\subset\mathcal F$,我们通常可以利用可积随机变量 $Y$ 来构造一个鞅 $\{\textsf{E}(Y\mid\mathcal F_n)\}$。另一种构造鞅的方式是利用一列独立可积的随机变量 $\{\varepsilon_n\}$,令 $X_n=\varepsilon_1+\cdots+\varepsilon_n$,$n=1,2,\dots$。由于
所以当对于所有 $n$ 有 $\textsf{E}(\varepsilon_n)=0$ 时,$\{X_n\}$ 为鞅。
命题6. 设 $\varphi$ 是 $\mathbb R$ 上的一个凸函数。
- 如果 $\{X_n,\mathcal F_n\}$ 是一个鞅,对于所有 $n$,$\varphi(X_n)$ 是可积的,则 $\{\varphi(X_n),\mathcal F_n\}$ 是一个下鞅。
- 如果 $\{X_n,\mathcal F_n\}$ 是一个下鞅,对于所有 $n$,$\varphi(X_n)$ 是可积的,且 $\varphi$ 是非降的,那么 $\{\varphi(X_n),\mathcal F_n\}$ 是一个下鞅。
命题7 (Doob 分解). 设 $\{X_n,\mathcal F_n\}$ 是一个下鞅。那么 $X_n=Y_n+Z_n$,$n=1,2,\dots$,其中 $\{Y_n,\mathcal F_n\}$ 是鞅,$0=Z_1\leq Z_2\leq\cdots$,且对于所有 $n$ 有 $\textsf{E}(Z_n)<\infty$。进一步,如果 $\sup\limits_{n}\textsf{E}\vert X_n\vert<\infty$,那么 $\sup\limits_{n}\textsf{E}\vert Y_n\vert<\infty$ 且 $\sup\limits_{n}\textsf{E}(Z_n)<\infty$。
命题8. 设 $\{X_n,\mathcal F_n\}$ 是一个下鞅。如果 $c=\sup\limits_{n}\textsf{E}\vert X_n\vert<\infty$,那么 $\lim\limits_{n\rightarrow\infty}X_n=X$ a.s.,其中 $X$ 是一个随机变量,满足 $\textsf{E}\vert X\vert\leq c$。
后记
本节内容来自于 Mathematical Statistics by Jun Shao.