基本概念
贝叶斯统计推断中所有变量都是随机变量,一切参数推断应该基于其后验分布进行。
定义(先验分布) 参数空间 $\Theta$ 上的任一概率分布都称作先验分布(prior distribution),常用 $\pi(\theta)$ 表示其 p.m.f.(离散性)或 p.d.f(连续型)。
先验分布有许多选取方式,在本节中介绍几种重要的先验选取方式。
- 无信息先验:对参数空间 $\Theta$ 中的任何一点都没有偏爱。
- Laplace先验
- 参数空间离散或有界连续,则对应无信息先验为均匀分布。
- 参数空间无界,通常取广义先验密度 $\pi(\theta)\equiv1,\theta\in\Theta$。
- 位置参数的无信息先验
- 总体密度有形式 $f(x-\theta)$,样本空间和参数空间均为 $\mathbb R$。
- 位置参数族具有在平移变换群下的不变性,取无信息先验为 $\pi(\theta)\equiv1,\theta\in\Theta$。
- 尺度参数的无信息先验
- 总体密度有形式 $\sigma^{-1}\varphi(x/\sigma)$,参数空间为 $\mathbb R^+$。
- 尺度参数族具有在尺度变换群下的不变性,取无信息先验为 $\pi(\sigma)=1/\sigma,\sigma>0$。
- 一般情形下Jeffreys先验
- 通常对非位置参数族和尺度参数族使用。
-
取 $\pi(\pmb\theta)=[{\rm det}~\pmb I(\pmb\theta)]^{1/2}$,其中
$\begin{array}{rl} \pmb I(\pmb\theta) =&\!\!\!\! \displaystyle \left[E_{\pmb\theta}\left(\frac{\partial}{\partial\theta_i}l(\pmb\theta\mid\pmb X)\cdot\frac{\partial}{\partial\theta_j}l(\pmb\theta\mid\pmb X)\right)\right]_{p\times p}\\ ~ =&\!\!\!\! \displaystyle -\left[E_{\pmb\theta}\left(\frac{\partial^2 l(\pmb\theta\mid\pmb X)}{\partial\theta_i\partial\theta_j}\right)\right]_{p\times p}=-E_{\pmb\theta}\left(\frac{\partial^2 l(\pmb\theta\mid\pmb X)}{\partial\pmb\theta\partial\pmb\theta^T}\right),\\ \end{array}$ 而 $l(\pmb\theta\mid\pmb X)$ 是对数似然函数。
- Laplace先验
- 共轭先验:后验分布与先验分布来自同一分布族,称此分布族为共轭先验分布族。
总体分布 | $\theta$ 的共轭先验分布 | $\theta$ 的后验分布 |
---|---|---|
正态分布 $N(\theta,\sigma^2)$ | 正态分布 $N(\mu,\tau^2)$ | $N\left(\dfrac{x\tau^2+\mu\sigma^2}{\tau^2+\sigma^2},\dfrac{\tau^2\sigma^2}{\tau^2+\sigma^2}\right)$ |
负二项分布 $NB(n,\theta)$ | Beta分布 $Be(\alpha,\beta)$ | $Be(\alpha+n,\beta+x)$ |
二项分布 $B(n,\theta)$ | Beta分布 $Be(\alpha,\beta)$ | $Be(\alpha+x,\beta+n-x)$ |
Poisson分布 $\mathcal{P}(\theta)$ | Gamma分布 $\Gamma(\alpha,\beta)$ | $\Gamma(\alpha+x,\beta+1)$ |
Gamma分布 $\Gamma(\nu,\theta)$ | Gamma分布 $\Gamma(\alpha,\beta)$ | $\Gamma(\alpha+\nu,\beta+x)$ |
多项分布 $M_k(n,\theta_1,\dots,\theta_k)$ | Dirichlet分布 $\mathcal{D}(\alpha_1,\dots,\alpha_k)$ | $\mathcal{D}(\alpha_1+x_1,\dots,\alpha_k+x_k)$ |
正态分布 $N(\mu,1/\theta)$ | Gamma分布 $\Gamma(\alpha/2,\beta/2)$ | $\Gamma\left(\dfrac{\alpha+1}{2},\dfrac{\beta+(x-\mu)^2}{2}\right)$ |
上述共轭先验分布的具体计算将在下节给出。
定义(后验分布) 在获得样本 $\pmb x$ 后,对 $\theta$ 的信念有了更新,称之为后验分布(posterior distribution),由贝叶斯公式知
其中 $f(\pmb x\mid\theta)$ 为给定参数 $\theta$ 下样本 $\pmb x$ 的模型,$h(\pmb x,\theta)$ 为 $\pmb X$ 和 $\theta$ 的联合分布,$m(\pmb x)$ 为 $\pmb X$ 的边际分布。
注:当 $\theta$ 为离散型时,分母应为求和。
在实际计算时,由于分母只是为后验成为一个 p.d.f. 或 p.m.f.,因此往往考虑
其中 $L(\theta\mid\pmb x)=f(\pmb x\mid\theta)$ 为似然函数。
不难证明贝叶斯推断是满足似然原理的。事实上,假设 $L(\theta\mid\pmb x_1)\propto L(\theta\mid\pmb x_2)$,则
定义(预测分布) 基于样本 $\pmb x$ 对新的观测作预测 $Y\sim f(y\mid\theta)$,则预测分布 $f(y\mid\pmb x)$ 为
常见分布参数的后验分布计算
在计算之前,首先给出充分统计量在计算后验分布时的重要作用基础(利用因子分解定理不难证明)。
引理. 假设充分统计量 $T(X_1,\dots,X_n)$ 存在,则 $\pi(\theta\mid X_1,\dots,X_n)=\pi(\theta\mid T)$。
但在贝叶斯框架下的充分统计量与经典统计意义下的充分统计量是否一致呢?下面定理保证了这一点。
定理. 统计量 $T$ 在贝叶斯意义下是充分的当且仅当它在经典统计意义下是充分的。
正态分布总体
设总体 $X\sim N(\theta,\sigma^2)$, 又设 $\pmb X=(X_1,\dots,X_n)$ 为总体中抽取的i.i.d.样本, 其联合概率密度函数为
其中 $\overline{x}=\dfrac{1}{n}\sum\limits_{i=1}^nx_i$ 为样本均值.
1. 无信息先验
-
当 $\sigma^2$ 已知时均值参数 $\theta$ 的后验分布
注意到 $\overline{X}$ 是 $\theta$ 的充分统计量,而且 $\overline{X}\sim N(\theta,\sigma^2/n)$,所以
$\displaystyle f(\overline{x}\mid\theta)=\sqrt{\frac{n}{2\pi\sigma^2}}\exp\left\{-\frac{n}{2\sigma^2}(\overline{x}-\theta)^2\right\}.$ 由 $\pi(\theta)\equiv1,\theta\in\mathbb{R}$ 可知 $\theta$ 的后验密度
$\displaystyle \pi(\theta\mid\overline{x})=\frac{f(\overline{x}\mid\theta)\pi(\theta)}{\int_{\Theta}f(\overline{x}\mid\theta)\pi(\theta){\rm d}\theta}\propto\exp\left\{-\frac{n}{2\sigma^2}(\theta-\overline{x})^2\right\}.$ 添加正则化常数,并利用后验分布与充分性的结论可知 $\theta$ 的后验分布为
$\theta\mid\pmb x\sim N(\overline{x},\sigma^2/n).$ -
当 $\theta$ 已知时方差参数 $\sigma^2$ 的后验分布
考虑 $\pmb X$ 的联合概率密度函数为
$\displaystyle f(\pmb x\mid\sigma^2)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\right\}.$ 由 $\pi(\sigma^2)=1/\sigma^2$ 可知, 给定 $\pmb X=\pmb x$ 时, $\sigma^2$的后验密度为
$\displaystyle\pi(\sigma^2\mid\pmb x)=\frac{f(\pmb x\mid\sigma^2)\pi(\sigma^2)}{\int_{\Lambda}f(\pmb x\mid\sigma^2)\pi(\sigma^2){\rm d}\sigma^2}\propto(\sigma^2)^{-\frac{n}{2}-1}\exp\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\right\}.$ 添加正则化常数可知 $\sigma^2$ 的后验分布为
$\sigma^2\mid\pmb x\sim\Gamma^{-1}(n/2,t/2),$ 其中 $\displaystyle t=\sum_{i=1}^n(x_i-\theta)^2$.
-
当 $\theta$ 和 $\sigma^2$ 皆未知时二者的后验分布
考虑 $\pmb X$ 的联合概率密度函数为
$\displaystyle f(\pmb x\mid\theta,\sigma^2)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\frac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(x_i-\overline{x})^2+n(\overline{x}-\theta)^2\bigg]\right\},$ 而 $\theta$ 和 $\sigma^2$ 的无信息先验分别为 $\pi_1(\theta)\equiv1$ 和 $\pi_2(\sigma^2)=1/\sigma^2$,假定 $\theta$ 和 $\sigma^2$ 独立,则 $(\theta,\sigma^2)$ 的联合先验密度为
$\pi(\theta,\sigma^2)=\pi_1(\theta)\pi_2(\sigma^2)=1/\sigma^2,$ 因此,给定 $\pmb X=\pmb x$ 时,$(\theta,\sigma^2)$ 的联合后验密度为
$\begin{array}{rl} \pi(\theta,\sigma^2\mid\pmb x) =&\!\!\!\!\dfrac{f(\pmb x\mid\theta,\sigma^2)\pi(\theta,\sigma^2)}{\int_{\Theta}\int_{\Sigma^2}f(\pmb x\mid\theta,\sigma^2)\pi(\theta,\sigma^2){\rm d}(\sigma^2){\rm d}\theta}\\ \propto&\!\!\!\!\displaystyle(\sigma^2)^{-\frac{n}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(x_i-\overline{x})^2+n(\overline{x}-\theta)^2\bigg]\right\}\\ =&\!\!\!\!\displaystyle\dfrac{1}{\sqrt{\sigma^2}}\exp\left\{-\dfrac{n}{2\sigma^2}(\theta-\overline{x})^2\right\}\cdot(\sigma^2)^{-\frac{n-1}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\overline{x})^2\right\}\\ \propto&\!\!\!\!\pi_1(\theta\mid\sigma^2,\pmb x)\cdot\pi_2(\sigma^2\mid\pmb x), \end{array}$ 所以 $(\theta,\sigma^2)$ 的联合后验分布事实上是一个分层结构,即
$\theta\mid\sigma^2,\pmb x\sim N\left(\overline{x},\dfrac{\sigma^2}{n}\right),\quad\sigma^2\mid\pmb x\sim\Gamma^{-1}\left(\dfrac{n-1}{2},\dfrac{(n-1)s^2}{2}\right).$ 其中 $\sigma^2$ 的边缘后验密度
$\displaystyle\pi(\sigma^2\mid\pmb x)=\int_{\Theta}\pi(\theta,\sigma^2\mid\pmb x){\rm d}\theta\propto\pi_2(\sigma^2\mid\pmb x)\propto(\sigma^2)^{-\frac{n-1}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\overline{x})^2\right\},$ 所以 $\sigma^2$ 的边缘后验分布为
$\sigma^2\mid\pmb x\sim\Gamma^{-1}\left(\dfrac{n-1}{2},\dfrac{(n-1)s^2}{2}\right).$ 另一方面, $\theta$ 的边缘后验密度
$\displaystyle\pi(\theta\mid\pmb x)=\int_{\Sigma^2}\pi(\theta,\sigma^2\mid\pmb x){\rm d}(\sigma^2)\propto\left[(n-1)s^2+n(\overline{x}-\theta)^2\right]^{-\frac{n}{2}}\propto\left[1+\frac{(\theta-\overline{x})^2}{(n-1)(s^2/n)}\right]^{-\frac{n}{2}}.$ 所以 $\theta$ 的边缘后验分布为
$\theta\mid\pmb x\sim\mathscr{T}_1(n-1,\overline{x},s^2/n).$ 其中 $\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$.
上面提到的 $\mathscr{T}_1$ 分布是如下定义的广义一元 $t$ 分布。
定义(广义一元 $t$ 分布) 若随机变量 $X$ 具有如下概率密度函数
则称 $X$ 服从广义一元 $t$ 分布. 其中 $\nu>0$ 为自由度,$\mu$ 是均值参数,$\sigma>0$ 为尺度参数,记为 $X\sim \mathscr{T}_1(\nu,\mu,\sigma^2)$。特别地,当 $\mu=0$,$\sigma^2=1$ 时,$\mathscr{T}_1(\nu,0,1)$ 称为标准的自由度为 $\nu$ 的学生 $t$ 分布,简记为 $t(\nu)$,这就是在初等概率统计中所见的自由度为 $\nu$ 的 $t$ 分布。
2. 共轭先验
-
当 $\sigma^2$ 已知时均值参数 $\theta$ 的共轭后验分布
注意到 $\overline{X}$ 是 $\theta$ 的充分统计量,而且 $\overline{X}\sim N(\theta,\sigma^2/n)$,所以
$\displaystyle f(\overline{x}\mid\theta)=\sqrt{\frac{n}{2\pi\sigma^2}}\exp\left\{-\frac{n}{2\sigma^2}(\overline{x}-\theta)^2\right\}.$ 设 $\theta$ 的共轭先验分布为 $N(\mu,\tau^2)$,其密度函数为
$\displaystyle \pi(\theta)=\frac{1}{\sqrt{2\pi\tau^2}}\exp\left\{-\frac{1}{2\tau^2}(\theta-\mu)^2\right\}.$ 所以 $\theta$ 的后验密度
$\begin{array}{rl} \pi(\theta\mid\overline{x}) =&\!\!\!\!\dfrac{f(\overline{x}\mid\theta)\pi(\theta)}{\int_{\Theta}f(\overline{x}\mid\theta)\pi(\theta){\rm d}\theta}\\ \propto&\!\!\!\!\exp\left\{-\dfrac{n}{2\sigma^2}(\overline{x}-\theta)^2-\dfrac{1}{2\tau^2}(\theta-\mu)^2\right\}\\ \propto&\!\!\!\!\exp\left\{-\dfrac{A}{2}\bigg(\theta-\dfrac{B}{A}\bigg)^2\right\} \end{array}$ 添加正则化常数,并利用后验分布与充分性的结论可知 $\theta$ 的后验分布为
$\displaystyle\theta\mid\pmb x\sim N\left(\frac{B}{A},\frac{1}{A}\right)=N\left(\dfrac{n\overline{x}\tau^2+\mu\sigma^2}{n\tau^2+\sigma^2},\dfrac{\tau^2\sigma^2}{n\tau^2+\sigma^2}\right),$ 其中 $A=\dfrac{n}{\sigma^2}+\dfrac{1}{\tau^2}$,$B=\dfrac{n\overline{x}}{\sigma^2}+\dfrac{\mu}{\tau^2}$。
-
当 $\theta$ 已知时方差参数 $\sigma^2$ 的共轭后验分布
考虑 $\pmb X$ 的联合概率密度函数为
$\displaystyle f(\pmb x\mid\sigma^2)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\right\}.$ 设 $\sigma^2$ 的共轭先验分布为 $\Gamma^{-1}(\alpha/2,\beta/2)$,其密度函数为
$\displaystyle \pi(\sigma^2)=\frac{(\beta/2)^{\frac{\alpha}{2}}}{\Gamma(\alpha/2)}(\sigma^2)^{-\frac{\alpha}{2}-1}\exp\left\{-\frac{\beta}{2\sigma^2}\right\}.$ 所以 $\sigma^2$ 的后验密度为
$\displaystyle\pi(\sigma^2\mid\pmb x)=\frac{f(\pmb x\mid\sigma^2)\pi(\sigma^2)}{\int_{\Sigma^2}f(\pmb x\mid\sigma^2)\pi(\sigma^2){\rm d}(\sigma^2)}\propto(\sigma^2)^{-\frac{n+\alpha}{2}-1}\exp\left\{-\frac{1}{2\sigma^2}\bigg[\beta+\sum_{i=1}^n(x_i-\theta)^2\bigg]\right\}.$ 添加正则化常数可知 $\sigma^2$ 的后验分布为
$\displaystyle \sigma^2\mid\pmb x\sim\Gamma^{-1}\left(\frac{n+\alpha}{2},\frac{\beta+t}{2}\right),$ 其中 $\displaystyle t=\sum_{i=1}^n(x_i-\theta)^2$.
-
当 $\theta$ 和 $\sigma^2$ 皆未知时二者的共轭后验分布
考虑 $\pmb X$ 的联合概率密度函数为
$\displaystyle f(\pmb x\mid\theta,\sigma^2)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\frac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(x_i-\overline{x})^2+n(\overline{x}-\theta)^2\bigg]\right\},$ 设 $(\theta,\sigma^2)$ 的联合共轭先验分布为正态-逆伽马先验,即 $\theta\mid\sigma^2\sim N(\mu,\sigma^2/k)$,$\sigma^2\sim\Gamma^{-1}(\alpha/2,\beta/2)$,其联合密度函数为
$\begin{array}{rl} \pi(\theta,\sigma^2) =&\!\!\!\! \pi_1(\theta\mid\sigma^2)\pi_2(\sigma^2)\\ =&\!\!\!\!\sqrt{\dfrac{k}{2\pi\sigma^2}}\exp\left\{-\dfrac{k(\theta-\mu)^2}{2\sigma^2}\right\}\cdot\dfrac{(\beta/2)^{\frac{\alpha}{2}}}{\Gamma(\alpha/2)}(\sigma^2)^{-\frac{\alpha}{2}-1}\exp\left\{-\dfrac{\beta}{2\sigma^2}\right\}\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{\alpha+1}{2}-1}\exp\left\{-\dfrac{k(\theta-\mu)^2+\beta}{2\sigma^2}\right\}, \end{array}$ 因此,给定 $\pmb X=\pmb x$ 时,$(\theta,\sigma^2)$ 的联合后验密度为
$\begin{array}{rl} \pi(\theta,\sigma^2\mid\pmb x) =&\!\!\!\! \dfrac{f(\pmb x\mid\theta,\sigma^2)\pi(\theta,\sigma^2)}{\int_{\Theta}\int_{\Sigma^2}f(\pmb x\mid\theta,\sigma^2)\pi(\theta,\sigma^2){\rm d}(\sigma^2){\rm d}\theta}\\ \propto&\!\!\!\!\displaystyle(\sigma^2)^{-\frac{n+\alpha+1}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(x_i-\overline{x})^2+n(\overline{x}-\theta)^2+k(\theta-\mu)^2+\beta\bigg]\right\}\\ =&\!\!\!\!\displaystyle\frac{1}{\sqrt{\sigma^2}}\exp\left\{-\frac{n(\theta-\overline{x})^2+k(\theta-\mu)^2}{2\sigma^2}\right\}\cdot\lambda^{-\frac{n+\alpha}{2}-1}\exp\left\{-\frac{1}{2\lambda}\bigg[\beta+\sum_{i=1}^n(x_i-\overline{x})^2\bigg]\right\}\\ =&\!\!\!\!\displaystyle\frac{1}{\sqrt{\sigma^2}}\exp\left\{-\frac{n+k}{2\sigma^2}\bigg(\theta-\frac{n\overline{x}+k\mu}{n+k}\bigg)^2\right\}\\ & \displaystyle\cdot(\sigma^2)^{-\frac{n+\alpha}{2}-1}\exp\left\{-\frac{1}{2\sigma^2}\bigg[\beta+\frac{nk}{n+k}(\overline{x}-\mu)^2+\sum_{i=1}^n(x_i-\overline{x})^2\bigg]\right\}\\ \propto&\!\!\!\!\pi_1(\theta\mid\sigma^2,\pmb x)\pi_2(\sigma^2\mid\pmb x)\\ \end{array}$ 所以 $(\theta,\sigma^2)$ 的联合后验分布也是正态-逆伽马分布, 即
$\displaystyle \theta\mid\sigma^2,\pmb x\sim N\left(\frac{n\overline{x}+k\mu}{n+k},\frac{\sigma^2}{n+k}\right),\quad\sigma^2\mid\pmb x\sim\Gamma^{-1}\left(\frac{n+\alpha}{2},\frac{(n-1)s^2+\frac{nk}{n+k}(\overline{x}-\mu)^2+\beta}{2}\right).$ 其中 $\sigma^2$ 的边缘后验密度
$\begin{array}{rl} \pi(\sigma^2\mid\pmb x) =&\!\!\!\! \displaystyle\int_{\Theta}\pi(\theta,\sigma^2\mid\pmb x){\rm d}\theta\propto\pi_2(\sigma^2\mid\pmb x)\\ \propto&\!\!\!\!\displaystyle(\sigma^2)^{-\frac{n+\alpha}{2}-1}\exp\left\{-\frac{1}{2\sigma^2}\bigg[\beta+\frac{nk}{n+k}(\overline{x}-\mu)^2+\sum_{i=1}^n(x_i-\overline{x})^2\bigg]\right\}, \end{array}$ 所以 $\sigma^2$ 的边缘后验分布为
$\displaystyle \sigma^2\mid\pmb x\sim\Gamma^{-1}\left(\frac{n+\alpha}{2},\frac{(n-1)s^2+\frac{nk}{n+k}(\overline{x}-\mu)^2+\beta}{2}\right).$ 另一方面,$\theta$ 的边缘后验密度
$\begin{array}{rl} \pi(\theta\mid\pmb x) =&\!\!\!\!\displaystyle\int_{\Sigma^2}\pi(\theta,\sigma^2\mid\pmb x){\rm d}(\sigma^2)\\ \propto&\!\!\!\!\displaystyle\left[(n-1)s^2+n(\overline{x}-\theta)^2+k(\theta-\mu)^2+\beta\right]^{-\frac{n+\alpha+1}{2}}\\ \propto&\!\!\!\!\displaystyle\left[1+\frac{\left(\theta-\frac{n\overline{x}+k\mu}{n+k}\right)^2}{(n+\alpha)\left(\frac{(n-1)s^2+\frac{nk}{n+k}(\overline{x}-\mu)^2+\beta}{(n+k)(n+\alpha)}\right)}\right]^{-\frac{n+\alpha+1}{2}}, \end{array}$ 所以 $\theta$ 的边缘后验分布为
$\displaystyle\theta\mid\pmb x\sim\mathscr{T}_1\left(n+\alpha,\frac{n\overline{x}+k\mu}{n+k},\frac{(n-1)s^2+\frac{nk}{n+k}(\overline{x}-\mu)^2+\beta}{(n+k)(n+\alpha)}\right).$ 其中 $\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$.
关于正态分布的后验结果就介绍这么多,内容十分丰富!其他常见分布参数的后验分布计算将在下一节中给出!
后记
本文内容部分来自中国科学技术大学《贝叶斯分析》(2022Fall)课件。
如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn。