抛硬币问题与Beta先验
假设抛一枚硬币,其正面向上的概率为 $\theta=\mathbb P(H)$,则无论抽样机制是二项、负二项还是几何,似然函数总是有形式
$L(\theta\mid\pmb x)\propto\theta^t(1-\theta)^t,$
其中 $h,t$ 分别为观察到的正面和反面次数。
如果我们假设 $\theta$ 的先验分布是 $Beta(\alpha,\beta)$,可以得到后验分布
$\theta\mid\pmb x\sim Beta(\alpha+h,\beta+t).$
因此,使用Beta先验保证了后验分布仍然为Beta分布,此时称Beta先验分布族是共轭于二项(负二项、几何)似然分布族。
先验分布所包含的信息可以视为等同于一个出现 $\alpha$ 次正面和 $\beta$ 次反面的试验所包含的信息。进一步,后验均值可以表示为混合形式
$\mathbb E(\theta\mid\pmb x)=w\dfrac{\alpha}{\alpha+\beta}+(1-w)\dfrac{h}{h+t}=w\mathbb E(\theta)+(1-w)\hat{\theta},$
其中 $w=\dfrac{\alpha+\beta}{\alpha+\beta+h+t}$ 为权重。当 $\alpha,\beta\rightarrow0$ 时,这种情况可以视为不抛硬币的信息,此时后验分布趋于 $Beta(h,t)$,而后验均值也趋于经典估计。
共轭先验
设 $\mathcal{F}={f(x\mid\theta),\theta\in\Theta}$ 为样本分布族,$\mathcal P={\pi(\theta):\theta\in\Theta}$ 为 $\theta$ 的先验分布族,称 $\mathcal P$ 共轭于 $\mathcal F$,如果对任意的 $f(\cdot\mid\theta)\in\mathcal F$, $\pi(\cdot)\in\mathcal P$,都有 $\pi(\theta\mid x)\in\mathcal P$。
指数-伽马系统
设 $X\mid\theta\sim Exp(\theta)$,假设先验分布 $\theta\sim\Gamma(\alpha,\beta)$,即
$\pi(\theta)=\dfrac{\beta^\alpha}{\Gamma(\alpha)}\theta^{\alpha-1}\text{e}^{-\beta\theta},\quad\theta>0.$
给定样本 $\pmb x$,$\theta$ 的后验分布为
$\pi(\theta\mid\pmb x)\propto f(\pmb x\mid\theta)\pi(\theta)\propto\theta^{\alpha+n-1}\text{e}^{-(\beta+n\overline{x})\theta},\quad\theta>0.$
即后验分布仍为伽马分布 $\theta\mid\pmb x\sim\Gamma(\alpha+n,\beta+n\overline{x})$,因此伽马先验与指数分布共轭。
先验分布所包含的信息可以视为等同于一个样本大小为 $\alpha$,样本均值为 $\beta/\alpha$ 所包含的信息。当 $\alpha,\beta\rightarrow0$ 时,后验分布趋于 $\Gamma(n,n\overline{x})$,而后验均值趋于经典估计。
事实上,对指数族分布,有更加一般的结论:
定理. 设单参数指数族分布密度有形式
$f(x\mid\theta)=C(\theta)h(x)\exp(\phi(\theta)s(x)),$
则先验分布 $\pi(\theta)\propto C(\theta)^a\exp(\phi(\theta)b)$ 为单参数指数族分布似然的共轭分布,而后验分布有形式
$\pi(\theta\mid\pmb x)\propto C(\theta)^{a+n}\exp\{\phi(\theta)(b+t(\pmb x))\},$
其中 $\displaystyle t(\pmb x)=\sum_{i=1}^ns(x_i)$ 为 $\theta$ 的一个充分统计量。
泊松-伽马系统
设 $X\mid\theta\sim\mathcal P(\theta)$,其分布有指数族形式
$f(x\mid\theta)=\text{e}^{-\theta}\dfrac{1}{x!}\exp(x\ln\theta).$
由前述定理可知 $\theta$ 的共轭先验分布有形式
$\pi(\theta)\propto(\text{e}^{-\theta})^a\exp(b\ln\theta)=\theta^b\text{e}^{-a\theta}.$
这就是伽马密度的形式,所以伽马先验是共轭于Poisson分布族的。
一般地,假设我们看到一组来自Poisson分布的大小为 $n$ 的样本,先验分布取为 $\theta\sim\Gamma(\alpha,\beta)$,则由定理可知,后验分布为
$\theta\mid\pmb x\sim\Gamma(\alpha+n\overline{x},\beta+n).$
均匀-帕累托系统
设 $X\mid\theta\sim U(0,\theta)$,则给定一组大小为 $n$ 的样本,似然函数为
$l(\theta\mid\pmb x)=\dfrac{1}{\theta^n}\cdot I(0<x_{(n)}<\theta),$
其中 $x_{(n)}$ 是样本最大值。考虑Pareto先验分布 $\theta\sim Pa(\alpha,\beta)$,其密度函数为
$\pi(\theta)=\dfrac{\alpha\beta^\alpha}{\theta^{\alpha+1}},\quad\theta>\beta>0.$
于是 $\theta$ 的后验分布为
$\theta\mid\pmb x\sim Pa(\alpha+n,\max\{\beta,x_{(n)}\}).$
注意到Pareto分布 $Pa(\alpha,\beta)$ 的均值为 $\dfrac{\alpha\beta}{\alpha-1}$,因此 $\theta$ 的后验均值为
$\mathbb E(\theta\mid\pmb x)=\dfrac{(\alpha+n)\max\{\beta,x_{(n)}\}}{\alpha+n-1}.$
它不能像之前那样表示成先验均值和经典估计的加权平均。而且,当 $\alpha,\beta\rightarrow0$ 时,后验分布趋于 $Pa(n,x_{(n)})$,其均值也不为 $x_{(n)}$;此时不存在先验分布使得后验分布的均值为经典估计。
多项-狄利克雷系统
首先将前面的定理推广到多参数场合如下:
定理. 设多参数指数族分布密度有形式
$\displaystyle f(\pmb x\mid\pmb\theta)=C(\pmb\theta)h(\pmb x)\exp\left(\sum_{j=1}^k\phi_j(\pmb\theta)s_j(\pmb x)\right),$
则先验分布 $\pi(\pmb\theta)\propto C(\pmb\theta)^a\exp\left(\sum\limits_{j=1}^k\phi_j(\pmb\theta)b_j\right)$ 为 $k$ 维指数族分布似然的共轭先验,而后验分布有形式
$\displaystyle\pi(\pmb\theta\mid\pmb x)\propto C(\pmb\theta)^{a+n}\exp\left\{\sum_{j=1}^k\phi_j(\pmb\theta)\bigg(b_j+\sum_{i=1}^ns_j(\pmb x_i)\bigg)\right\},$
其中 $\left(\sum\limits_{i=1}^ns_1(\pmb x_i),\dots,\sum\limits_{i=1}^ns_k(\pmb x_i)\right)$ 为 $\pmb\theta$ 的一个充分统计量。
假设 $X\mid\pmb\theta\sim MB(m,\pmb\theta)$ 为 $k$ 维多项分布,于是
$\displaystyle f(\pmb x\mid\pmb\theta)=\dfrac{m!}{\prod_{j=1}^kx_j!}\theta_k^m\exp\left(\sum_{j=1}^{k-1}x_j\ln\dfrac{\theta_j}{\theta_k}\right).$
因此共轭先验为
$\displaystyle\pi(\pmb\theta)\propto(\theta_k^m)^a\exp\left(\sum_{j=1}^{k-1}b_j\ln\dfrac{\theta_j}{\theta_k}\right)\propto\prod_{j=1}^k\theta_j^{\alpha_j-1},$
其中 $\alpha_j=b_j+1$,$j=1,\dots,k-1$,$\alpha_k=a-\sum\limits_{j=1}^kb_j+1$。这是Dirichlet分布的密度。于是给定一组样本 $\pmb x=(\pmb x_1,\dots,\pmb x_n)$,$\pmb x_j=(x_{1j},\dots,x_{kj})$,则
$\displaystyle\pmb\theta\mid\pmb x\sim\mathcal D\left(\alpha_1+\sum_{j=1}^nx_{1j},\dots,\alpha_k+\sum_{j=1}^nx_{kj}\right).$
一般的自然多参数指数族
对多参数指数族
$\displaystyle f(\pmb x\mid\pmb\theta)=C(\pmb\theta)h(\pmb x)\exp\left(\sum_{j=1}^k\phi_j(\pmb\theta)s_j(\pmb x)\right).$
令 $y_j=s_j(\pmb x)$,$\phi_j=\phi_j(\pmb\theta)$,则密度
$\displaystyle f(\pmb y\mid\pmb\phi)=D(\pmb y)\exp\left(\sum_{j=1}^k\phi_jy_j-e(\pmb\phi)\right)$
为指数族的自然形式。
显然 $\pmb\phi$ 的共轭先验有形式
$\displaystyle\pi(\pmb\phi)\propto\exp\left(\sum_{j=1}^kb_j\phi_j-ae(\pmb\phi)\right)\propto\exp\left(a\pmb B^\textsf{T}\pmb\phi-ae(\pmb\phi)\right),$
其中 $B_j=\dfrac{b_j}{a}$,$j=1,\dots,k$。称此形式为 $\phi$ 的典则先验(canonical prior)。
进一步,如果给定一组大小为 $n$ 的样本,则后验分布为
$\displaystyle \pi(\pmb\phi\mid\pmb y)\propto\exp\left(\sum_{j=1}^k\dfrac{aB_j+n\overline{y}_{\cdot j}}{a+n}\phi_j-e(\pmb\phi)\right)\propto\exp\left(\dfrac{a\pmb B+n\overline{\pmb y}^\textsf{T}}{a+n}\pmb\phi-e(\pmb\phi)\right).$
有下述结论:
$\mathbb E[\nabla e(\pmb\phi)\mid\pmb y]=\dfrac{a\pmb B+n\overline{\pmb y}}{a+n}$,其中 $[\nabla e(\pmb\phi)]_j=\dfrac{\partial e(\pmb\phi)}{\partial\phi_j}.$
例如,对泊松-伽马系统,
$f(x\mid\theta)=\text{e}^{-\theta}\dfrac{1}{x!}\exp(x\ln\theta)=\dfrac{1}{x!}\exp(x\phi-\text{e}^{\phi}),$
其中 $\theta=\text{e}^\phi$,参数 $\theta$ 的共轭先验为 $\Gamma(\alpha,\beta)$,即
$\pi(\theta)\propto\theta^{\alpha-1}\text{e}^{-\beta\theta}\Rightarrow\pi(\phi)\propto\exp\left(\beta\dfrac{\alpha}{\beta}\phi-\beta\text{e}^\phi\right).$
此时 $\nabla \text{e}^\phi=\text{e}^\phi=\theta$,从而 $\mathbb E[\theta\mid\pmb x]=\dfrac{\beta}{\beta+n}\dfrac{\alpha}{\beta}+\dfrac{n}{\beta+n}\overline{x}$ 为先验均值和经典估计的加权。
再如,对二项-贝塔系统,
$f(x\mid\theta)\propto\theta^x(1-\theta)^{1-x}\propto\exp\left(x\phi-\ln(1+\text{e}^\phi)\right),$
其中 $\phi=\ln\dfrac{\theta}{1-\theta}$。因此 $\phi$ 的典则形式先验分布为
$\begin{array}{rl}
\pi(\phi)\propto&\!\!\!\!\exp\left(aB\phi-a\ln(1+\text{e}^\phi)\right)\\
\Rightarrow\pi(\theta)\propto&\!\!\!\!(1-\theta)^a\left(\dfrac{\theta}{1-\theta}\right)^{aB}\dfrac{1}{\theta(1-\theta)}\propto\theta^{aB-1}(1-\theta)^{a(1-B)-1}.
\end{array}$
此即Beta分布 $Beta(\alpha,\beta)$,$\alpha=aB$,$\beta=a(1-B)$。此时 $\nabla\ln(1+\text{e}^\phi)=\dfrac{\text{e}^\phi}{1+\text{e}^\phi}=\theta$,从而
$\mathbb E[\theta\mid\pmb x]=\dfrac{aB+n\overline{x}}{a+n}=\dfrac{\alpha+\beta}{\alpha+\beta+n}\dfrac{\alpha}{\alpha+\beta}+\dfrac{n}{\alpha+\beta+n}\overline{x}$
为先验均值和经典估计的加权。
共轭先验的混合
假设一个共轭先验 $\pi(\cdot)\in\mathcal P$ 不能很好地表达我们的先验信仰,那么可以考虑混合共轭先验分布
$\displaystyle\sum_{i=1}^kw_i\pi_i(\theta),$
其中 $\pi_i(\cdot)\in\mathcal P$,$0<w_i<1$ 且 $\sum\limits_{i=1}^kw_i=1$。
Dalal and Hall(1983)证明了一个指数族的任意先验密度可以通过共轭先验分布的混合来任意近的逼近。此外,混合共轭先验分布下的后验分布也是共轭密度的混合。事实上,
$\begin{array}{rl}
\pi(\pmb\theta\mid\pmb x)\propto&\!\!\!\!\displaystyle f(\pmb x\mid\pmb\theta)\sum_{i=1}^kw_i\pi_i(\pmb\theta)\\
\propto&\!\!\!\!\displaystyle\sum_{i=1}^kw_i\pi_i(\pmb\theta)f(\pmb x\mid\pmb\theta)\\
\propto&\!\!\!\!\displaystyle\sum_{i=1}^kw_i\left(\int_{\pmb\Theta}\pi_i(\pmb\theta)f(\pmb x\mid\pmb\theta)\text{d}\pmb\theta\right)\pi_i(\pmb\theta\mid\pmb x)=\sum_{i=1}^kw_i^\star\pi_i(\pmb\theta\mid\pmb x),
\end{array}$
其中 $\pi_i(\cdot\mid\pmb x)\in\mathcal P$。
例如,假设抛硬币12次中正面出现了9次,反面出现了3次,先验分布取为混合共轭先验
$\theta\sim 0.25Beta(1,1)+0.75Beta(5,5),$
则后验分布为
$\begin{array}{rl}
\pi(\theta\mid\pmb x)\propto&\!\!\!\!\left(0.25+0.75\dfrac{1}{B(5,5)}\theta^4(1-\theta)^4\right)\theta^9(1-\theta)^3\\
\propto&\!\!\!\!0.25\theta^9(1-\theta)^3+0.75\dfrac{1}{B(5,5)}\theta^{13}(1-\theta)^7\\
\propto&\!\!\!\!B(10,4)\dfrac{1}{B(10,4)}\theta^9(1-\theta)^3+\dfrac{3B(14,8)}{B(5,5)}\dfrac{1}{B(14,8)}\theta^{13}(1-\theta)^7.\\
\Rightarrow\pi(\theta\mid\pmb x)=&\!\!\!\!0.2315Beta(10,4)+0.7685Beta(14,8).
\end{array}$
后记
本文内容参考自中国科学技术大学《贝叶斯分析》(2022Fall)课件。
如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn。