Bayes-Lec2.2 常见分布参数的后验分布计算(续)

Posterior Distribution of Parameters of Common Distribution

Posted by Watthu on September 21, 2022

常见分布参数的后验分布计算(续)

一类离散分布总体

设离散随机变量 $X$ 的概率分布有下列形式:

$f(x\mid\theta)=\mathbb P(X=x\mid\theta)=h(x)\theta^{b(x)}(1-\theta)^{d(x)},$

其中 $b(x)$ 和 $d(x)$ 取值为非负整数。此类分布包含下列几个常见的分布:

  • 两点分布 $\text{Bernoulli}(\theta)$:$h(x)=1$,$b(x)=x$,$d(x)=1-x$;
  • 二项分布 $B(n,\theta)$:$\displaystyle h(x)=\binom{n}{x}$,$b(x)=x$,$d(x)=n-x$;
  • 几何分布 $Ge(\theta)$:$h(x)=1$,$b(x)=1$,$d(x)=x-1$;
  • 负二项分布 $NB(r,\theta)$:$\displaystyle h(x)=\binom{x-1}{r-1}$,$b(x)=r$,$d(x)=x-r$。

1. 无信息先验

  • 当参数的先验分布为Laplace无信息先验,即 $\pi(\theta)=\pmb 1_{(0,1)}(\theta)$ 时,$\theta$ 的后验密度为
    $\pi(\theta\mid x)=\dfrac{f(x\mid\theta)\pi(\theta)}{\int_{\Theta}f(x\mid\theta)\pi(\theta){\rm d}\theta}\propto\theta^{b(x)}(1-\theta)^{d(x)},\quad 0<\theta<1.$

    添加正则化常数可得 $\theta$ 的后验分布为

    $\theta\mid x\sim Be(b(x)+1,d(x)+1).$
  • 当参数的先验分布为Jeffreys无信息先验时,首先写出对数似然函数

    $l(\theta\mid x)=\ln h(x)+b(x)\ln\theta+d(x)\ln(1-\theta).$

    因此

    $\dfrac{\partial^2l(\theta\mid x)}{\partial\theta^2}=-\dfrac{b(x)}{\theta^2}-\dfrac{d(x)}{(1-\theta)^2},$

    所以Fisher信息阵

    $I(\theta)=\mathbb E\left[-\dfrac{\partial^2l(\theta\mid X)}{\partial\theta^2}\right]=\dfrac{\mathbb E[b(X)]}{\theta^2}+\dfrac{\mathbb E[d(X)]}{(1-\theta)^2}.$

    因此对应的Jeffreys先验为

    $\pi(\theta)=[{\rm det}~I(\theta)]^{1/2}=\sqrt{\dfrac{\mathbb E[b(X)]}{\theta^2}+\dfrac{\mathbb E[d(X)]}{(1-\theta)^2}},\quad 0<\theta<1.$

2. 共轭先验

  • 当参数的先验分布为共轭先验分布时,设 $\theta$ 的共轭先验分布为 $Be(\alpha,\beta)$,其密度函数为
    $\pi(\theta)=\dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1},\quad 0<\theta<1.$

    所以 $\theta$ 的后验密度为

    $\pi(\theta\mid x)=\dfrac{f(x\mid\theta)\pi(\theta)}{\int_{\Theta}f(x\mid\theta)\pi(\theta){\rm d}\theta}\propto\theta^{\alpha+b(x)-1}(1-\theta)^{\beta+d(x)-1},\quad 0<\theta<1.$

    添加正则化常数可得 $\theta$ 的后验分布为

    $\theta\mid x\sim Be(\alpha+b(x),\beta+d(x)).$

下表总结这类离散分布总体在三种先验下的后验分布结论。

总体分布 Laplace无信息先验 Jeffreys无信息先验 共轭先验 $Be(\alpha,\beta)$
两点分布 $Be(x+1,2-x)$ $Be(x+1/2,3/2-x)$ $Be(\alpha+x,\beta+1-x)$
二项分布 $Be(x+1,n+1-x)$ $Be(x+1/2,n+1/2-x)$ $Be(\alpha+x,\beta+n-x)$
几何分布 $Be(2,x)$ $Be(1,x-1/2)$ $Be(\alpha+1,\beta+x-1)$
负二项分布 $Be(r+1,x-r+1)$ $Be(r,x-r+1/2)$ $Be(\alpha+r,\beta+x-r)$

多项分布总体


定义(多项分布) 若 $k$ 维随机向量 $\pmb X=(X_1,\dots,X_k)$ 的概率密度函数为

$\displaystyle f(\pmb x\mid\pmb\theta)=\frac{n!}{x_1!\cdots x_k!}\prod_{i=1}^{k-1}\theta_i^{x_i}\bigg(1-\sum_{i=1}^{k-1}\theta_i\bigg)^{x_k},\quad x_i\in\mathbb{N}^+,\sum_{i=1}^kx_i=n,$

其中 $\pmb x=(x_1,\dots,x_k),x_i>0,i=1,2,\dots,k$,$\pmb\theta=(\theta_1,\dots,\theta_k),0<\theta_i<1$,则称 $\pmb X$ 服从参数为 $\pmb\theta=(\theta_1,\dots,\theta_k)$ 的多项分布,记为 $\pmb X\sim MN(n;\theta_1,\dots,\theta_k)$。



定义(Dirichlet分布) 若 $k$ 维随机向量 $\pmb\theta=(\theta_1,\dots,\theta_k)$ 的概率密度函数为

$\displaystyle f(\pmb\theta\mid\pmb\alpha)=\frac{\Gamma(\sum_{i=1}^k\alpha_i)}{\prod_{i=1}^k\Gamma(\alpha_i)}\prod_{i=1}^{k-1}\theta_i^{\alpha_i-1}\bigg(1-\sum_{i=1}^{k-1}\theta_i\bigg)^{\alpha_k-1},$

其中 $\pmb\theta=(\theta_1,\dots,\theta_k),0<\theta_i<1,i=1,2,\dots,k$,$\pmb\alpha=(\alpha_1,\dots,\alpha_k),\alpha_i>0$,则称 $\pmb\theta$ 服从参数为 $\pmb\alpha=(\alpha_1,\dots,\alpha_k)$ 的Dirichlet分布,记为 $\pmb\theta\sim\mathcal{D}(\alpha_1,\dots,\alpha_k)$。


1. 无信息先验

考虑Jeffreys无信息先验,首先写出对数似然函数

$\displaystyle l(\pmb\theta\mid\pmb x)=\ln(n!)+\sum_{i=1}^{k-1}x_i\ln\theta_i+\bigg(1-\sum_{i=1}^{k-1}x_i\bigg)\ln\bigg(1-\sum_{i=1}^{k-1}\theta_i\bigg)-\sum_{i=1}^k\ln(x_i!),$

所以

$\begin{array}{rl} \dfrac{\partial^2 l(\pmb\theta\mid\pmb x)}{\partial\theta_i^2}=&\!\!\!\!-\dfrac{x_i}{\theta_i^2}-\dfrac{x_k}{\theta_k^2},\quad i=1,2,\dots,k-1;\\ \dfrac{\partial^2 l(\pmb\theta\mid\pmb x)}{\partial\theta_i\partial\theta_j}=&\!\!\!\!-\dfrac{x_k}{\theta_k^2},\quad i,j=1,2,\dots,k-1,i\neq j. \end{array}$

因此

$\begin{array}{rl} \mathbb E\left[-\dfrac{\partial^2 l(\pmb\theta\mid\pmb x)}{\partial\theta_i^2}\right]=&\!\!\!\!\dfrac{n}{\theta_i}+\dfrac{n}{\theta_k},\quad i=1,2,\dots,k-1;\\ \mathbb E\left[-\dfrac{\partial^2 l(\pmb\theta\mid\pmb x)}{\partial\theta_i\partial\theta_j}\right]=&\!\!\!\!\dfrac{n}{\theta_k},\quad i,j=1,2,\dots,k-1,i\neq j. \end{array}$

所以Fisher信息阵为

$\pmb I(\pmb\theta)=\left[\begin{array}{cccc} n(\theta_1^{-1}+\theta_k^{-1}) & n\theta_k^{-1} & \cdots & n\theta_k^{-1}\\ n\theta_k^{-1} & n(\theta_2^{-1}+\theta_k^{-1}) & \cdots & n\theta_k^{-1}\\ \vdots & \vdots & \ddots & \vdots\\ n\theta_k^{-1} & n\theta_k^{-1} & \cdots & n(\theta_{k-1}^{-1}+\theta_k^{-1})\\ \end{array}\right]_{(k-1)\times(k-1)}$

所以 $\pmb\theta$ 的无信息先验密度为

$\pi(\pmb\theta)=[{\rm det}~\pmb I(\pmb\theta)]^{1/2}=\dfrac{n^{(k-1)/2}}{(\theta_1\theta_2\cdots \theta_k)^{1/2}}\propto(\theta_1\theta_2\cdots\theta_k)^{-1/2}.$

所以当 $\pmb X=\pmb x$ 给定时,$\pmb\theta$ 的后验密度为

$\pi(\pmb\theta\mid\pmb x)=\dfrac{f(\pmb x\mid\pmb\theta)\pi(\pmb\theta)}{\int_{\pmb\Theta}f(\pmb x\mid\pmb\theta)\pi(\pmb\theta){\rm d}\pmb\theta}\propto\theta_1^{x_1-\frac{1}{2}}\cdots\theta_k^{x_k-\frac{1}{2}}.$

添加正则化常数可得 $\pmb\theta$ 的后验分布为

$\pmb\theta\mid\pmb x\sim\mathcal{D}(x_1+1/2,\dots,x_k+1/2).$

2. 共轭先验

设 $\pmb\theta$ 的共轭先验分布为 $\mathcal{D}(\alpha_1,\dots,\alpha_k)$,其密度函数为

$\displaystyle\pi(\pmb\theta)=\frac{\Gamma(\sum_{i=1}^k\alpha_i)}{\prod_{i=1}^k\Gamma(\alpha_i)}\prod_{i=1}^{k-1}\theta_i^{\alpha_i-1}\bigg(1-\sum_{i=1}^{k-1}\theta_i\bigg)^{\alpha_k-1},$

其中 $\pmb\theta=(\theta_1,\dots,\theta_k),0<\theta_i<1,i=1,2,\dots,k$。所以 $\pmb\theta$ 的后验密度为

$\displaystyle\pi(\pmb\theta\mid\pmb x)=\frac{f(\pmb x\mid\pmb\theta)\pi(\pmb\theta)}{\int_{\pmb\Theta}f(\pmb x\mid\pmb\theta)\pi(\pmb\theta){\rm d}\pmb\theta}\propto\theta_1^{x_1+\alpha_1-1}\cdots\theta_k^{x_k+\alpha_k-1}.$

添加正则化常数可得 $\pmb\theta$ 的后验分布为

$\pmb\theta\mid\pmb x\sim\mathcal{D}(x_1+\alpha_1,\dots,x_k+\alpha_k).$

寿命分布总体

设总体 $X$ 服从伽马分布 $\Gamma(r,\lambda)$,其密度函数为

$f(x\mid\lambda)=\dfrac{\lambda^r}{\Gamma(r)}x^{r-1}\exp\{-\lambda x\},\quad x>0,$

其中 $r$ 已知。设 $\pmb X=(X_1,\dots,X_n)$ 为从总体中抽取的i.i.d.样本。

1. 无信息先验

考虑 $\lambda$ 的无信息先验为Jeffreys先验。首先写出其对数似然函数

$\displaystyle l(\lambda\mid\pmb x)=\sum_{i=1}^n\ln f(x_i\mid\lambda)=nr\ln\lambda-n\ln\Gamma(r)+(r-1)\sum_{i=1}^n\ln x_i-\lambda\sum_{i=1}^nx_i,$

所以

$\displaystyle\frac{\partial l(\lambda\mid\pmb x)}{\partial\lambda}=\frac{nr}{\lambda}-\sum_{i=1}^nx_i,\quad \frac{\partial^2 l(\lambda\mid\pmb x)}{\partial\lambda^2}=-\frac{nr}{\lambda^2}.$

因此Fisher信息阵为

$I(\lambda)=-\mathbb E_\lambda\left(-\dfrac{nr}{\lambda^2}\right)=\dfrac{nr}{\lambda^2},$

所以 $\lambda$ 的无信息先验密度为

$\pi(\lambda)=[{\rm det}~I(\lambda)]^{1/2}=\sqrt{\dfrac{nr}{\lambda^2}}\propto\dfrac{1}{\lambda}.$

所以当 $\pmb X=\pmb x$ 给定时,$\lambda$ 的后验密度为

$\displaystyle\pi(\lambda\mid\pmb x)=\frac{f(\pmb x\mid\lambda)\pi(\lambda)}{\int_{\Lambda}f(\pmb x\mid\lambda)\pi(\lambda){\rm d}\lambda}\propto\lambda^{nr-1}\exp\{-n\overline{x}\lambda\},\quad\lambda>0.$

添加正则化常数可得 $\lambda$ 的后验分布为

$\lambda\mid\pmb x\sim\Gamma(nr,n\overline{x}).$

2. 共轭先验

设 $\lambda$ 的共轭先验分布为 $\Gamma(\alpha,\beta)$,其密度函数为

$\displaystyle\pi(\lambda)=\frac{\beta^\alpha}{\Gamma(\alpha)}\lambda^{\alpha-1}\exp\{-\beta\lambda\},\quad \lambda>0.$

所以 $\lambda$ 的后验密度为

$\displaystyle\pi(\lambda\mid\pmb x)=\frac{f(\pmb x\mid\lambda)\pi(\lambda)}{\int_{\Lambda}f(\pmb x\mid\lambda)\pi(\lambda){\rm d}\lambda}\propto\lambda^{nr+\alpha-1}\exp\{-(n\overline{x}+\beta)\lambda\},\quad\lambda>0.$

添加正则化常数可得 $\lambda$ 的后验分布为

$\lambda\mid\pmb x\sim\Gamma(nr+\alpha,n\overline{x}+\beta).$

指数分布总体截尾

定数截尾

假定指数分布 $Exp(\lambda)$ 的样本 $X_1,\dots,X_n$ 中仅观测到前 $r$ 个,即 $X_{(1)}<X_{(2)}<\cdots<X_{(r)}$ 为 $n$ 个观测值中可观测到的前 $r$ 个,其中 $X_{(1)},\dots,X_{(r)},\dots,X_{(n)}$ 为样本 $X_1,\dots,X_n$ 的次序统计量。可以证明

$\displaystyle T=\sum_{j=1}^rX_{(j)}+(n-r)X_{(r)}$

是 $\lambda$ 的充分统计量,且 $2T/\lambda\sim\chi^2(2r)$。所以 $T$ 的密度函数为

$\displaystyle g(t\mid\lambda)=\frac{\lambda^{-r}}{\Gamma(r)}t^{r-1}\exp\left\{-\frac{t}{\lambda}\right\},\quad t>0.$
  • 无信息先验

    考虑 $\lambda$ 的无信息先验为Jeffreys先验 $\pi(\lambda)=1/\lambda$,则 $\lambda$ 的后验密度为

    $\pi(\lambda\mid t)\propto g(t\mid\lambda)\pi(\lambda)\propto\lambda^{-(r+1)}\exp\left\{-\dfrac{t}{\lambda}\right\},\quad\lambda>0.$

    添加正则化常数可得 $\lambda$ 的后验分布为

    $\lambda\mid\pmb x\sim\Gamma^{-1}(r,t),$

    其中 $\displaystyle t=\sum\limits_{j=1}^rx_{(j)}+(n-r)x_{(r)}$.

  • 共轭先验

    设 $\lambda$ 的共轭先验分布为 $\Gamma^{-1}(\alpha,\beta)$,则 $\lambda$ 的后验密度为

    $\pi(\lambda\mid t)\propto g(t\mid\lambda)\pi(\lambda)\propto\lambda^{-(r+\alpha+1)}\exp\left\{-\dfrac{t+\beta}{\lambda}\right\},\quad\lambda>0.$

    添加正则化常数可得$\Lambda$的后验分布为 $\lambda$ 的后验分布为

    $\lambda\mid\pmb x\sim\Gamma^{-1}(r+\alpha,t+\beta),$

    其中 $\displaystyle t=\sum\limits_{j=1}^rx_{(j)}+(n-r)x_{(r)}$.

定时截尾

设总体 $X\sim Exp(\theta)$,且假定指数分布的 $n$ 个样本 $X_1,\dots,X_n$ 中仅观测到不大于 $C$ 的样本,即观测到 $(Y_1,\Lambda_1),\dots,(Y_n,\Lambda_n)$,其中

$Y_i=\min\{X_i,C\},~\Lambda_i=\pmb 1_{\{X_i\leq C\}},\quad i=1,2,\dots,n,$

其中 $C$ 为已知的定时数。

考察样本 $(Y_i,\Lambda_i)$ 关于参数 $\theta$ 的似然函数

$\begin{array}{rl} L(\theta\mid Y_i,\Lambda_i)=&\!\!\!\![f(Y_i\mid\theta)]^{\Lambda_i}[\mathbb P(X_i>C)]^{1-\Lambda_i}\\ =&\!\!\!\![f(Y_i\mid\theta)]^{\Lambda_i}[\mathbb P(X_i>Y_i)]^{1-\Lambda_i}\\ =&\!\!\!\![\theta\exp\{-\theta Y_i\}]^{\Lambda_i}[\exp\{-\theta Y_i\}]^{1-\Lambda_i}\\ =&\!\!\!\!\theta^{\Lambda_i}\exp\{-\theta Y_i\}, \end{array}$

所以

$\displaystyle L(\theta\mid\pmb Y,\pmb\Lambda)=\theta^{\sum\limits_{i=1}^n\Lambda_i}\exp\left\{-\theta\sum_{i=1}^nY_i\right\}=\theta^R\exp\left\{-\theta\bigg(\sum_{i=1}^RX_{(i)}+(n-R)C\bigg)\right\},$

其中 $\displaystyle R=\sum_{i=1}^n\Lambda_i$,$X_{(1)},\dots,X_{(R)},X_{(R+1)},\dots,X_{(n)}$ 表示 $X_1,\dots,X_n$ 的次序统计量。

  • 共轭先验

    当参数的先验分布为共轭先验分布时,设 $\theta$ 的共轭先验分布为伽马分布 $\Gamma(\alpha,\beta)$,其密度函数为

    $\pi(\theta)=\dfrac{\beta^\alpha}{\Gamma(\alpha)}\theta^{\alpha-1}\exp\{-\beta\theta\},\quad\theta>0.$

    所以 $\theta$ 的后验密度为

    $\displaystyle\pi(\theta\mid\pmb Y,\pmb\Lambda)=\dfrac{L(\theta\mid\pmb Y,\pmb\Lambda)\pi(\theta)}{\int_{\Theta}L(\theta\mid\pmb Y,\pmb\Lambda)\pi(\theta){\rm d}\theta}\propto\theta^{R+\alpha-1}\exp\left\{-\theta\bigg(\beta+\sum_{i=1}^RX_{(i)}+(n-R)C\bigg)\right\}$

    添加正则化常数后可得 $\theta$ 的后验分布为

    $\displaystyle\theta\mid\pmb X\sim\Gamma\left(R+\alpha,\beta+\sum_{i=1}^RX_{(i)}+(n-R)C\right).$

泊松分布总体

设总体 $X$ 服从泊松分布 $\mathcal{P}(\lambda)$,其概率质量函数为

$f(x\mid\lambda)=\mathbb P(X=x\mid\lambda)=\dfrac{\lambda^x}{x!}{\rm e}^{-\lambda},\quad x=0,1,\dots.$

设 $\pmb X=(X_1,\dots,X_n)$ 为从总体中抽取的i.i.d.样本。

1. 无信息先验

考虑 $\lambda$ 的无信息先验为Jeffreys先验。首先写出其对数似然函数为

$\displaystyle l(\lambda\mid\pmb x)=\sum_{i=1}^n\ln f(x_i\mid\lambda)=-n\lambda+\sum_{i=1}^nx_i\cdot\ln\lambda-\sum_{i=1}^n\ln x_i,$

所以

$\displaystyle\frac{\partial l(\lambda\mid\pmb x)}{\partial\lambda}=-n+\frac{1}{\lambda}\sum_{i=1}^nx_i,\quad\frac{\partial^2 l(\lambda\mid\pmb x)}{\partial\lambda^2}=-\frac{1}{\lambda^2}\sum_{i=1}^nx_i.$

因此Fisher信息阵为

$\displaystyle I(\lambda)=-\mathbb E_\lambda\left(-\frac{1}{\lambda^2}\sum_{i=1}^nX_i\right)=\frac{n}{\lambda}.$

所以 $\lambda$ 的无信息先验密度为

$\pi(\lambda)=[{\rm det}~I(\lambda)]^{1/2}=\sqrt{\dfrac{n}{\lambda}}\propto\dfrac{1}{\sqrt{\lambda}}.$

所以当 $\pmb X=\pmb x$ 给定时,$\lambda$ 的后验密度为

$\pi(\lambda\mid\pmb x)=\dfrac{f(\pmb x\mid\lambda)\pi(\lambda)}{\int_{\Lambda}f(\pmb x\mid\lambda)\pi(\lambda){\rm d}\lambda}\propto\lambda^{n\overline{x}-1/2}\exp\{-n\lambda\},\quad\lambda>0.$

添加正则化常数可得 $\lambda$ 的后验分布为

$\lambda\mid\pmb x\sim\Gamma(n\overline{x}+1/2,n).$

2. 共轭先验

设 $\lambda$ 的共轭先验分布为 $\Gamma(\alpha,\beta)$,其密度函数为

$\displaystyle\pi(\lambda)=\frac{\beta^\alpha}{\Gamma(\alpha)}\lambda^{\alpha-1}\exp\{-\beta\lambda\},\quad \lambda>0.$

所以 $\lambda$ 的后验密度为

$\displaystyle\pi(\lambda\mid\pmb x)=\frac{f(\pmb x\mid\lambda)\pi(\lambda)}{\int_{\Lambda}f(\pmb x\mid\lambda)\pi(\lambda){\rm d}\lambda}\propto\lambda^{n\overline{x}+\alpha-1}\exp\{-(n+\beta)\lambda\},\quad\lambda>0.$

添加正则化常数可得 $\lambda$ 的后验分布为

$\lambda\mid\pmb x\sim\Gamma(n\overline{x}+\alpha,n+\beta).$

均匀分布总体

设总体 $X$ 服从均匀分布 $U(0,\theta)$,其密度函数为

$f(x\mid\theta)=\dfrac{1}{\theta},\quad 0<x<\theta.$

设 $\pmb X=(X_1,\dots,X_n)$ 为从总体中抽取的i.i.d.样本。

1. 无信息先验

由于 $\theta$ 是位置参数,因此取无信息先验 $\pi(\theta)\equiv1$,所以当 $\pmb X=\pmb x$ 给定时,$\theta$的后验分布为

$\pi(\theta\mid\pmb x)=\dfrac{f(\pmb x\mid\theta)\pi(\theta)}{\int_{\Theta}f(\pmb x\mid\theta)\pi(\theta){\rm d}\theta}\propto\theta^{-n},\quad \theta>x_{(n)}.$

添加正则化常数可得 $\theta$ 的后验分布为

$\theta\mid\pmb x\sim Pa(x_{(n)},n-1),$

这里 $Pa(x_{(n)},n-1)$ 是帕累托分布。

2. 共轭先验

设 $\theta$ 的共轭先验分布为 $Pa(\theta_0,\alpha)$,其密度函数为

$\pi(\theta)=\dfrac{\alpha\theta_0^\alpha}{\theta^{\alpha+1}},\quad\theta>\theta_0,$

其中 $\alpha>0$ 和 $\theta_0$ 已知。所以 $\theta$ 的后验密度为

$\pi(\theta\mid\pmb x)=\dfrac{f(\pmb x\mid\theta)\pi(\theta)}{\int_{\Theta}f(\pmb x\mid\theta)\pi(\theta){\rm d}\theta}\propto\theta^{-(n+\alpha+1)},\quad\theta>\max\{x_{(n)},\theta_0\}.$

添加正则化常数可得 $\theta$的后验分布为

$\theta\mid\pmb x\sim Pa(\max\{x_{(n)},\theta_0\},n+\alpha).$

后记

如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn