Bayes-Lec2.3 多元正态分布与线性回归模型中参数的后验分布

Posterior Distribution of MVN and LR

Posted by Watthu on September 22, 2022

多元正态分布总体

独立同方差情形

设 $\pmb X$ 为 $p$ 维随机向量并且 $\pmb X\sim N_p(\pmb\theta,\sigma^2\pmb I)$,其中 $\sigma^2>0$ 已知。令 $\pmb X_1,\dots,\pmb X_n$ 为从总体中抽取的i.i.d.样本,其联合概率密度函数为

$\begin{array}{rl} f(\pmb x_1,\dots,\pmb x_n\mid\pmb\theta,\sigma^2) =&\!\!\!\! \displaystyle (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}(\pmb x_i-\pmb\theta)\right\}\\ =&\!\!\!\! \displaystyle (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(\pmb x_i-\overline{\pmb x})^{\text{T}}(\pmb x_i-\overline{\pmb x})+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\bigg]\right\}, \end{array}$

其中 $\overline{\pmb x}=\dfrac{1}{n}\sum\limits_{i=1}^n\pmb x_i$ 为样本均值。

在一元正态总体参数的后验分布中,我们介绍了广义一元 $t$ 分布,下面介绍广义多元 $t$ 分布。


定义(广义多元 $t$ 分布) 若 $p$ 元随机向量 $\pmb X=(X_1,\dots,X_p)$ 具有概率密度函数

$\displaystyle f(\pmb x\mid\pmb\mu,\pmb R,\nu)=\dfrac{\Gamma(\frac{\nu+p}{2})}{\Gamma(\frac{\nu}{2})(\nu\pi)^{\frac{p}{2}}}\vert\pmb R\vert^{-\frac{1}{2}}\left[1+\frac{1}{\nu}(\pmb x-\pmb\mu)^\text{T}\pmb R^{-1}(\pmb x-\pmb\mu)\right]^{-\frac{\nu+p}{2}},$

则称 $\pmb X$ 服从广义 $p$ 元 $t$ 分布. 其中 $\nu>0$ 为自由度,$\pmb\mu$ 是均值向量,$\pmb R$ 为相关矩阵(协方差矩阵 $\pmb\Sigma=\dfrac{\nu}{\nu-2}\pmb R$),记为 $\pmb X\sim\mathscr{T}_p(\nu,\pmb\mu,\pmb R)$。特别地,当 $\nu=1$ 时,就是之前定义的广义一元 $t$ 分布,$R=\sigma^2$。


1. 无信息先验
  • 当 $\sigma^2$ 已知时均值参数 $\pmb\theta$ 的后验分布

    注意到 $\overline{\pmb X}$ 是 $\pmb\theta$ 的充分统计量,而且 $\overline{\pmb X}\sim N_p(\pmb\theta,(\sigma^2/n)\pmb I_p)$,所以

    $\displaystyle f(\overline{\pmb x}\mid\pmb\theta)=\Big(\frac{n}{2\pi\sigma^2}\Big)^{\frac{p}{2}}\exp\left\{-\frac{n}{2\sigma^2}(\overline{\pmb x}-\pmb\theta)^\text{T}(\overline{\pmb x}-\pmb\theta)\right\}.$

    由 $\pi(\pmb\theta)\equiv1,\pmb\theta\in\mathbb R^p$ 可知 $\pmb\theta$ 的后验密度

    $\displaystyle\pi(\pmb\theta\mid\overline{\pmb x})\propto f(\overline{\pmb x}\mid\pmb\theta)\pi(\pmb\theta)\propto\exp\left\{-\frac{n}{2\sigma^2}(\overline{\pmb x}-\pmb\theta)^\text{T}(\overline{\pmb x}-\pmb\theta)\right\}.$

    添加正则化常数,并利用后验分布与充分性的结论可知 $\pmb\theta$ 的后验分布为

    $\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim N_p(\overline{\pmb x},(\sigma^2/n)\pmb I_p).$
  • 当 $\pmb\theta$ 已知时方差参数 $\sigma^2$ 的后验分布

    考虑 $\pmb X_1,\dots,\pmb X_n$ 的联合概率密度函数为

    $\displaystyle f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2) = (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}(\pmb x_i-\pmb\theta)\right\}.$

    由 $\pi(\sigma^2)=1/\sigma^2$ 可知 $\sigma^2$ 的后验密度为

    $\displaystyle\pi(\sigma^2\mid\pmb x_1,\dots,\pmb x_n)\propto f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2)\pi(\sigma^2)\propto(\sigma^2)^{-\frac{np}{2}-1}\exp\left\{-\dfrac{A_n}{2\sigma^2}\right\}.$

    添加正则化常数可知 $\sigma^2$ 的后验分布为

    $\sigma^2\mid\pmb x_1,\dots,\pmb x_n\sim\Gamma^{-1}(np/2,A_n/2),$

    其中 $\displaystyle A_n=\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}(\pmb x_i-\pmb\theta)$.

  • 当 $\pmb\theta$ 和 $\sigma^2$ 皆未知时二者的后验分布

    考虑 $\pmb X_1,\dots,\pmb X_n$ 的联合概率密度函数为

    $\displaystyle f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2) = (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(\pmb x_i-\overline{\pmb x})^{\text{T}}(\pmb x_i-\overline{\pmb x})+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\bigg]\right\},$

    而 $\pmb\theta$ 和 $\sigma^2$ 的无信息先验分别为 $\pi_1(\pmb\theta)\equiv1$ 和 $\pi_2(\sigma^2)=1/\sigma^2$,假定 $\pmb\theta$ 和 $\sigma^2$ 独立,则 $(\pmb\theta,\sigma^2)$ 的联合先验密度为

    $\pi(\pmb\theta,\sigma^2)=\pi_1(\pmb\theta)\pi_2(\sigma^2)=1/\sigma^2,$

    因此,$(\pmb\theta,\sigma^2)$ 的联合后验密度为

    $\begin{array}{rl} \pi(\pmb\theta,\sigma^2\mid\pmb x_1,\dots,\pmb x_n)\propto&\!\!\!\! f(\pmb x_1,\dots,\pmb x_n\mid\pmb\theta,\sigma^2)\pi(\pmb\theta,\sigma^2)\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{np}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\Big[\overline{A}_n+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\Big]\right\}\\ =&\!\!\!\!(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{n}{2\sigma^2}(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\right\}\cdot(\sigma^2)^{-\frac{(n-1)p}{2}-1}\exp\left\{-\dfrac{\overline{A}_n}{2\sigma^2}\right\}\\ \propto&\!\!\!\!\pi_1(\pmb\theta\mid\sigma^2,\pmb x_1,\dots,\pmb x_n)\cdot\pi_2(\sigma^2\mid\pmb x_1,\dots,\pmb x_n), \end{array}$

    所以 $(\pmb\theta,\sigma^2)$ 的联合后验分布事实上是一个分层结构,即

    $\displaystyle \pmb\theta\mid\sigma^2,\pmb x_1,\dots,\pmb x_n\sim N_p\left(\overline{\pmb x},\frac{\sigma^2}{n}\pmb I_p\right),\quad\sigma^2\mid\pmb x_1,\dots,\pmb x_n\sim\Gamma^{-1}\left(\frac{(n-1)p}{2},\frac{\overline{A}_n}{2}\right),$

    其中

    $\displaystyle\overline{A}_n=\sum_{i=1}^n(\pmb x_i-\overline{\pmb x})^{\text{T}}(\pmb x_i-\overline{\pmb x})$.

    进一步 $\pmb\theta$ 的边缘后验密度为

    $\begin{array}{rl} \pi(\pmb\theta\mid\pmb x_1,\dots,\pmb x_n)=&\!\!\!\!\int_{\Sigma^2}\pi(\pmb\theta,\sigma^2\mid\pmb x_1,\dots,\pmb x_n){\rm d}(\sigma^2)\propto\Big[\overline{A}_n+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\Big]^{-\frac{np}{2}}\\ \propto&\!\!\!\!\left[1+\dfrac{1}{(n-1)p}(\pmb\theta-\overline{\pmb x})^\text{T}\pmb\Delta^{-1}(\pmb\theta-\overline{\pmb x})\right]^{-\frac{(n-1)p+p}{2}}, \end{array}$

    其中 $\pmb\Delta=\dfrac{s_n^2}{(n-1)p}\pmb I_p$,$s_n^2=\overline{A}_n/n$,所以 $\pmb\theta$ 的边缘后验分布为

    $\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim\mathscr{T}_p((n-1)p,\overline{\pmb x},\pmb\Delta).$

2. 共轭先验

  • 当 $\sigma^2$ 已知时均值参数 $\pmb\theta$ 的共轭后验分布

    注意到 $\overline{\pmb X}$ 是 $\pmb\theta$ 的充分统计量,而且 $\overline{\pmb X}\sim N_p(\pmb\theta,(\sigma^2/n)\pmb I_p)$,所以

    $\displaystyle f(\overline{\pmb x}\mid\pmb\theta)=\Big(\frac{n}{2\pi\sigma^2}\Big)^{\frac{p}{2}}\exp\left\{-\frac{n}{2\sigma^2}(\overline{\pmb x}-\pmb\theta)^\text{T}(\overline{\pmb x}-\pmb\theta)\right\}.$

    设 $\pmb\theta$ 的共轭先验分布为 $N_p(\pmb\mu,\tau^2\pmb I)$,其密度函数为

    $\displaystyle\pi(\pmb\theta)=(2\pi\tau^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{1}{2\tau^2}(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\right\}.$

    所以 $\pmb\theta$ 的后验密度为

    $\begin{array}{rl} \pi(\pmb\theta\mid\overline{\pmb x})\propto&\!\!\!\! f(\overline{\pmb x}\mid\pmb\theta)\pi(\pmb\theta)\\ \propto&\!\!\!\!\exp\left\{-\dfrac{n}{2\sigma^2}(\overline{\pmb x}-\pmb\theta)^\text{T}(\overline{\pmb x}-\pmb\theta)-\dfrac{1}{2\tau^2}(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\right\}\\ \propto&\!\!\!\!\exp\left\{-\dfrac{A}{2}\bigg(\pmb\theta-\dfrac{\pmb B}{A}\bigg)^\text{T}\bigg(\pmb\theta-\dfrac{\pmb B}{A}\bigg)\right\}. \end{array}$

    添加正则化常数,并利用后验分布与充分性的结论可知 $\pmb\theta$ 的后验分布为

    $\displaystyle\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim N_p\bigg(\frac{\pmb B}{A},\frac{1}{A}\pmb I_p\bigg)=N_p\bigg(\frac{n\tau^2\overline{\pmb x}+\sigma^2\pmb\mu}{n\tau^2+\sigma^2},\dfrac{\tau^2\sigma^2}{n\tau^2+\sigma^2}\pmb I_p\bigg),$

    其中 $A=\dfrac{n}{\sigma^2}+\dfrac{1}{\tau^2}$,$\pmb B=\dfrac{n\overline{\pmb x}}{\sigma^2}+\dfrac{\pmb\mu}{\tau^2}$。

  • 当 $\pmb\theta$ 已知时方差参数 $\sigma^2$ 的共轭后验分布

    考虑 $\pmb X_1,\dots,\pmb X_n$ 的联合概率密度函数为

    $\displaystyle f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2) = (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}(\pmb x_i-\pmb\theta)\right\}.$

    设 $\sigma^2$ 的共轭先验分布为 $\Gamma^{-1}(\alpha/2,\beta/2)$,其密度函数为

    $\displaystyle \pi(\sigma^2)=\frac{(\beta/2)^{\frac{\alpha}{2}}}{\Gamma(\alpha/2)}(\sigma^2)^{-\frac{\alpha}{2}-1}\exp\left\{-\frac{\beta}{2\sigma^2}\right\}.$

    所以 $\sigma^2$ 的后验密度为

    $\displaystyle\pi(\sigma^2\mid\pmb x_1,\dots,\pmb x_n)\propto f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2)\pi(\sigma^2)\propto(\sigma^2)^{-\frac{np+\alpha}{2}-1}\exp\left\{-\frac{(A_n+\beta)}{2\sigma^2}\right\}.$

    添加正则化常数可知 $\sigma^2$ 的后验分布为

    $\sigma^2\mid\pmb x_1,\dots,\pmb x_n\sim\Gamma^{-1}\left(\dfrac{np+\alpha}{2},\dfrac{A_n+\beta}{2}\right),$

    其中 $\displaystyle A_n=\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}(\pmb x_i-\pmb\theta)$.

  • 当 $\pmb\theta$ 和 $\sigma^2$ 皆未知时二者的共轭后验分布

    考虑 $\pmb X_1,\dots,\pmb X_n$ 的联合概率密度函数为

    $\displaystyle f(\pmb x_1,\dots,\pmb x_n\mid\sigma^2) = (2\pi\sigma^2)^{-\frac{np}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\sum_{i=1}^n(\pmb x_i-\overline{\pmb x})^{\text{T}}(\pmb x_i-\overline{\pmb x})+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)\bigg]\right\},$

    设 $(\pmb\theta,\sigma^2)$ 的联合共轭先验分布为正态-逆伽马先验,即 $\pmb\theta\mid\sigma^2\sim N_p(\pmb\mu,(\sigma^2/k)\pmb I_p)$,$\sigma^2\sim\Gamma^{-1}(\alpha/2,\beta/2)$,其联合密度函数为

    $\begin{array}{rl} \pi(\pmb\theta,\sigma^2) =&\!\!\!\! \pi_1(\pmb\theta\mid\sigma^2)\pi_2(\sigma^2)\\ =&\!\!\!\!\Big(\dfrac{k}{2\pi\sigma^2}\Big)^{\frac{p}{2}}\exp\left\{-\dfrac{k}{2\sigma^2}(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\right\}\cdot\dfrac{(\beta/2)^{\frac{\alpha}{2}}}{\Gamma(\alpha/2)}(\sigma^2)^{-\frac{\alpha}{2}-1}\exp\left\{-\dfrac{\beta}{2\sigma^2}\right\}\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{\alpha+p}{2}-1}\exp\left\{-\dfrac{k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)+\beta}{2\sigma^2}\right\}, \end{array}$

    因此,$(\pmb\theta,\sigma^2)$ 的联合后验密度为

    $\begin{array}{rl} &\!\!\!\!\pi(\pmb\theta,\sigma^2\mid\pmb x_1,\dots,\pmb x_n)\\ \propto&\!\!\!\! f(\pmb x_1,\dots,\pmb x_n\mid\pmb\theta,\sigma^2)\pi(\pmb\theta,\sigma^2)\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{np+\alpha+p}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\overline{A}_n+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)+\beta\bigg]\right\}\\ =&\!\!\!\!(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{n(\overline{\pmb x}-\pmb\theta)^{\text{T}}(\overline{\pmb x}-\pmb\theta)+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)}{2\sigma^2}\right\}\cdot(\sigma^2)^{-\frac{np+\alpha}{2}}\exp\left\{-\dfrac{\overline{A}_n+\beta}{2\sigma^2}\right\}\\ =&\!\!\!\!(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{n+k}{2\sigma^2}\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)^\text{T}\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)\right\}\\ &\cdot(\sigma^2)^{-\frac{np+\alpha}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\bigg[\overline{A}_n+\beta+\dfrac{nk}{n+k}(\overline{\pmb x}-\pmb\mu)^\text{T}(\overline{\pmb x}-\pmb\mu)\bigg]\right\}\\ \propto&\!\!\!\!\pi_1(\pmb\theta\mid\sigma^2,\pmb x_1,\dots,\pmb x_n)\cdot\pi_2(\sigma^2\mid\pmb x_1,\dots,\pmb x_n), \end{array}$

    所以 $(\pmb\theta,\sigma^2)$ 的联合后验分布也是正态-逆伽马分布, 即

    $\displaystyle\theta\mid\sigma^2,\pmb x_1,\dots,\pmb x_n\sim N_p\left(\frac{n\overline{\pmb x}+k\pmb\mu}{n+k},\frac{\sigma^2}{n+k}\pmb I_p\right),$ $\displaystyle\sigma^2\mid\pmb x_1,\dots,\pmb x_n\sim\Gamma^{-1}\left(\frac{np+\alpha}{2},\frac{1}{2}\bigg[\overline{A}_n+\beta+\dfrac{nk}{n+k}(\overline{\pmb x}-\pmb\mu)^\text{T}(\overline{\pmb x}-\pmb\mu)\bigg]\right),$

    其中

    $\displaystyle\overline{A}_n=\sum_{i=1}^n(\pmb x_i-\overline{\pmb x})^{\text{T}}(\pmb x_i-\overline{\pmb x})$.

    进一步 $\pmb\theta$ 的边缘后验密度为

    $\begin{array}{rl} &\!\!\!\!\pi(\pmb\theta\mid\pmb x_1,\dots,\pmb x_n)\\ =&\!\!\!\!\int_{\Sigma^2}\pi(\pmb\theta,\sigma^2\mid\pmb x_1,\dots,\pmb x_n){\rm d}(\sigma^2)\\ \propto&\!\!\!\!\left[\overline{A}_n+\beta+\dfrac{nk}{n+k}(\overline{\pmb x}-\pmb\mu)^\text{T}(\overline{\pmb x}-\pmb\mu)+(n+k)\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)^\text{T}\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)\right]^{-\frac{np+\alpha+p}{2}}\\ \propto&\!\!\!\!\left[1+\dfrac{1}{np+\alpha}\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)^\text{T}\pmb\Delta_n^{-1}\Big(\pmb\theta-\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k}\Big)\right]^{-\frac{np+\alpha+p}{2}}, \end{array}$

    其中 $\pmb\Delta_n=\dfrac{\beta_n}{(np+\alpha)(n+k)}\pmb I_p$,$\beta_n=\overline{A}_n+\beta+\dfrac{nk}{n+k}(\overline{\pmb x}-\pmb\mu)^\text{T}(\overline{\pmb x}-\pmb\mu)$,所以 $\pmb\theta$ 的边缘后验分布为

    $\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim\mathscr{T}_p\left(np+\alpha,\dfrac{n\overline{\pmb x}+k\pmb\mu}{n+k},\pmb\Delta_n\right).$

一般情形

设 $\pmb X$ 为 $p$ 维随机向量并且 $\pmb X\sim N_p(\pmb\theta,\pmb\Sigma)$,其中 $\pmb\Sigma$ 为已知的正定矩阵。令 $\pmb X_1,\dots,\pmb X_n$ 为从总体中抽取的i.i.d.样本,其联合概率密度函数为

$\begin{array}{rl} f(\pmb x_1,\dots,\pmb x_n\mid\pmb\theta) =&\!\!\!\! \displaystyle (2\pi)^{-\frac{np}{2}}\vert\pmb\Sigma\vert^{-\frac{n}{2}}\exp\left\{-\dfrac{1}{2}\sum_{i=1}^n(\pmb x_i-\pmb\theta)^{\text{T}}\pmb\Sigma^{-1}(\pmb x_i-\pmb\theta)\right\}\\ =&\!\!\!\! \displaystyle (2\pi)^{-\frac{np}{2}}\vert\pmb\Sigma\vert^{-\frac{n}{2}}\exp\left\{-\dfrac{1}{2}\Big[A_n^\star+n(\overline{\pmb x}-\pmb\theta)^{\text{T}}\pmb\Sigma^{-1}(\overline{\pmb x}-\pmb\theta)\Big]\right\}, \end{array}$

其中 $A_n^\star=\sum\limits_{i=1}^n(\pmb x_i-\overline{\pmb x})^\text{T}\pmb\Sigma^{-1}(\pmb x_i-\overline{\pmb x})$,$\overline{\pmb x}=\dfrac{1}{n}\sum\limits_{i=1}^n\pmb x_i$。

注意到这里我们假定正态总体的协方差矩阵已知,因为对其进行先验分布考虑不甚方便。

1. 无信息先验

注意到 $\overline{\pmb X}$ 是 $\pmb\theta$ 的充分统计量,而且 $\overline{\pmb X}\sim N_p(\pmb\theta,\pmb\Sigma/n)$,所以

$\displaystyle f(\overline{\pmb x}\mid\pmb\theta)=(2\pi)^{-\frac{np}{2}}\vert\pmb\Sigma\vert^{-\frac{n}{2}}\exp\left\{-\frac{n}{2}(\overline{\pmb x}-\pmb\theta)^\text{T}\pmb\Sigma^{-1}(\overline{\pmb x}-\pmb\theta)\right\}.$

由 $\pi(\pmb\theta)\equiv1,\pmb\theta\in\mathbb R^p$ 可知 $\pmb\theta$ 的后验密度

$\displaystyle\pi(\pmb\theta\mid\overline{\pmb x})\propto f(\overline{\pmb x}\mid\pmb\theta)\pi(\pmb\theta)\propto\exp\left\{-\frac{n}{2}(\overline{\pmb x}-\pmb\theta)^\text{T}\pmb\Sigma^{-1}(\overline{\pmb x}-\pmb\theta)\right\}.$

添加正则化常数,并利用后验分布与充分性的结论可知 $\pmb\theta$ 的后验分布为

$\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim N_p(\overline{\pmb x},\pmb\Sigma/n).$

2. 共轭先验

注意到 $\overline{\pmb X}$ 是 $\pmb\theta$ 的充分统计量,而且 $\overline{\pmb X}\sim N_p(\pmb\theta,\pmb\Sigma/n)$,所以

$\displaystyle f(\overline{\pmb x}\mid\pmb\theta)=(2\pi)^{-\frac{np}{2}}\vert\pmb\Sigma\vert^{-\frac{n}{2}}\exp\left\{-\frac{n}{2}(\overline{\pmb x}-\pmb\theta)^\text{T}\pmb\Sigma^{-1}(\overline{\pmb x}-\pmb\theta)\right\}.$

设 $\pmb\theta$ 的共轭先验分布为 $N_p(\pmb\mu,\pmb A)$,其密度函数为

$\displaystyle\pi(\pmb\theta)=(2\pi)^{-\frac{p}{2}}\vert\pmb A\vert^{-\frac{1}{2}}\exp\left\{-\dfrac{1}{2}(\pmb\theta-\pmb\mu)^\text{T}\pmb A^{-1}(\pmb\theta-\pmb\mu)\right\}.$

所以 $\pmb\theta$ 的后验密度为

$\begin{array}{rl} \pi(\pmb\theta\mid\overline{\pmb x})\propto&\!\!\!\! f(\overline{\pmb x}\mid\pmb\theta)\pi(\pmb\theta)\\ \propto&\!\!\!\!\exp\left\{-\dfrac{n}{2}(\overline{\pmb x}-\pmb\theta)^\text{T}\pmb\Sigma^{-1}(\overline{\pmb x}-\pmb\theta)-\dfrac{1}{2}(\pmb\theta-\pmb\mu)^\text{T}\pmb A^{-1}(\pmb\theta-\pmb\mu)\right\}\\ \propto&\!\!\!\!\exp\left\{-\dfrac{1}{2}(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\pmb\Sigma_\star^{-1}(\pmb\theta-\widetilde{\pmb\theta})\right\}. \end{array}$

添加正则化常数,并利用后验分布与充分性的结论可知 $\pmb\theta$ 的后验分布为

$\displaystyle\pmb\theta\mid\pmb x_1,\dots,\pmb x_n\sim N_p(\widetilde{\pmb\theta},\pmb\Sigma_\star),$

其中 $\widetilde{\pmb\theta}=(n\pmb\Sigma^{-1}+\pmb A^{-1})^{-1}(n\pmb\Sigma\overline{\pmb x}+\pmb A^{-1}\pmb\mu)$,$\pmb\Sigma_\star=(n\pmb\Sigma^{-1}+\pmb A^{-1})^{-1}$。

线性回归模型

对线性回归,有如下经典线性回归模型:

$\pmb y_{n\times 1}=\pmb X_{n\times p}\pmb\theta_{p\times 1}+\pmb\varepsilon_{n\times 1},$

其中

$\pmb X=\left(\begin{array}{ccc} x_{11} & \cdots & x_{1p}\\ \vdots & \ddots & \vdots\\ x_{n1} & \cdots & x_{np} \end{array}\right),\quad \pmb y=\left(\begin{array}{c} y_1\\ \vdots\\ y_n \end{array}\right),\quad \pmb\theta=\left(\begin{array}{c} \theta_1\\ \vdots\\ \theta_p \end{array}\right),$

且满足 ${\rm rank}(\pmb X)=p$,$\pmb\varepsilon\sim N_n(\pmb 0,\sigma^2\pmb I)$。

基于随机误差项的正态假设,经典线性回归模型还可以写成 $\pmb y\sim N_n(\pmb X\pmb\theta,\sigma^2\pmb I)$。所以 $\pmb y$ 的条件密度为

$\begin{array}{rl} f(\pmb y\mid\pmb\theta,\sigma^2) =&\!\!\!\! (2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb y-\pmb X\pmb\theta)^\text{T}(\pmb y-\pmb X\pmb\theta)\right\}\\ =&\!\!\!\! (2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb y-\hat{\pmb y})^\text{T}(\pmb y-\hat{\pmb y})+(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})\right\}. \end{array}$

其中 $\hat{\pmb\theta}=(\pmb X^\text{T}\pmb X)^{-1}\pmb X^\text{T}\pmb y$,$\hat{\pmb y}=\pmb X\hat{\pmb\theta}=\pmb X(\pmb X^\text{T}\pmb X)^{-1}\pmb X^\text{T}\pmb y$。

再令 $\pmb P_{\pmb X}=\pmb X(\pmb X^\text{T}\pmb X)^{-1}\pmb X^\text{T}$,可以证明 $\pmb P_{\pmb X}$ 为幂等矩阵。再令

$S_n^2=\dfrac{1}{n-p}(\pmb y-\hat{\pmb y})^\text{T}(\pmb y-\hat{\pmb y})=\dfrac{1}{n-p}\pmb y^\text{T}(\pmb I-\pmb P_{\pmb X})\pmb y.$

则有

$(\pmb y-\pmb X\pmb\theta)^\text{T}(\pmb y-\pmb X\pmb\theta)=(n-p)S_n^2+(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta}).$

1. 无信息先验

  • 当 $\sigma^2$ 已知时 $\pmb\theta$ 的后验分布

    设 $\pmb\theta$ 具有无信息先验 $\pmb\theta\equiv1,\pmb\theta\in\mathbb R^p$,则 $\pmb\theta$ 的后验密度为

    $\pi(\pmb\theta\mid\pmb y)\propto f(\pmb y\mid\pmb\theta)\pi(\pmb\theta)\propto\exp\left\{-\cfrac{1}{2\sigma^2}(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})\right\}.$

    添加正则化常数,可知 $\pmb\theta$ 的后验分布为

    $\pmb\theta\mid\pmb y,\pmb X\sim N_p(\hat{\pmb\theta},\sigma^2(\pmb X^\text{T}\pmb X)^{-1}).$
  • 当 $\pmb\theta$ 和 $\sigma^2$ 皆未知时的后验分布

    设 $\pmb\theta$ 和 $\sigma^2$ 的无信息先验分别为 $\pi_1(\pmb\theta)\equiv1$ 和 $\pi_2(\sigma^2)=1/\sigma^2$,假定 $\pmb\theta$ 和 $\sigma^2$ 独立,则 $(\pmb\theta,\sigma^2)$ 的联合无信息先验密度为

    $\pi(\pmb\theta,\sigma^2)=\pi_1(\pmb\theta)\pi_2(\sigma^2)=\dfrac{1}{\sigma^2}.$

    因此 $(\pmb\theta,\sigma^2)$ 的联合后验密度为

    $\begin{array}{rl} \pi(\pmb\theta,\sigma^2\mid\pmb y) \propto&\!\!\!\!f(\pmb y\mid\pmb\theta,\sigma^2)\pi(\pmb\theta,\sigma^2)\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{n}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb y-\pmb X\pmb\theta)^\text{T}(\pmb y-\pmb X\pmb\theta)\right\}\\ =&\!\!\!\!(\sigma^2)^{-p/2}\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})\right\}\cdot(\sigma^2)^{-\frac{n-p}{2}-1}\exp\left\{-\dfrac{(n-p)S_n^2}{2\sigma^2}\right\}\\ \propto&\!\!\!\!\pi_1(\pmb\theta\mid\sigma^2,\pmb y)\cdot\pi_2(\sigma^2\mid\pmb y) \end{array}$

    所以 $(\pmb\theta,\sigma^2)$ 的联合后验分布事实上是一个分层结构,即

    $\displaystyle \pmb\theta\mid\sigma^2,\pmb y,\pmb X\sim N_p\left(\hat{\pmb\theta},\sigma^2(\pmb X^\text{T}\pmb X)^{-1}\right),\quad\sigma^2\mid\pmb y,\pmb X\sim\Gamma^{-1}\left(\frac{n-p}{2},\frac{(n-p)S_n^2}{2}\right),$

    进一步,$\pmb\theta$ 的边缘后验密度为

    $\begin{array}{rl} \pi(\pmb\theta\mid\pmb y)=\displaystyle\int_{\Sigma^2}\pi(\pmb\theta,\sigma^2\mid\pmb y){\rm d}(\sigma^2) \propto&\!\!\!\!\left[\dfrac{(n-p)S_n^2+(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})}{2}\right]^{-\frac{n}{2}}\\ \propto&\!\!\!\!\left[1+\dfrac{1}{n-p}\cdot(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb B^{-1}(\pmb\theta-\hat{\pmb\theta})\right]^{-\frac{n-p+p}{2}}, \end{array}$

    其中 $\displaystyle \pmb B=S_n^2(\pmb X^\text{T}\pmb X)^{-1}$,所以 $\pmb\theta$ 的边缘后验分布为

    $\pmb\theta\mid\pmb y,\pmb X\sim\mathscr{T}_p(n-p,\hat{\pmb\theta},\pmb B).$

2. 共轭先验

  • 当 $\sigma^2$ 已知时 $\pmb\theta$ 的共轭后验分布

    设 $\pmb\theta$ 的共轭先验分布为 $N_p(\pmb\mu,(\sigma^2/k)\pmb I_p)$,其密度函数为

    $\displaystyle\pi(\pmb\theta)=\Big(\frac{k}{2\pi\sigma^2}\Big)^{\frac{p}{2}}\exp\left\{-\frac{k}{2\sigma^2}(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\right\}.$

    则 $\pmb\theta$ 的后验密度为

    $\begin{array}{rl} \pi(\pmb\theta\mid\pmb y)\propto f(\pmb y\mid\pmb\theta)\pi(\pmb\theta)\propto&\!\!\!\!\exp\left\{-\dfrac{1}{2\sigma^2}\Big[(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu))\Big]\right\}\\ \propto&\!\!\!\!\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\tilde{\pmb\Sigma}^{-1}(\pmb\theta-\widetilde{\pmb\theta})\right\}, \end{array}$

    添加正则化常数,可知 $\pmb\theta$ 的后验分布为

    $\pmb\theta\mid\pmb y,\pmb X\sim N_p(\widetilde{\pmb\theta},\sigma^2\tilde{\pmb\Sigma}),$

    其中 $\widetilde{\pmb\theta}=(\pmb X^\text{T}\pmb X+k\pmb I_p)^{-1}(\pmb X^\text{T}\pmb X\hat{\pmb\theta}+k\pmb\mu)$,$\tilde{\pmb\Sigma}=(\pmb X^\text{T}\pmb X+k\pmb I_p)^{-1}$。

  • 当 $\pmb\theta$ 和 $\sigma^2$ 皆未知时的共轭后验分布

    设 $(\pmb\theta,\sigma^2)$ 的联合共轭先验分布为正态-逆伽马先验即 $\pmb\theta\mid\sigma^2\sim N_p(\pmb\mu,(\sigma^2/k)\pmb I_p)$,$\sigma^2\sim\Gamma^{-1}(\alpha/2,\beta/2)$,其联合密度函数为

    $\begin{array}{rl} \pi(\pmb\theta,\sigma^2) =&\!\!\!\! \pi_1(\pmb\theta\mid\sigma^2)\pi_2(\sigma^2)\\ =&\!\!\!\!\Big(\dfrac{k}{2\pi\sigma^2}\Big)^{\frac{p}{2}}\exp\left\{-\dfrac{k}{2\sigma^2}(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\right\}\cdot\dfrac{(\beta/2)^{\frac{\alpha}{2}}}{\Gamma(\alpha/2)}(\sigma^2)^{-\frac{\alpha}{2}-1}\exp\left\{-\dfrac{\beta}{2\sigma^2}\right\}\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{\alpha+p}{2}-1}\exp\left\{-\dfrac{k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)+\beta}{2\sigma^2}\right\}, \end{array}$

    因此,$(\pmb\theta,\sigma^2)$ 的联合后验密度为

    $\begin{array}{rl} &\!\!\!\!\pi(\pmb\theta,\sigma^2\mid\pmb y)\\ \propto&\!\!\!\! f(\pmb y\mid\pmb\theta,\sigma^2)\pi(\pmb\theta,\sigma^2)\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{n+\alpha+p}{2}-1}\exp\left\{-\dfrac{1}{2\sigma^2}\Big[(n-p)S_n^2+(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)+\beta\Big]\right\}\\ =&\!\!\!\!(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)}{2\sigma^2}\right\}\\ &\cdot(\sigma^2)^{-\frac{n+\alpha}{2}}\exp\left\{-\dfrac{(n-p)S_n^2+\beta}{2\sigma^2}\right\}. \end{array}$

    配方得

    $\begin{array}{rl} &\!\!\!\!(\pmb\theta-\hat{\pmb\theta})^\text{T}\pmb X^\text{T}\pmb X(\pmb\theta-\hat{\pmb\theta})+k(\pmb\theta-\pmb\mu)^\text{T}(\pmb\theta-\pmb\mu)\\ =&\!\!\!\!\pmb\theta^\text{T}(\pmb X^\text{T}\pmb X+k\pmb I_p)\pmb\theta-2\pmb\theta^\text{T}(\pmb X^\text{T}\pmb X\hat{\pmb\theta}+k\pmb\mu)+\hat{\pmb\theta}^\text{T}\pmb X^\text{T}\pmb X\hat{\pmb\theta}+k\pmb\mu^\text{T}\pmb\mu\\ =&\!\!\!\!(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\tilde{\pmb\Sigma}^{-1}(\pmb\theta-\widetilde{\pmb\theta})+(\hat{\pmb\theta}-\pmb\mu)^\text{T}\pmb A^{-1}(\hat{\pmb\theta}-\pmb\mu), \end{array}$

    其中 $\tilde{\pmb\Sigma}=(\pmb X^\text{T}\pmb X+k\pmb I_p)^{-1}$,$\widetilde{\pmb\theta}=\tilde{\pmb\Sigma}(\pmb X^\text{T}\pmb X\hat{\pmb\theta}+k\pmb\mu)$,$\pmb A=(k\tilde{\pmb\Sigma}\pmb X^\text{T}\pmb X)^{-1}=(\pmb X^\text{T}\pmb X)^{-1}+k^{-1}\pmb I_p$。

    于是 $(\pmb\theta,\sigma^2)$ 的联合后验密度进一步可以化简为

    $\begin{array}{rl} \pi(\pmb\theta,\sigma^2\mid\pmb y)\propto&\!\!\!\!(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\tilde{\pmb\Sigma}^{-1}(\pmb\theta-\widetilde{\pmb\theta})\right\}\\ &\cdot(\sigma^2)^{-\frac{n+\alpha}{2}}\exp\left\{-\dfrac{1}{2\sigma^2}\left[(n-p)S_n^2+\beta+(\hat{\pmb\theta}-\pmb\mu)^\text{T}\pmb A^{-1}(\hat{\pmb\theta}-\pmb\mu)\right]\right\} \end{array}$

    所以 $(\pmb\theta,\sigma^2)$ 的联合后验分布事实上是一个分层结构,即

    $\displaystyle \pmb\theta\mid\sigma^2,\pmb y,\pmb X\sim N_p\left(\widetilde{\pmb\theta},\sigma^2\tilde{\pmb\Sigma}\right),$ $\displaystyle\sigma^2\mid\pmb y,\pmb X\sim\Gamma^{-1}\left(\frac{n+\alpha}{2},\frac{(n-p)S_n^2+\beta+(\hat{\pmb\theta}-\pmb\mu)^\text{T}\pmb A^{-1}(\hat{\pmb\theta}-\pmb\mu)}{2}\right),$

    进一步,$\pmb\theta$ 的边缘后验密度为

    $\begin{array}{rl} \pi(\pmb\theta\mid\pmb y)=&\!\!\!\!\displaystyle\int_{\Sigma^2}\pi(\pmb\theta,\sigma^2\mid\pmb y){\rm d}(\sigma^2)\\ \propto&\!\!\!\!\left[\dfrac{(n-p)S_n^2+\beta+(\hat{\pmb\theta}-\pmb\mu)^\text{T}\pmb A^{-1}(\hat{\pmb\theta}-\pmb\mu)+(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\tilde{\pmb\Sigma}^{-1}(\pmb\theta-\widetilde{\pmb\theta})}{2}\right]^{-\frac{n+\alpha+p}{2}}\\ \propto&\!\!\!\!\left[1+\dfrac{1}{n+\alpha}\cdot(\pmb\theta-\widetilde{\pmb\theta})^\text{T}\tilde{\pmb B}^{-1}(\pmb\theta-\widetilde{\pmb\theta})\right]^{-\frac{n+\alpha+p}{2}}, \end{array}$

    其中 $\displaystyle \tilde{\pmb B}=\dfrac{(n-p)S_n^2+\beta+(\hat{\pmb\theta}-\pmb\mu)^\text{T}\pmb A^{-1}(\hat{\pmb\theta}-\pmb\mu)}{n+\alpha}\tilde{\pmb\Sigma}$,所以 $\pmb\theta$ 的边缘后验分布为

    $\pmb\theta\mid\pmb y,\pmb X\sim\mathscr{T}_p(n+\alpha,\widetilde{\pmb\theta},\tilde{\pmb B}).$

后记

本文内容涉及较多的矩阵运算,希望各位读者可以自行动手算算,把握后验分布计算的精髓。至此,常见分布参数的后验分布计算这节也就结束了。

如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn