Bayes-Lec10 贝叶斯线性与广义线性模型

贝叶斯线性模型

考虑多元正态线性回归模型

$y_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_{p-1}x_{i,p-1}+\varepsilon_i,\quad\varepsilon_i\sim N(0,\sigma^2).$

记 $\pmb y=(y_1,\dots,y_n)’$，$\pmb X$ 为 $n\times p$ 设计矩阵，$\pmb\beta=(\beta_0,\dots,\beta_{p-1})’$ 为感兴趣的参数，则参数的最小二乘估计（也是极大似然估计）

$\hat{\pmb\beta}=(\pmb X'\pmb X)^{-1}\pmb X'\pmb y\sim N(\pmb\beta,\sigma^2(\pmb X'\pmb X)^{-1}).$

对方差 $\sigma^2$ 的估计为

$\hat{\sigma}^2=\dfrac{1}{n-p}(\pmb y-\pmb X\hat{\pmb\beta})'(\pmb y-\pmb X\hat{\pmb\beta}).$

后验分布

在Lec2.3节中我们已经详细推导了无信息先验与共轭先验下的参数后验分布，这里我们对不正常先验和NIG先验作简要的回顾（另外，Lec8.2节已经提供了Zellner’s g先验的结果）。

由模型可知 $(\pmb\beta,\sigma^2)$ 的似然函数为

$\begin{array}{rl} L(\pmb\beta,\sigma^2\mid\pmb y,\pmb X)\propto&\!\!\!\!(\sigma^2)^{-\frac{n}{2}}\exp\left\{-\dfrac{(\pmb y-\pmb X\pmb\beta)'(\pmb y-\pmb X\pmb\beta)}{2\sigma^2}\right\}\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{n}{2}}\exp\left\{-\dfrac{(\pmb\beta-\hat{\pmb\beta})'\pmb X'\pmb X(\pmb\beta-\hat{\pmb\beta})+\nu s^2}{2\sigma^2}\right\}, \end{array}$

其中 $\nu=n-p$，$\nu s^2=(\pmb y-\pmb X\hat{\pmb\beta})’(\pmb y-\pmb X\hat{\pmb\beta})$。

不正常先验

对 $\pmb\beta$ 采用Jeffreys先验，即 $\pi(\pmb\beta)=1$，此时若 $\sigma^2$ 已知，则

$\pmb\beta\mid\pmb y,\pmb X\sim N(\hat{\pmb\beta},\sigma^2(\pmb X'\pmb X)^{-1}).$

大部分情况下 $\sigma^2$ 是未知的，此时若 $\pi(\sigma^2)=1/\sigma^2$，且 $\pmb\beta$ 与 $\sigma^2$ 独立，则

$\pmb\beta\mid\pmb y,\pmb X\sim\mathscr{T}_p\left(\nu,\hat{\pmb\beta},s^2(\pmb X'\pmb X)^{-1}\right),\quad\sigma^2\mid\pmb y,\pmb X\sim\Gamma^{-1}\left(\dfrac{\nu}{2},\dfrac{\nu s^2}{2}\right).$

若假设 $\sigma^2$ 是共轭先验，即 $\sigma^2\sim\Gamma^{-1}(a,b)$，且 $\pmb\beta$ 与 $\sigma^2$ 独立，则

$\pmb\beta\mid\pmb y,\pmb X\sim\mathscr{T}_p\left(\nu+2a,\hat{\pmb\beta},\dfrac{\nu s^2+2b}{\nu+2a}(\pmb X'\pmb X)^{-1}\right),\quad\sigma^2\mid\pmb y,\pmb X\sim\Gamma^{-1}\left(\dfrac{\nu}{2}+a,\dfrac{\nu s^2}{2}+b\right).$

实际中，$a$ 和 $b$ 都取较小值（如0.001），相当于前一种情形。

正态-逆伽马（NIG）先验

设 $\pmb\beta\mid\sigma^2\sim N_p(\pmb\mu,\sigma^2\pmb V)$，$\sigma^2\sim\Gamma^{-1}(a,b)$（比Lec2.3中给的 $\pmb\beta$ 分量独立的情况更加一般），则

$\begin{array}{rl} \pi(\pmb\beta,\sigma^2\mid\pmb y,\pmb X)\propto&\!\!\!\!(\sigma^2)^{-\frac{n}{2}}\exp\left\{-\dfrac{(\pmb\beta-\hat{\pmb\beta})'\pmb X'\pmb X(\pmb\beta-\hat{\pmb\beta})+\nu s^2}{2\sigma^2}\right\}\\ &\quad\cdot(\sigma^2)^{-\frac{p}{2}}\exp\left\{-\dfrac{(\pmb\beta-\pmb\mu)'\pmb V^{-1}(\pmb\beta-\pmb\mu)}{2\sigma^2}\right\}\cdot(\sigma^2)^{-a-1}\exp\left\{-\dfrac{b}{\sigma^2}\right\}\\ \propto&\!\!\!\!(\sigma^2)^{-\frac{n+p}{2}-a-1}\exp\left\{-\dfrac{(\pmb\beta-\tilde{\pmb\mu})'\tilde{\pmb V}^{-1}(\pmb\beta-\tilde{\pmb\mu})+\tilde{b}}{2\sigma^2}\right\}, \end{array}$

其中 $\tilde{\pmb\mu}=(\pmb X’\pmb X+\pmb V^{-1})^{-1}(\pmb X’\pmb y+\pmb V^{-1}\pmb\mu)$，$\tilde{\pmb V}=(\pmb X’\pmb X+\pmb V^{-1})^{-1}$，

$\begin{array}{rl} \tilde{b}=&\!\!\!\!2b+\pmb y'\pmb y+\pmb\mu'\pmb V^{-1}\pmb\mu-\tilde{\pmb\mu}'\tilde{\pmb V}^{-1}\tilde{\pmb\mu}\\ =&\!\!\!\!2b+\pmb y'\pmb y+\pmb\mu'\pmb V^{-1}\pmb\mu-(\pmb X'\pmb y+\pmb V^{-1}\pmb\mu)'\tilde{\pmb V}(\pmb X'\pmb y+\pmb V^{-1}\pmb\mu)\\ =&\!\!\!\!2b+\pmb y'(\pmb I_n-\pmb X\tilde{\pmb V}\pmb X')\pmb y-2\pmb y'\pmb X\tilde{\pmb V}\pmb V^{-1}\pmb\mu+\pmb\mu'(\pmb V^{-1}-\pmb V^{-1}\tilde{\pmb V}\pmb V^{-1})\pmb\mu \end{array}$

注意到恒等式 $(\pmb A+\pmb B\pmb D\pmb C)^{-1}=\pmb A^{-1}-\pmb A^{-1}\pmb B(\pmb D^{-1}+\pmb C\pmb A^{-1}\pmb B)^{-1}\pmb C\pmb A^{-1}$，于是

$\pmb V^{-1}-\pmb V^{-1}\tilde{\pmb V}\pmb V^{-1}=[(\pmb X'\pmb X)^{-1}+\pmb V]^{-1}=\pmb X'\pmb X-\pmb X'\pmb X\tilde{\pmb V}\pmb X'\pmb X=\pmb X'(\pmb I_n-\pmb X\tilde{\pmb V}\pmb X')\pmb X.$

又 $\tilde{\pmb V}(\pmb X’\pmb X+\pmb V^{-1})=\pmb I_p$，所以 $\pmb X\tilde{\pmb V}\pmb V^{-1}=(\pmb I_n-\pmb X\tilde{\pmb V}\pmb X’)\pmb X$，由上述结果可知

$\begin{array}{rl} \tilde{b}=&\!\!\!\!2b+(\pmb y-\pmb X\pmb\mu)'(\pmb I_n-\pmb X\tilde{\pmb V}\pmb X')(\pmb y-\pmb X\pmb\mu)\\ =&\!\!\!\!2b+(\pmb y-\pmb X\pmb\mu)'(\pmb I_n+\pmb X\pmb V\pmb X')^{-1}(\pmb y-\pmb X\pmb\mu). \end{array}$

这里第二个等号又用到了前面的矩阵恒等式。所以

$\pmb\beta\mid\pmb y,\pmb X\sim\mathscr{T}_p\left(n+2a,\tilde{\pmb\mu},\dfrac{\tilde{b}}{n+2a}\tilde{\pmb V}\right),\quad\sigma^2\mid\pmb y,\pmb X\sim\Gamma^{-1}\left(\dfrac{n}{2}+a,\dfrac{\tilde{b}}{2}\right).$

边际分布

注意到模型可以写为

$\pmb y=\pmb X\pmb\beta+\pmb\varepsilon_1,\quad\pmb\beta=\pmb\mu+\pmb\varepsilon_2,$

其中 $\pmb\varepsilon_1\sim N(\pmb 0,\sigma^2\pmb I)$，$\pmb\varepsilon_2\sim N(\pmb 0,\sigma^2\pmb V)$，而 $\sigma^2\sim\Gamma^{-1}(a,b)$。所以

$\pmb y=\pmb X\pmb\mu+\pmb X\pmb\varepsilon_2+\pmb\varepsilon_1\sim N(\pmb X\pmb\mu,\sigma^2(\pmb I+\pmb X\pmb V\pmb X')).$

因此

$\begin{array}{rl} p(\pmb y)=&\!\!\!\!\displaystyle\int_{\Sigma^2}p(\pmb y\mid\sigma^2)\pi(\sigma^2)\text{d}(\sigma^2)\\ \propto&\!\!\!\!\displaystyle\int_{\Sigma^2}(\sigma^2)^{-\frac{n}{2}-a-1}\exp\left\{-\frac{(\pmb y-\pmb X\pmb\mu)'(\pmb I+\pmb X\pmb V\pmb X')^{-1}(\pmb y-\pmb X\pmb\mu)+2b}{2\sigma^2}\right\}\text{d}(\sigma^2)\\ \propto&\!\!\!\!\left[1+\dfrac{1}{2a}(\pmb y-\pmb X\pmb\mu)'\left(\dfrac{b}{a}(\pmb I+\pmb X\pmb V\pmb X')\right)^{-1}(\pmb y-\pmb X\pmb\mu)\right]^{-\frac{n+2a}{2}}, \end{array}$

于是 $\pmb y$ 的边际分布为

$\pmb y\sim\mathscr{T}_n\left(2a,\pmb X\pmb\mu,\dfrac{b}{a}(\pmb I+\pmb X\pmb V\pmb X')\right).$

预测分布

当有了一组新观测 $\pmb X_{\text{new}}$ 后，我们希望预测其响应 $\pmb y_{\text{new}}$。由预测公式

$\begin{array}{rl} p(\pmb y_{\text{new}}\mid\pmb y)=&\!\!\!\!\displaystyle\iint p(\pmb y_{\text{new}}\mid\pmb\beta,\sigma^2)\pi(\pmb\beta,\sigma^2\mid\pmb y,\pmb X)\text{d}\pmb\beta\text{d}(\sigma^2)\\ =&\!\!\!\!\displaystyle\iint N(\pmb X_{\text{new}}\pmb\beta,\sigma^2\pmb I_m)\cdot NIG\left(\tilde{\pmb\mu},\tilde{\pmb V},\dfrac{n+2a}{2},\dfrac{\tilde{b}}{2}\right)\text{d}\pmb\beta\text{d}(\sigma^2)\\ =&\!\!\!\!\mathscr{T}_m\left(n+2a,\pmb X_{\text{new}}\tilde{\pmb\mu},\dfrac{\tilde{b}}{n+2a}(\pmb I+\pmb X_{\text{new}}\tilde{\pmb V}\pmb X_{\text{new}}')\right), \end{array}$

注意这里利用了正态与NIG的边际分布结论。

特别地，当取无信息先验 $\pi(\pmb\beta,\sigma^2)=1/\sigma^2$ 时，等价于在NIG系统中令 $\pmb V^{-1}\rightarrow\pmb 0$，$a\rightarrow-p/2$，$b\rightarrow0$，此时，预测分布为

$\pmb y_{\text{new}}\sim\mathscr{T}_m\left(n-p,\pmb X_{\text{new}}\hat{\pmb\beta},s^2(\pmb I_m+\pmb X_{\text{new}}(\pmb X'\pmb X)^{-1}\pmb X_{\text{new}})\right).$

回归诊断

与频率统计下类似的，我们考虑残差 $\pmb e=\pmb y-\pmb X\pmb\beta$ 为一个我们希望推断的未知量。如果 $\pmb e$ 已知，则可以用来检查模型假设、独立性等。

记 $\hat{\pmb e}$ 为 $\pmb e$ 的后验均值，即

$\hat{\pmb e}=\mathbb E(\pmb e\mid\pmb y,\pmb X)=\pmb y-\pmb X\cdot\mathbb E(\pmb\beta\mid\pmb y,\pmb X).$

在无信息先验下，$\mathbb E(\pmb\beta\mid\pmb y,\pmb X)=\hat{\pmb\beta}=(\pmb X’\pmb X)^{-1}\pmb X’\pmb y$。根据后验分布的结论可知，

$t=\dfrac{e_i-\hat{e}_i}{s_{e_i}}\sim t(n-p),$

其中 $s_{e_i}^2=\pmb x_i’(\pmb X’\pmb X)^{-1}\pmb x_is^2$，$e_i=y_i-\pmb x_i’\pmb\beta$ 为 $\pmb e$ 的第 $i$ 个分量。进而 $e_i$ 的 $1-\alpha$ 贝叶斯可信区间为

$\left(\hat{e}_i-t_{\alpha/2}(n-p)\cdot s_{e_i},\hat{e}_i+t_{\alpha/2}(n-p)\cdot s_{e_i}\right).$

通过观察各个点是否在此可信区间里来判断模型是否合适。

对于影响点（或异常点）分析，可以通过对每个异常点引入或剔除时模型系数估计的变化来判断。更一般地，可以将数据分成不同的子集，研究每个子集下参数估计的变化情况。

贝叶斯广义线性回归

广义线性模型（GLM）是线性模型的一种推广，它由三个部分组成：

系统部分（Systematic Component）：线性预测量 $\pmb\theta=\pmb X\pmb\beta$；
连接函数（Link Function）：连接函数 $g$ 将响应变量期望与线性预测量联系起来，即 $g(\mathbb E[\pmb y\mid\pmb X])=\pmb\theta.$
随机部分（Stochastic Component）：指定响应变量 $\pmb y$ 的条件分布服从指数族分布（自然形式），即 $f(\pmb y\mid\pmb\theta,\phi)=\exp\left\{\dfrac{\pmb y'\pmb\theta-b(\pmb\theta)}{a(\phi)}+c(\pmb y,\phi)\right\}.$
这包括正态、二项、负二项、泊松、多项、伽马等一系列指数族分布。

下表给出了一些分布下的连接函数及其逆。

分布	连接函数 $\theta=g(\mu)$	逆连接函数 $\mu=g^{-1}(\theta)$
泊松	$\log(\mu)$	$\exp(\theta)$
二项	logit连接：$\log\dfrac{\mu}{1-\mu}$	$\dfrac{\exp(\theta)}{1+\exp(\theta)}$
	probit连接：$\Phi^{-1}(\mu)$	$\Phi(\theta)$
	cloglog连接：$\log(-\log(1-\mu))$	$1-\exp(-\exp(\theta))$
正态	$\mu$	$\theta$
伽马	$-\dfrac{1}{\mu}$	$-\dfrac{1}{\theta}$
负二项	$\log(1-\mu)$	$1-\exp(\theta)$

Deviance Function

尽管残差可以表示成类似线性模型中观测结果减去预测结果值，具体有

线性模型残差：$\pmb R_{\text{standard}}=\pmb y-\pmb X\pmb\beta$；
响应变量残差：$\pmb R_{\text{response}}=\pmb y-g^{-1}(\pmb X\pmb\beta)$；
Pearson残差：$\pmb R_{\text{Pearson}}=\dfrac{\pmb y-\pmb\mu}{\sqrt{\text{Var}(\pmb\mu)}}$；
Working残差：$\pmb R_{\text{working}}=(\pmb y-\pmb\mu)\dfrac{\partial\pmb\mu}{\partial\pmb\theta}=(\pmb y-\pmb\mu)/g’(\pmb\mu)$。

但是在GLM中，更有用的是使用Deviance residuals：

个体偏差函数：$R_{\text{Deviance}}=\text{sign}(y_i-\mu_i)\sqrt{\vert d(\pmb\theta,y_i)\vert}$；
总偏差：$\displaystyle D=\sum_{i=1}^n d(\pmb\theta,y_i)$；

其中 $d(\pmb\theta,y_i)=-2\left[l(\hat{\pmb\theta},\phi\mid y_i)-l(\tilde{\pmb\theta},\phi\mid y_i)\right]$，$\tilde{\pmb\theta}$ 为饱和模型参数估计。

下表给出了一些分布下的典则参数与偏差函数。

分布	典则参数	偏差函数
泊松 $\mathcal P(\mu)$	$\theta=\log(\mu)$	$\displaystyle 2\sum_{i=1}^n\left[y_i\log\dfrac{y_i}{\mu_i}-y_i+\mu_i\right]$
二项 $B(m,p)$	$\theta=\log\dfrac{\mu}{1-\mu}$	$\displaystyle 2\sum_{i=1}^n\left[y_i\log\dfrac{y_i}{\mu_i}+(m_i-y_i)\log\dfrac{m_i-y_i}{m_i-\mu_i}\right]$
正态 $N(\mu,\sigma^2)$	$\theta=\mu$	$\displaystyle\sum_{i=1}^n(y_i-\mu_i)^2$
伽马 $\Gamma(\mu,\delta)$	$\theta=-\dfrac{1}{\mu}$	$\displaystyle 2\sum_{i=1}^n\left[-\dfrac{y_i-\mu_i}{\mu_i}\log\dfrac{y_i}{\mu_i}\right]$
负二项 $NB(\mu,p)$	$\theta=\log(1-\mu)$	$\displaystyle 2\sum_{i=1}^n\left[y_i\log\dfrac{y_i}{\mu_i}+(1+y_i)\log\dfrac{1+\mu_i}{1+y_i}\right]$

下面我们进行GLM的贝叶斯推断。注意后验分布为

$\pi(\pmb\beta,\phi)\propto f(\pmb y;\pmb X,\pmb\beta,\phi)\pi(\pmb\beta,\phi)=\exp\left\{\dfrac{\pmb y'\pmb\theta-b(\pmb\theta)}{a(\phi)}+c(\pmb y,\phi)\right\}\pi(\pmb\beta,\phi).$

这里先验可以取无信息的，也可以是有信息的，不过一般来说，后验分布并没有简单的形式。

二项Logistic回归

设 $Y\sim B(n,\pi)$，其中 $\pi$ 为成功概率，考虑 $\theta=\alpha+\pmb x’\pmb\beta=g(\pi)$，常用的连接函数 $g$ 有

$g(\pi)=\text{logit}(\pi)=\log\dfrac{\pi}{1-\pi},$ 或 $g(\pi)=\Phi^{-1}(\pi).$

当给定一组样本（样本量为 $N$）后，似然函数为

$\displaystyle\prod_{i=1}^N\binom{n}{y_i}\pi^{y_i}(1-\pi)^{n-y_i}=\prod_{i=1}^N\binom{n}{y_i}\left(\dfrac{\text{e}^\theta}{1+\text{e}^\theta}\right)^{y_i}\left(\dfrac{1}{1+\text{e}^\theta}\right)^{n-y_i},$

或

$\displaystyle\prod_{i=1}^N\binom{n}{y_i}\pi^{y_i}(1-\pi)^{n-y_i}=\prod_{i=1}^N\binom{n}{y_i}\left(\Phi(\theta)\right)^{y_i}\left(1-\Phi(\theta)\right)^{n-y_i}.$

根据问题背景，可以使用各种有信息或无信息先验分布。在logit连接函数下，研究表明一个厚尾分布比较合适，包括 $t$ 分布、柯西分布等。

Poisson对数回归

设 $Y\sim\mathcal P(\lambda)$，考虑 $\log(\lambda)=\pmb x’\pmb\beta$，进而可以实现贝叶斯推断。

考虑飞机受损数据（Montgomery et al.，2006），数据中包含了越南战争中30次空袭任务中飞机受损的数据，共有4个变量：

damage：飞机上损坏位置的个数；
type：0-1变量表示飞机的类型（0表示A4；1表示A6）；
bombload：载弹情况（吨）；
airexp：飞行员飞行经验总月数。

使用Poisson对数回归模型

$\begin{array}{rl} \text{damage}_i\sim&\!\!\!\!\mathcal P(\lambda_i),\quad i=1,2,\dots,30,\\ \log\lambda_i=&\!\!\!\!\beta_1+\beta_2\text{type}_i+\beta_3\text{bombload}_i+\beta_4\text{airexp}_i, \end{array}$

下表给出了估计结果。

node	mean	sd	MC error	2.5%	median	97.5%	harmonic
$\beta_1$	-0.766	1.089	0.1762	-3.168	-0.835	1.619
$\beta_2$	0.580	0.466	0.0513	-0.302	0.584	1.537
$\beta_3$	0.177	0.068	0.0099	0.040	0.177	0.308
$\beta_4$	-0.011	0.010	0.0015	-0.033	-0.010	0.007
$B_1$	0.862	1.221	0.1829	0.042	0.434	5.050	0.465
$B_2$	1.993	0.996	0.1050	0.739	1.793	4.652	1.786
$B_3$	1.197	0.081	0.0118	1.041	1.193	1.360	1.194
$B_4$	0.989	0.010	0.0015	0.968	0.990	1.007	0.989

其中 $B_j$ 的调和均值（最后一列）使用 $\beta_j$ 的后验均值额外计算。

从结果中可以看到

只有bombload的系数是远离0的，事实上根据DIC选择最优模型也是仅包含bombload的模型最优。
A6的期望受损数是A4的两倍（当飞行员飞行经验时长和飞机载弹量相同），相同飞行员经验时长和载弹量情况下，A6比A4的受损程度从后验上预期高79%。
每吨载弹增加20%飞机的期望受损位置数。
飞行经验多一年减少1%的飞机期望受损位置数。

贝叶斯惩罚回归

当自变量个数比较多时，惩罚回归技术被广泛用来防止过度拟合。惩罚回归能够从大量自变量中选出能够预测因变量的自变量，因此常用于高维回归问题中。

惩罚回归的基本想法是对目标损失函数加上惩罚项，以使得比较小的系数可以压缩为0，而保留大的系数。例如

$\underset{\beta_0,\pmb\beta}{\text{minimize}}~\dfrac{1}{2n}\|\pmb y-\beta_0\pmb 1-\pmb X\pmb\beta\|_2^2+\lambda\|\pmb\beta\|_q,$

其中 $|\pmb\beta|_q$ 是 $\pmb\beta$ 的 $q$-范数，$\lambda$ 为惩罚参数，其值越大导致压缩到0的程度更大。当 $q=1$ 时即为著名的Lasso回归。

在贝叶斯回归 $y_i\mid x_i,\beta_0,\pmb\beta,\sigma^2\sim N(\beta_0+\pmb x_i’\pmb\beta,\sigma^2)$ 中，关于 $\pmb\beta$ 的负对数后验密度为

$\displaystyle -\log p(\pmb\beta\mid\pmb y,\pmb X)=\dfrac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\pmb x_i'\pmb\beta)^2-\log p(\pmb\beta\mid\lambda).$

参数的先验分布可以选为

$p(\beta_0,\pmb\beta,\sigma^2,\lambda)=p(\beta_0)p(\pmb\beta\mid\sigma^2,\lambda)p(\sigma^2)p(\lambda).$

注意这里 $\pmb\beta$ 的先验分布依赖于 $\sigma^2$ 和 $\lambda$，因为在某些情形下为了保证后验是单峰的，其需要依赖于 $\sigma^2$。

此外 $\lambda$ 是超参数，其作用类似于经典惩罚回归中的惩罚参数作用。对 $\lambda$ 的选取，有几种做法：

完全贝叶斯：视 $\lambda$ 为随机变量；
经验贝叶斯：先用数据估计 $\lambda$，再代入。即 $\lambda^{\text{EB}}=\underset{\lambda\in\Lambda}{\arg\max}~p(\lambda\mid\pmb y),$
其中 $\lambda$ 的先验分布取为无信息先验。
交叉验证：将数据划分为训练集和验证集，则 $\lambda^{\text{CV}}=\underset{\lambda\in\Lambda}{\arg\max}~p(\pmb y^{\text{val}}\mid\pmb y^{\text{train}},\lambda).$

下表给出了贝叶斯惩罚回归常见压缩先验。

Ridge

从形式上可以看到，岭回归的惩罚项相应于先验为

$\begin{array}{rl} \beta_j\mid\sigma^2,\lambda\sim&\!\!\!\!N\left(0,\dfrac{\sigma^2}{\lambda}\right),\quad j=1,\dots,p,\\ \lambda\sim&\!\!\!\!C_+(0,1), \end{array}$

这里 $\lambda$ 的先验选择了半柯西先验 $C_+(0,1)$，限制其大于零，密度函数为

$\pi(\lambda)=\dfrac{2}{\pi}\cdot\dfrac{1}{1+\lambda^2},\quad\lambda>0.$

Local student’s t

把岭回归中的先验推广到每个自变量不同的场合，这样允许更多的波动性，即

$\begin{array}{rl} \beta_j\mid\tau_j^2,\sigma^2\sim&\!\!\!\!N(0,\sigma^2\tau_j^2),\quad j=1,\dots,p,\\ \tau_j^2\mid\nu,\lambda\sim&\!\!\!\!\Gamma^{-1}\left(\dfrac{\nu}{2},\dfrac{\nu}{2\lambda}\right),\quad j=1,\dots,p,\\ \lambda\sim&\!\!\!\!C_+(0,1). \end{array}$

这实际上就是 $NIG\left(0,\sigma^2,\dfrac{\nu}{2},\dfrac{\nu}{2\lambda}\right)$，因此边际为 $t$ 分布

$\beta_j\mid\sigma^2,\lambda\sim t\left(\nu,0,\dfrac{\sigma^2}{\lambda}\right),\quad j=1,\dots,p.$

Lasso

贝叶斯Lasso是正态-指数混合系统，即

$\begin{array}{rl} \beta_j\mid\tau_j^2,\sigma^2\sim&\!\!\!\!N(0,\sigma^2\tau_j^2),\quad j=1,\dots,p,\\ \tau_j^2\mid\lambda\sim&\!\!\!\!\text{Exp}\left(\dfrac{\lambda^2}{2}\right),\quad j=1,\dots,p,\\ \lambda\sim&\!\!\!\!C_+(0,1). \end{array}$

此时将 $\tau_j^2$ 积分掉可得边际为Laplace分布

$\beta_j\mid\sigma^2,\lambda\sim\text{Laplace}\left(0,\dfrac{\sigma}{\lambda}\right),\quad j=1,\dots,p.$

Elastic net

弹性网络是同时使用1-范数和2-范数进行惩罚的结果，按贝叶斯的观点，它可以通过正态混合得到，即

$\begin{array}{rl} \beta_j\mid\tau_j,\sigma^2,\lambda_2\sim&\!\!\!\!N\left(0,\dfrac{\tau_j-1}{\tau_j}\cdot\dfrac{\sigma^2}{\lambda_2}\right),\quad j=1,\dots,p,\\ \tau_j\mid\sigma^2,\lambda_1,\lambda_2\sim&\!\!\!\!\Gamma_{1+}\left(\dfrac{1}{2},\dfrac{8\lambda_2\sigma^2}{\lambda_1^2}\right),\quad j=1,\dots,p,\\ \lambda_1\sim&\!\!\!\!C_+(0,1),\\ \lambda_2\sim&\!\!\!\!C_+(0,1), \end{array}$

其中 $\Gamma_{1+}$ 表示支撑范围限制在 $(1,+\infty)$ 的截断伽马分布。将 $\tau_j$ 积分掉就可以得到表格中的条件先验密度形式。

Group Lasso

Group Lasso也可以通过正态混合得到，即

$\begin{array}{rl} \pmb\beta_g\mid\tau_g^2,\sigma^2\sim&\!\!\!\!N\left(\pmb 0,\sigma^2\tau_g^2\pmb I_{m_g}\right),\quad g=1,\dots,G,\\ \tau_g^2\mid\lambda\sim&\!\!\!\!\Gamma\left(\dfrac{m_g+1}{2},\dfrac{\lambda^2}{2}\right),\quad g=1,\dots,G,\\ \lambda\sim&\!\!\!\!C_+(0,1). \end{array}$

将 $\tau_g^2$ 积分掉就可以得到表格中的条件先验密度形式。

HyperLasso

HyperLasso是一种Adaptive Lasso的贝叶斯方法，其通过如下正态混合得到：

$\begin{array}{rl} \beta_j\mid\phi_j^2\sim&\!\!\!\!N(0,\phi_j^2),\quad j=1,\dots,p,\\ \phi_j^2\mid\tau_j\sim&\!\!\!\!\text{Exp}(\tau_j),\quad j=1,\dots,p,\\ \tau_j\mid\nu,\lambda\sim&\!\!\!\!\Gamma\left(\nu,\dfrac{1}{\lambda^2}\right),\quad j=1,\dots,p,\\ \lambda\sim&\!\!\!\!C_+(0,1). \end{array}$

按前面的正态-指数混合等价于Laplace先验知，上述混合等价于

$\begin{array}{rl} \beta_j\mid\tau_j\sim&\!\!\!\!\text{Laplace}\left(0,\sqrt{2\tau_j}\right),\quad j=1,\dots,p,\\ \tau_j\mid\nu,\lambda\sim&\!\!\!\!\Gamma\left(\nu,\dfrac{1}{\lambda^2}\right),\quad j=1,\dots,p,\\ \lambda\sim&\!\!\!\!C_+(0,1). \end{array}$

将 $\tau_j$ 积分掉就可以得到表格中的条件先验密度形式。

Horseshoe

Horseshoe先验是一种流行的贝叶斯惩罚先验，其混合模式为

$\begin{array}{rl} \beta_j\mid\tau_j\sim&\!\!\!\!N(0,\tau_j^2),\quad j=1,\dots,p,\\ \tau_j\mid\lambda\sim&\!\!\!\!C_+(0,\lambda),\quad j=1,\dots,p,\\ \lambda\mid\sigma\sim&\!\!\!\!C_+(0,\sigma). \end{array}$

由于半柯西先验可以表示为逆伽马和伽马密度混合，因此上述Horseshoe先验可以等价表示为：

$\begin{array}{rl} \beta_j\mid\tau_j^2\sim&\!\!\!\!N(0,\tau_j^2),\quad j=1,\dots,p,\\ \tau_j^2\mid\omega\sim&\!\!\!\!\Gamma^{-1}\left(\dfrac{1}{2},\omega\right),\quad j=1,\dots,p,\\ \omega\mid\lambda^2\sim&\!\!\!\!\Gamma\left(\dfrac{1}{2},\lambda^2\right),\\ \lambda^2\mid\gamma\sim&\!\!\!\!\Gamma^{-1}\left(\dfrac{1}{2},\gamma\right),\\ \gamma\mid\sigma^2\sim&\!\!\!\!\Gamma\left(\dfrac{1}{2},\sigma^2\right).\\ \end{array}$

Horseshoe先验对大的系数向零压缩很小，尽管这一性质在理论上很好，但在实际应用中可能会出问题，特别是当参数是弱可识别的情形。此时，回归系数的后验均值估计可能并不存在，而且即使存在，Horseshoe先验也会产生不稳定低的MCMC抽样。

为此，Piironen and Vehtari（2017）提出Regularized Horseshoe先验：

$\begin{array}{rl} \beta_j\mid\tilde{\tau}_j^2,\lambda\sim&\!\!\!\!N(0,\tilde{\tau}_j^2\lambda),\quad j=1,\dots,p,\\ \lambda\mid\lambda_0^2\sim&\!\!\!\!C_+(0,\lambda_0^2),\\ \tau_j\sim&\!\!\!\!C_+(0,1),\quad j=1,\dots,p,\\ c^2\mid\nu,s^2\sim&\!\!\!\!\Gamma^{-1}\left(\dfrac{\nu}{2},\dfrac{\nu s^2}{2}\right). \end{array}$

其中 $\tilde{\tau}_j^2=\dfrac{c^2\tau_j^2}{c^2+\lambda^2\tau_j^2}$，$\lambda_0=\dfrac{p_0}{p-p_0}\dfrac{\sigma}{\sqrt{n}}$，$p_0$ 表示对实际变量个数的先验猜测。

Spike-and-slab

这种方法使用一个质量集中在0附近的先验（the spike）与一个模糊先验（the slab）进行混合：

$\begin{array}{rl} \beta_j\mid\gamma_j,\tau_j^2,\phi_j^2\sim&\!\!\!\!\gamma_j N(0,\tau_j^2)+(1-\gamma_j)N(0,\phi_j^2),\quad j=1,\dots,p,\\ \tau_j^2\sim&\!\!\!\!\Gamma^{-1}(0.5,0.5),\quad j=1,\dots,p, \end{array}$

其中通过对 $\tau_j^2$ 取一个模糊先验使得可以基于数据估计the slab的方差。$\phi_j^2$ 固定为一个比较小的正数（比如0.001）来创建the spike。通过对 $\tau_j^2$ 取逆伽马先验，the slab部分的边际分布为柯西分布。

总结

上述这些方法可以通过R包 bayesreg 来进行。

在 $p<n$ 时，不同的惩罚先验效果类似于经典的惩罚方法效果。尽管经典的惩罚方法运行比贝叶斯方法快，但是它们没有给出一个精确的不确定性度量，所得的Bootstrap置信区间一般比贝叶斯可信区间要小很多。
在 $p>n$ 时，（Regularized）Horseshoe和HyperLasso先验在PMSE准则下要比绝大数其他先验表现好很多。

后记

本文内容参考自中国科学技术大学《贝叶斯分析》（2022Fall）课件。

如对本文内容有任何疑问，请联系 watthu@mail.ustc.edu.cn。

Bayesian Linear and Generalized Linear Model