LRM-Lec1 线性模型概论

Introduction to Linear Models

Posted by Watthu on October 27, 2022

线性模型是一类统计模型的总称,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。线性模型是现代统计学中应用最为广泛的模型之一,因为

  • 现实世界中,许多变量之间具有线性或近似线性的依赖关系。
  • 现实世界中,虽然有些变量之间的关系是非线性的,但往往可以通过适当的变换,使得新变量之间具有线性或者近似线性的关系。
  • 线性关系是数学中最基本的关系,容易处理。

线性回归模型

现实生活中变量与变量之间的关系:

  • 确定性关系:变量之间的关系可以用数学函数来表示,例如圆的半径 $r$ 与面积 $S$ 之间的关系可以用 $S=\pi r^2$ 来表示。
  • 相关关系:变量之间的关系不能用数学函数刻画,但具有一定的“趋势性”关系。例如人的身高 $x$ 与体重 $y$ 之间大致呈现身高越高、体重越重的趋势。

回归分析的研究对象是具有相关关系的变量。需要注意的是,往往任何两个变量在有了观测数据之后,都可以进行相关关系的回归分析,但是进一步需要通过一系列操作(理论或人工)来判断这种关系是否显著或具有实际意义。

称 $y$ 为因变量或响应(response)变量,$x$ 为自变量、解释变量或协变量(covariate)。一般认为,$y$ 的值由两部分组成:一部分是 $x$ 能够决定的部分,记为 $f(x)$;另一部分是未加考虑的随机误差,记为 $e$。于是有如下模型

$y=f(x)+e.$

特别地,若 $f(\cdot)$ 是线性的或近似线性的,即 $f(x)=\beta_0+\beta_1x$,则

$y=\beta_0+\beta_1x+e.$

上式称为一元线性回归模型,这里 $\beta_0$ 称为回归常数,$\beta_1$ 称为回归系数(有时统称 $\beta_0,\beta_1$ 为回归系数)。

记 $(x_i,y_i),i=1,\dots,n$ 为来自 $(x,y)$ 的样本,如果上述回归关系成立,则 $(x_i,y_i)$ 应满足

$y_i=\beta_0+\beta_1x_i+e_i,\quad i=1,\dots,n.$

基于以上样本信息,应用适当的统计方法,可得到 $\beta_0$ 和 $\beta_1$ 的点估计 $\hat{\beta}_0$ 和 $\hat{\beta}_1$。称

$\hat{y}=\hat{\beta}_0+\hat{\beta}_1x$

经验回归方程

注: 通常假设随机误差 ${e_i,i\geq1}$ 是i.i.d.序列,且与 ${x_i,i\geq1}$ 独立,同时满足 $\textsf{E}(e_i)=0$。因此上式实际上是回归函数

$\textsf{E}(y\mid x)=\beta_0+\beta_1x$

的一个估计。回归分析的首要问题就是估计回归函数。


自然的,在实际问题中,影响响应变量的主要因素往往很多,这就需要考虑多个协变量的回归问题。

假设响应变量 $y$ 和 $p$ 个协变量满足如下的多元线性回归模型

$y=\beta_0+\beta_1x_1+\cdots+\beta_px_p+e.$

若 $(x_{i1},\dots,x_{ip},y_i),i=1,\dots,n$ 为相应的样本,则它们满足关系

$y_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}+e_i,\quad i=1,\dots,n.$

引入矩阵符号

$\pmb y=\left(\begin{array}{c} y_1\\ y_2\\ \vdots\\ y_n \end{array}\right),\quad\pmb X=\left(\begin{array}{cccc} 1 & x_{11} & \cdots & x_{1p}\\ 1 & x_{21} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n1} & \cdots & x_{np} \end{array}\right),\quad\pmb\beta=\left(\begin{array}{c} \beta_0\\ \beta_1\\ \vdots\\ \beta_p \end{array}\right),\quad\pmb e=\left(\begin{array}{c} e_1\\ e_2\\ \vdots\\ e_n \end{array}\right).$

则多元线性回归模型可简写为

$\pmb y=\pmb X\pmb\beta+\pmb e.$

通常称 $\pmb y$ 为观测向量,$\pmb X$ 为设计矩阵(design matrix),$\pmb\beta$ 为未知参数向量,$\pmb e$ 为随机误差向量

对于随机误差向量 $\pmb e$,通常假定它满足Gauss-Markov假设

  • 零均值:$\textsf{E}(e_i)=0$,即误差项不包含任何系统的趋势;
  • 同方差:$\textsf{Var}(e_i)=\sigma^2$,即每一个 $y_i$ 在其均值附近波动程度是一致的;
  • 不相关:$\textsf{Cov}(e_i,e_j)=0$,$i\neq j$,即不同次的观测之间是不相关的。

将多元线性回归模型和Gauss-Markov假设合在一起,可简洁地表示为

$\pmb y=\pmb X\pmb\beta+\pmb e,\quad\textsf{E}(\pmb e)=\pmb 0,\quad\textsf{Cov}(\pmb e)=\sigma^2\pmb I.$

这就是以后要讨论的最基本的线性回归模型。

假设 $\hat{\pmb\beta}=(\hat{\beta}_0,\hat{\beta}_1,\dots,\hat{\beta}_p)’$ 为 $\pmb\beta$ 的一个估计,则经验回归方程为

$\hat{\pmb y}=\pmb X\hat{\pmb\beta}.$

方差分析模型

不难发现,在线性回归模型中,协变量一般都是连续变量,研究的目的是寻求响应变量与协变量之间客观存在的依赖关系。但有时,协变量是示性变量,这种变量往往表示某种效应的存在与否,因而只能取0和1两个值。这种模型称为方差分析模型

单向分类(one-way classification)模型:要比较三种药治疗某种疾病的效果,服用药效度量指标为 $y$。假设每种药有 $n$ 个人,记 $y_{ij}$ 为第 $i$ 种药的第 $j$ 个病人的药效度量值,则 $y_{ij}$ 可表示为

$y_{ij}=\mu+\alpha_i+e_{ij},\quad i=1,2,3,~,j=1,\dots,n,$

这里 $\mu$ 表示总平均,$\alpha_i$ 表示第 $i$ 种药的效应,$e_{ij}$ 表示随机误差。若采用矩阵符号,上述模型可改写为

$\left(\begin{array}{c} y_{11}\\ \vdots\\ y_{1n}\\ y_{21}\\ \vdots\\ y_{2n}\\ y_{31}\\ \vdots\\ y_{3n} \end{array}\right)=\left(\begin{array}{cccc} 1 & 1 & 0 & 0\\ \vdots & \vdots & \vdots & \vdots\\ 1 & 1 & 0 & 0\\ 1 & 0 & 1 & 0\\ \vdots & \vdots & \vdots & \vdots\\ 1 & 0 & 1 & 0\\ 1 & 0 & 0 & 1\\ \vdots & \vdots & \vdots & \vdots\\ 1 & 0 & 0 & 1 \end{array}\right)\left(\begin{array}{c} \mu\\ \alpha_1\\ \alpha_2\\ \alpha_3 \end{array}\right)+\left(\begin{array}{c} e_{11}\\ \vdots\\ e_{1n}\\ e_{21}\\ \vdots\\ e_{2n}\\ e_{31}\\ \vdots\\ e_{3n} \end{array}\right)$

$\pmb y=\pmb X\pmb\beta+\pmb e.$

注意到,$\textsf{rk}(\pmb X)=3$,它小于 $\pmb X$ 的列数4,称之为列降秩,这是方差分析模型的一个特点。

其它还有两向分类模型具有交互效应的两向分类模型三向分类模型等等,在此不做展开。

协方差分析模型

协方差分析模型是上述两种模型的混合,模型中的协变量既有取连续值的数量因子,又有取0-1值的属性因子,其设计矩阵可以看作由线性回归模型和方差分析模型的设计矩阵组拼而成。

以饲料催肥效果为例。试验者欲比较两种饲料的催肥效果,用每种饲料喂养三头猪。要考虑的协变量是小猪的初始体重,记 $y_{ij}$ 为喂第 $i$ 种饲料的第 $j$ 头猪的体重增加量,则 $y_{ij}$ 可表示为

$y_{ij}=\mu+\alpha_i+\gamma x_{ij}+e_{ij},\quad i=1,2,~j=1,2,3,$

这里 $\mu$ 表示总平均,$\alpha_i$ 表示第 $i$ 种饲料的效应,$x_{ij}$ 为喂第 $i$ 种饲料的第 $j$ 头猪的初始体重,$\gamma$ 为协变量的系数,$e_{ij}$ 的假设同单向分类模型。若采用矩阵符号,上述模型可改写为

$\left(\begin{array}{c} y_{11}\\ y_{12}\\ y_{13}\\ y_{21}\\ y_{22}\\ y_{23} \end{array}\right)=\left(\begin{array}{cccc} 1 & 1 & 0 & x_{11}\\ 1 & 1 & 0 & x_{12}\\ 1 & 1 & 0 & x_{13}\\ 1 & 0 & 1 & x_{21}\\ 1 & 0 & 1 & x_{22}\\ 1 & 0 & 1 & x_{23} \end{array}\right)\left(\begin{array}{c} \mu\\ \alpha_1\\ \alpha_2\\ \gamma \end{array}\right)+\left(\begin{array}{c} e_{11}\\ e_{12}\\ e_{13}\\ e_{21}\\ e_{22}\\ e_{23} \end{array}\right)$

$\pmb y=\pmb X\pmb\beta+\pmb e.$

注意到设计矩阵的部分列元素只取0或1,剩余列的元素则取连续值,但它也是列降秩的。

混合效应模型

混合效应模型的最一般形式为

$\pmb y=\pmb X\pmb\beta+\pmb U_1\pmb\xi_1+\pmb U_2\pmb\xi_2+\cdots+\pmb U_k\pmb\xi_k,$

其中 $\pmb y$ 为 $n\times1$ 观测向量,$\pmb X$ 为 $n\times p$ 设计矩阵,$\pmb\beta$ 为 $p\times1$ 非随机的参数向量,称为固定效应,$\pmb U_i$ 为 $n\times q_i$ 已知设计阵,$\pmb\xi_i$ 为 $q_i\times1$ 随机向量,称为随机效应。一般我们假设

$\textsf{E}(\pmb\xi_i)=\pmb0,\quad\textsf{Cov}(\pmb\xi_i)=\sigma_i^2\pmb I_{q_i},\quad\textsf{Cov}(\pmb\xi_i,\pmb\xi_j)=\pmb 0,~i\neq j.$

于是

$\displaystyle\textsf{E}(\pmb y)=\pmb X\pmb\beta,\quad\textsf{Cov}(\pmb y)=\sum_{i=1}^k\sigma_i^2\pmb U_i\pmb U_i',$

其中 $\sigma_i^2$ 称为方差分量,因此上述模型也称为方差分量模型

对于混合效应模型,关心的问题是对两类参数(固定效应和方差分量)作估计和检验,并对随机效应 $\pmb\xi_k$ 进行预测。

两向分类混合模型:要研究人的血压在一天内的变化规律,在一天内选择 $a$ 个时间点测量被观测者的血压,假设观测了 $b$ 个人,用 $y_{ij}$ 表示第 $i$ 个时间点的第 $j$ 个人的血压,则 $y_{ij}$ 可表示为

$y_{ij}=\mu+\alpha_i+\beta_j+e_{ij},\quad i=1,\dots,a,~j=1,\dots,b,$

这里 $\alpha_i$ 为第 $i$ 个时间点的效应,它是非随机的,是固定效应;$\beta_j$ 为第 $j$ 个人的个体效应。如果这 $b$ 个人是感兴趣的特定的 $b$ 个人,那么 $\beta_j$ 也是非随机的,是固定效应,这就变成了方差分析模型;如果这 $b$ 个人是随机抽取的,这时 $\beta_j$ 就是随机变量,是随机效应,模型就成了混合效应模型。

记 $\pmb y=(y_{11},\dots,y_{1b},\dots,y_{a1},\dots,y_{ab})’$ 为 $ab\times1$ 观测向量,

$\pmb X=\left(\pmb 1_{ab} \vdots \pmb I_a\otimes\pmb 1_b\right),\quad\pmb U=\pmb 1_a\otimes\pmb I_b,\quad\pmb\gamma=(\mu,\alpha_1,\dots,\alpha_a)',$ $\pmb\beta=(\beta_1,\dots,\beta_b)',\quad\pmb e=(e_{11},\dots,e_{1b},\dots,e_{a1},\dots,e_{ab})',$

其中 $\otimes$ 表示矩阵的Kronecker乘积,$\pmb 1_n$ 表示所有元素均为1的 $n\times1$ 向量。此时该问题对应的混合效应模型可以写成矩阵形式:

$\pmb y=\pmb X\pmb\gamma+\pmb U\pmb\beta+\pmb e.$

一般总是假设所有随机效应都是不相关的,且 $\textsf{Var}(\beta_i)=\sigma_\beta^2$,$\textsf{Var}(e_{ij})=\sigma^2$,则观测向量的协方差阵为

$\textsf{Cov}(\pmb y)=\sigma_\beta^2\pmb U\pmb U'+\sigma^2\pmb I_{ab}=\sigma_\beta^2(\pmb J_a\otimes\pmb I_b)+\sigma^2\pmb I_{ab},$

其中 $\pmb J_n=\pmb 1_n\pmb 1_n’$ 为所有元素均为1的 $n\times n$ 矩阵。


Panel数据模型:假设对 $N$ 个个体进行了 $T$ 个时刻的观测,观测数据可写为

$y_{it}=\pmb x_{it}'\pmb\beta+\xi_i+\varepsilon_{it},\quad i=1,\dots,N,~t=1,\dots,T,$

其中 $y_{it}$ 表示第 $i$ 个个体第 $t$ 个时刻的某项经济指标,$\pmb x_{it}$ 是 $p\times1$ 已知向量,它刻画了第 $i$ 个个体在时刻 $t$ 的一些自身特征,$\xi_i$ 是第 $i$ 个个体的个体效应,$\varepsilon_{it}$ 是随机误差项。如果我们的目的是研究整个市场的运行规律,而不是关心特定的 $N$ 个个体,那么个体效应就是随机的。

$\pmb y=(y_{11},\dots,y_{1T},\dots,y_{N1},\dots,y_{NT})',\quad\pmb X=(\pmb x_{11},\dots,\pmb x_{1T},\dots,\pmb x_{N1},\dots,\pmb x_{NT})',$ $\pmb U_1=\pmb I_N\otimes\pmb 1_T,\quad\pmb\xi=(\xi_1,\dots,\xi_N)',\quad\pmb\varepsilon=(\varepsilon_{11},\dots,\varepsilon_{1T},\dots,\varepsilon_{N1},\dots,\varepsilon_{NT})'.$

则上述模型可表示为

$\pmb y=\pmb X\pmb\beta+\pmb U_1\pmb\xi+\pmb\varepsilon.$

如果假设 $\textsf{Var}(\xi_i)=\sigma_\xi^2$,$\textsf{Var}(\varepsilon_{it})=\sigma_\varepsilon^2$,所有 $\xi_i$ 和 $\varepsilon_{it}$ 都不相关,则

$\textsf{Cov}(\pmb y)=\sigma_\xi^2\pmb U_1\pmb U_1'+\sigma_\varepsilon^2\pmb I_{NT}=\sigma_\xi^2(\pmb I_N\otimes\pmb J_T)+\sigma_\varepsilon^2\pmb I_{NT},$

其中 $\sigma_\xi^2$ 和 $\sigma_\varepsilon^2$ 就是方差分量。

在上述问题中,如果把时间效应也考虑进来,则模型可改写为

$y_{it}=\pmb x_{it}'\pmb\beta+\xi_i+\lambda_t+\varepsilon_{it},\quad i=1,\dots,N,~t=1,\dots,T.$

如果时间效应 $\lambda_t$ 也看成随机的,并且假设 $\textsf{Var}(\lambda_t)=\sigma_\lambda^2$,$\lambda_t$ 与所有的 $\xi_i$ 和$\varepsilon_{it}$ 都不相关,记 $\pmb U_2=\pmb 1_N\otimes\pmb I_T$,$\pmb\lambda=(\lambda_1,\dots,\lambda_T)’$,则得到如下模型

$\pmb y=\pmb X\pmb\beta+\pmb U_1\pmb\xi+\pmb U_2\pmb\lambda+\pmb\varepsilon.$

此时,观测向量的协方差阵为

$\textsf{Cov}(\pmb y)=\sigma_\xi^2(\pmb I_N\otimes\pmb J_T)+\sigma_\lambda^2(\pmb J_N\otimes\pmb I_T)+\sigma_\varepsilon^2\pmb I_{NT},$

其中 $\sigma_\xi^2$,$\sigma_\lambda^2$ 和 $\sigma_\varepsilon^2$ 就是方差分量。

后记

本文内容参考自《线性模型引论》(王松桂等,科学出版社)。

如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn