前面我们把线性模型都表达成矩阵形式,也是为了进一步作推断的需要,可见矩阵将是十分重要的工具。本章将介绍有关矩阵论的一些基础知识。
分块矩阵的逆
设
可逆。若 $\vert A_{11}\vert\neq0$,则
若 $\vert A_{22}\vert\neq0$,则
这里 $\pmb A_{22.1}=\pmb A_{22}-\pmb A_{21}\pmb A_{11}^{-1}\pmb A_{12}$,$\pmb A_{11.2}=\pmb A_{11}-\pmb A_{12}\pmb A_{22}^{-1}\pmb A_{21}$。
幂等方阵
若方阵 $\pmb A_{n\times n}$ 满足 $\pmb A^2=\pmb A$,则称 $\pmb A$ 为幂等方阵(idempotent matrix)。
定理. (1) 若 $\pmb A_{n\times n}$ 幂等,则 $\textsf{tr}(\pmb A)=\textsf{rk}(\pmb A)$。
(2) $\pmb A_{n\times n}$ 幂等 $\Leftrightarrow$ $\textsf{rk}(\pmb A)+\textsf{rk}(\pmb I-\pmb A)=n$。
证明: (1) 注意到幂等方阵的特征值只能为0或1,设 $\textsf{rk}(\pmb A)=r$,则存在可逆方阵 $\pmb P,\pmb Q$ 使得
将 $\pmb P$ 分块为 $\pmb P=(\pmb P_1\vdots\pmb P_2)$,其中 $\pmb P_1$ 为 $n\times r$ 矩阵;将 $\pmb Q$ 分块为 $\pmb Q’=(\pmb Q_1’\vdots\pmb Q_2’)$,其中 $\pmb Q_1$ 为 $r\times n$ 矩阵,于是 $\pmb A=\pmb P_1\pmb Q_1$。另一方面,由 $\pmb A^2=\pmb A$,得到
故 $\pmb Q_1\pmb P_1=\pmb I_r$。所以
(2) 必要性显然,下证充分性。设 $\textsf{rk}(\pmb A)=r$,则 $\pmb A\pmb x=\pmb 0$ 有 $n-r$ 个线性无关的解,它们是对应于特征根0的 $n-r$ 个线性无关的特征向量。由 $\textsf{rk}(\pmb I-\pmb A)=n-r$ 知,$\pmb A\pmb x=\pmb x$ 有 $r$ 个线性无关的解,它们是对应于特征根1的 $r$ 个线性无关的特征向量。注意到这 $n$ 个特征向量线性无关,于是
Kronecker乘积
设 $\pmb A=(a_{ij})$ 和 $\pmb B=(b_{ij})$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,定义矩阵 $\pmb C=(a_{ij}\pmb B)$,这是一个 $mp\times nq$ 矩阵,称为 $\pmb A$ 和 $\pmb B$ 的Kronecker乘积,记为 $\pmb C=\pmb A\otimes\pmb B$,即
这种乘积具有下列性质:
- $\pmb 0\otimes\pmb A=\pmb A\otimes\pmb 0=\pmb 0$.
- $(\pmb A_1+\pmb A_2)\otimes\pmb B=(\pmb A_1\otimes\pmb B)+(\pmb A_2\otimes\pmb B)$,$\pmb A\otimes(\pmb B_1+\pmb B_2)=(\pmb A\otimes\pmb B_1)+(\pmb A\otimes\pmb B_2)$.
- $(\alpha\pmb A)\otimes(\beta\pmb B)=\alpha\beta(\pmb A\otimes\pmb B)$.
- $(\pmb A_1\otimes\pmb B_1)(\pmb A_2\otimes\pmb B_2)=(\pmb A_1\pmb A_2)\otimes(\pmb B_1\pmb B_2)$.
- $(\pmb A\otimes\pmb B)’=\pmb A’\otimes\pmb B’$.
- $(\pmb A\otimes\pmb B)^{-1}=\pmb A^{-1}\otimes\pmb B^{-1}$.
定理. 设 $\pmb A,\pmb B$ 分别为 $n\times n,m\times m$ 方阵,$\lambda_1,\dots,\lambda_n$ 和 $\mu_1,\dots,\mu_m$ 分别为 $\pmb A$ 和 $\pmb B$ 的特征值,则
- $\lambda_i\mu_j,i=1,\dots,n,j=1,\dots,m$ 为 $\pmb A\otimes\pmb B$ 的特征值,且 $\vert\pmb A\otimes\pmb B\vert=\vert\pmb A\vert^m\vert\pmb B\vert^n$;
- $\textsf{tr}(\pmb A\otimes\pmb B)=\textsf{tr}(\pmb A)\textsf{tr}(\pmb B)$;
- $\textsf{rk}(\pmb A\otimes\pmb B)=\textsf{rk}(\pmb A)\textsf{rk}(\pmb B)$;
- 若 $\pmb A\geq0$,$\pmb B\geq0$,则 $\pmb A\otimes\pmb B\geq0$。
证明: 记 $\pmb A,\pmb B$ 的Jordan标准型分别为
依Jordan分解,存在可逆阵 $\pmb P$ 和 $\pmb Q$,使得 $\pmb A=\pmb P\pmb\Lambda\pmb P^{-1}$,$\pmb B=\pmb Q\pmb\Delta\pmb Q^{-1}$,利用Kronecker乘积的性质,得
即 $\pmb A\otimes\pmb B$ 相似于上三角矩阵 $\pmb\Lambda\otimes\pmb\Delta$,后者的对角元为 $\lambda_i\mu_j,i=1,\dots,n,j=1,\dots,m$,所以这些 $\lambda_i\mu_j$ 为 $\pmb A\otimes\pmb B$ 的全部特征根。由此定理的结论均可得到证明。
向量化运算
设 $\pmb A_{m\times n}=(\pmb a_1,\pmb a_2,\dots,\pmb a_n)$,定义 $mn\times 1$ 的向量
这是把矩阵 $\pmb A$ 按列向量依次排成的向量,称之为矩阵的向量化。它具有下列性质:
- $\textsf{Vec}(\pmb A+\pmb B)=\textsf{Vec}(\pmb A)+\textsf{Vec}(\pmb B).$
- $\textsf{Vec}(\alpha\pmb A)=\alpha\textsf{Vec}(\pmb A).$
- $\textsf{tr}(\pmb A\pmb B)=(\textsf{Vec}(\pmb A’))’\textsf{Vec}(\pmb B).$
- 设 $\pmb a$ 和 $\pmb b$ 分别为 $n\times1$ 和 $m\times1$ 向量,则 $\textsf{Vec}(\pmb a\pmb b’)=\pmb b\otimes\pmb a.$
- $\textsf{Vec}(\pmb A\pmb B\pmb C)=(\pmb C’\otimes\pmb A)\textsf{Vec}(\pmb B).$
- 设 $\pmb X_{m\times n}=(\pmb x_1,\dots,\pmb x_n)$ 为随机矩阵,且
$\textsf{Cov}(\pmb x_i,\pmb x_j)=\textsf{E}(\pmb x_i-\textsf{E}(\pmb x_i))(\pmb x_j-\textsf{E}(\pmb x_j))'=v_{ij}\pmb\Sigma.$ 记 $\pmb V=(v_{ij})_{n\times n}$,则
$\textsf{Cov}(\textsf{Vec}(\pmb X))=\pmb V\otimes\pmb\Sigma,\quad\textsf{Cov}(\textsf{Vec}(\pmb T\pmb X))=\pmb V\otimes(\pmb T\pmb\Sigma\pmb T'),$ 这里 $\pmb T$ 为非随机矩阵。
矩阵微商
设 $\pmb X$ 为 $n\times m$ 矩阵,$y=f(\pmb X)$ 为 $\pmb X$ 的一个实值函数,矩阵
称为 $y$ 对 $\pmb X$ 的矩阵微商。
- 设 $\pmb a,\pmb x$ 均为 $n\times1$ 向量,$y=\pmb a’\pmb x$,则 $\dfrac{\partial y}{\partial\pmb x}=\pmb a$。
- 设 $\pmb A_{n\times n}$ 对称,$\pmb x$ 为 $n\times1$ 向量,$y=\pmb x’\pmb A\pmb x$,则 $\dfrac{\partial y}{\partial\pmb x}=2\pmb A\pmb x$。
- 记矩阵 $\pmb X_{m\times m}$ 的元素 $x_{ij}$ 的代数余子式为 $\pmb X_{ij}$,则
$\dfrac{\partial\vert\pmb X\vert}{\partial\pmb X}=(\pmb X_{ij})_{m\times m}=\vert\pmb X\vert(\pmb X^{-1})'.$ 这一结果可以从行列式的代数余子式定义中直接得到。
定理. 设 $\pmb Y$ 和 $\pmb X$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,$\pmb Y$ 的每个元素 $y_{ij}$ 是 $\pmb X$ 元素的函数,又 $u=u(\pmb Y)$,则
其中
- 对任意矩阵 $\pmb A,\pmb X,\pmb B$,
$\displaystyle\dfrac{\partial\vert\pmb A\pmb X\pmb B\vert}{\partial\pmb X}=\vert\pmb A\pmb X\pmb B\vert\sum_{ij}((\pmb A\pmb X\pmb B)^{-1})_{ij}'\dfrac{\partial(\pmb A\pmb X\pmb B)_{ij}}{\partial\pmb X}=\vert\pmb A\pmb X\pmb B\vert\pmb A'((\pmb A\pmb X\pmb B)^{-1})'\pmb B',$ 这里用到了
$\displaystyle\dfrac{\partial(\pmb A\pmb X\pmb B)_{ij}}{\partial\pmb X}=\pmb A'\pmb E_{ij}\pmb B'.$
定理(转换定理) 设 $\pmb X$ 和 $\pmb Y$ 分别为 $n\times m$ 和 $p\times q$ 矩阵,$\pmb A,\pmb B,\pmb C,\pmb D$ 分别为 $p\times m$, $n\times q$, $p\times n$, $m\times q$ 矩阵(可以是 $\pmb X$ 的函数),则下列两条是等价的
这里
$\pmb Z_{m\times n}=(z_{ij}(t))$,它是矩阵 $\pmb Z=(z_{ij}(t))$ 对自变量 $t$ 的微商。
证明: 记 $\pmb e_i=(0,\dots,0,1,0,\dots,0)’$,即 $\pmb e_i$ 是第 $i$ 个元素为1,其余元素全为0的向量,则 $\pmb E_{ij}=\pmb e_i\pmb e_j’$。首先注意到
若 (1) 成立,则
而
因此 (2) 成立。同理可证另一方向的等价。
- 注意到
$\dfrac{\partial(\pmb X\pmb A\pmb X')}{\partial x_{ij}}=\dfrac{\partial\pmb X}{\partial x_{ij}}\pmb A\pmb X'+\pmb X\dfrac{\partial\pmb A\pmb X'}{\partial x_{ij}}=\pmb E_{ij}\pmb A\pmb X'+\pmb X\pmb A\pmb E_{ij}',$ 由转换定理可知
$\displaystyle\dfrac{\partial\textsf{tr}(\pmb X\pmb A\pmb X')}{\partial\pmb X}=\sum_i\dfrac{\partial(\pmb X\pmb A\pmb X')_{ii}}{\partial\pmb X}=\sum_i\dfrac{\partial(\pmb X\pmb A\pmb X')}{\partial x_{ii}}=\sum_i(\pmb E_{ii}\pmb X\pmb A'+\pmb E_{ii}'\pmb X\pmb A)=\pmb X(\pmb A+\pmb A').$ - $\dfrac{\partial\textsf{tr}(\pmb X’\pmb A\pmb X\pmb B)}{\partial\pmb X}=\pmb A\pmb X\pmb B+\pmb A’\pmb X\pmb B’$.
最后,简要提及矩阵对矩阵的微商。
设 $\pmb Y$ 和 $\pmb X$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,且 $\pmb Y$ 的元素 $y_{ij}$ 为 $\pmb X$ 的函数。记
称之为 $\pmb Y$ 对 $\pmb X$ 的微商。容易看到
它把求 $\dfrac{\partial\pmb Y}{\partial\pmb X}$ 转化为求 $\dfrac{\partial\pmb Y}{\partial x_{ij}}$,在一些情况下,这会带来不少方便。
例如,对 $\pmb Y=\pmb A\pmb X\pmb B$,因为 $\dfrac{\partial\pmb Y}{\partial x_{ij}}=\pmb A\pmb E_{ij}\pmb B$,所以
所以
后记
本文内容参考自《线性模型引论》(王松桂等,科学出版社)。
如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn。