LRM-Lec2 矩阵论基础知识

Basic Notions in Matrix Theory

Posted by Watthu on October 28, 2022

前面我们把线性模型都表达成矩阵形式,也是为了进一步作推断的需要,可见矩阵将是十分重要的工具。本章将介绍有关矩阵论的一些基础知识。

分块矩阵的逆

$\pmb A=\left(\begin{array}{cc} \pmb A_{11} & \pmb A_{12}\\ \pmb A_{21} & \pmb A_{22} \end{array}\right)$

可逆。若 $\vert A_{11}\vert\neq0$,则

$\pmb A^{-1}=\left(\begin{array}{cc} \pmb A_{11}^{-1}+\pmb A_{11}^{-1}\pmb A_{12}\pmb A_{22.1}^{-1}\pmb A_{21}\pmb A_{11}^{-1} & -\pmb A_{11}^{-1}\pmb A_{12}\pmb A_{22.1}^{-1}\\ -\pmb A_{22.1}^{-1}\pmb A_{21}\pmb A_{11}^{-1} & \pmb A_{22.1}^{-1} \end{array}\right).$

若 $\vert A_{22}\vert\neq0$,则

$\pmb A^{-1}=\left(\begin{array}{cc} \pmb A_{11.2}^{-1} & -\pmb A_{11.2}^{-1}\pmb A_{12}\pmb A_{22}^{-1}\\ -\pmb A_{22}^{-1}\pmb A_{21}\pmb A_{11.2}^{-1} & \pmb A_{22}^{-1}+\pmb A_{22}^{-1}\pmb A_{21}\pmb A_{11.2}^{-1}\pmb A_{12}\pmb A_{22}^{-1} \end{array}\right).$

这里 $\pmb A_{22.1}=\pmb A_{22}-\pmb A_{21}\pmb A_{11}^{-1}\pmb A_{12}$,$\pmb A_{11.2}=\pmb A_{11}-\pmb A_{12}\pmb A_{22}^{-1}\pmb A_{21}$。

幂等方阵

若方阵 $\pmb A_{n\times n}$ 满足 $\pmb A^2=\pmb A$,则称 $\pmb A$ 为幂等方阵(idempotent matrix)


定理. (1) 若 $\pmb A_{n\times n}$ 幂等,则 $\textsf{tr}(\pmb A)=\textsf{rk}(\pmb A)$。

(2) $\pmb A_{n\times n}$ 幂等 $\Leftrightarrow$ $\textsf{rk}(\pmb A)+\textsf{rk}(\pmb I-\pmb A)=n$。

证明: (1) 注意到幂等方阵的特征值只能为0或1,设 $\textsf{rk}(\pmb A)=r$,则存在可逆方阵 $\pmb P,\pmb Q$ 使得

$\pmb A=\pmb P\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right)\pmb Q.$

将 $\pmb P$ 分块为 $\pmb P=(\pmb P_1\vdots\pmb P_2)$,其中 $\pmb P_1$ 为 $n\times r$ 矩阵;将 $\pmb Q$ 分块为 $\pmb Q’=(\pmb Q_1’\vdots\pmb Q_2’)$,其中 $\pmb Q_1$ 为 $r\times n$ 矩阵,于是 $\pmb A=\pmb P_1\pmb Q_1$。另一方面,由 $\pmb A^2=\pmb A$,得到

$\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right)\pmb Q\pmb P\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right)=\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right),$

故 $\pmb Q_1\pmb P_1=\pmb I_r$。所以

$\textsf{tr}(\pmb A)=\textsf{tr}(\pmb P_1\pmb Q_1)=\textsf{tr}(\pmb Q_1\pmb P_1)=\textsf{tr}(\pmb I_r)=r=\textsf{rk}(\pmb A).$

(2) 必要性显然,下证充分性。设 $\textsf{rk}(\pmb A)=r$,则 $\pmb A\pmb x=\pmb 0$ 有 $n-r$ 个线性无关的解,它们是对应于特征根0的 $n-r$ 个线性无关的特征向量。由 $\textsf{rk}(\pmb I-\pmb A)=n-r$ 知,$\pmb A\pmb x=\pmb x$ 有 $r$ 个线性无关的解,它们是对应于特征根1的 $r$ 个线性无关的特征向量。注意到这 $n$ 个特征向量线性无关,于是

$\pmb A\sim\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right)\Leftrightarrow\pmb A=\pmb P\left(\begin{array}{cc} \pmb I_r & \pmb 0\\ \pmb 0 & \pmb 0 \end{array}\right)\pmb P^{-1}\Leftrightarrow\pmb A^2=\pmb A.$

Kronecker乘积

设 $\pmb A=(a_{ij})$ 和 $\pmb B=(b_{ij})$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,定义矩阵 $\pmb C=(a_{ij}\pmb B)$,这是一个 $mp\times nq$ 矩阵,称为 $\pmb A$ 和 $\pmb B$ 的Kronecker乘积,记为 $\pmb C=\pmb A\otimes\pmb B$,即

$\pmb C=\pmb A\otimes\pmb B=\left(\begin{array}{cccc} a_{11}\pmb B & a_{12}\pmb B & \cdots & a_{1n}\pmb B\\ a_{21}\pmb B & a_{22}\pmb B & \cdots & a_{2n}\pmb B\\ \vdots & \vdots & \ddots &\vdots\\ a_{m1}\pmb B & a_{m2}\pmb B & \cdots & a_{mn}\pmb B \end{array}\right).$

这种乘积具有下列性质:

  1. $\pmb 0\otimes\pmb A=\pmb A\otimes\pmb 0=\pmb 0$.
  2. $(\pmb A_1+\pmb A_2)\otimes\pmb B=(\pmb A_1\otimes\pmb B)+(\pmb A_2\otimes\pmb B)$,$\pmb A\otimes(\pmb B_1+\pmb B_2)=(\pmb A\otimes\pmb B_1)+(\pmb A\otimes\pmb B_2)$.
  3. $(\alpha\pmb A)\otimes(\beta\pmb B)=\alpha\beta(\pmb A\otimes\pmb B)$.
  4. $(\pmb A_1\otimes\pmb B_1)(\pmb A_2\otimes\pmb B_2)=(\pmb A_1\pmb A_2)\otimes(\pmb B_1\pmb B_2)$.
  5. $(\pmb A\otimes\pmb B)’=\pmb A’\otimes\pmb B’$.
  6. $(\pmb A\otimes\pmb B)^{-1}=\pmb A^{-1}\otimes\pmb B^{-1}$.

定理. 设 $\pmb A,\pmb B$ 分别为 $n\times n,m\times m$ 方阵,$\lambda_1,\dots,\lambda_n$ 和 $\mu_1,\dots,\mu_m$ 分别为 $\pmb A$ 和 $\pmb B$ 的特征值,则

  1. $\lambda_i\mu_j,i=1,\dots,n,j=1,\dots,m$ 为 $\pmb A\otimes\pmb B$ 的特征值,且 $\vert\pmb A\otimes\pmb B\vert=\vert\pmb A\vert^m\vert\pmb B\vert^n$;
  2. $\textsf{tr}(\pmb A\otimes\pmb B)=\textsf{tr}(\pmb A)\textsf{tr}(\pmb B)$;
  3. $\textsf{rk}(\pmb A\otimes\pmb B)=\textsf{rk}(\pmb A)\textsf{rk}(\pmb B)$;
  4. 若 $\pmb A\geq0$,$\pmb B\geq0$,则 $\pmb A\otimes\pmb B\geq0$。

证明: 记 $\pmb A,\pmb B$ 的Jordan标准型分别为

$\pmb\Lambda=\left(\begin{array}{cccc} \lambda_1 & ~ & ~ & ~\\ 0 & \lambda_2 & * & ~\\ \vdots & \vdots & \ddots & ~\\ 0 & 0 & \cdots & \lambda_n \end{array}\right),\quad\pmb\Delta=\left(\begin{array}{cccc} \mu_1 & ~ & ~ & ~\\ 0 & \mu_2 & * & ~\\ \vdots & \vdots & \ddots & ~\\ 0 & 0 & \cdots & \mu_m \end{array}\right).$

依Jordan分解,存在可逆阵 $\pmb P$ 和 $\pmb Q$,使得 $\pmb A=\pmb P\pmb\Lambda\pmb P^{-1}$,$\pmb B=\pmb Q\pmb\Delta\pmb Q^{-1}$,利用Kronecker乘积的性质,得

$\pmb A\otimes\pmb B=(\pmb P\pmb\Lambda\pmb P^{-1})\otimes(\pmb Q\pmb\Delta\pmb Q^{-1})=(\pmb P\otimes\pmb Q)(\pmb\Lambda\otimes\pmb\Delta)(\pmb P\otimes\pmb Q)^{-1},$

即 $\pmb A\otimes\pmb B$ 相似于上三角矩阵 $\pmb\Lambda\otimes\pmb\Delta$,后者的对角元为 $\lambda_i\mu_j,i=1,\dots,n,j=1,\dots,m$,所以这些 $\lambda_i\mu_j$ 为 $\pmb A\otimes\pmb B$ 的全部特征根。由此定理的结论均可得到证明。


向量化运算

设 $\pmb A_{m\times n}=(\pmb a_1,\pmb a_2,\dots,\pmb a_n)$,定义 $mn\times 1$ 的向量

$\textsf{Vec}(\pmb A)=\left(\begin{array}{c} \pmb a_1\\ \pmb a_2\\ \vdots\\ \pmb a_n \end{array}\right).$

这是把矩阵 $\pmb A$ 按列向量依次排成的向量,称之为矩阵的向量化。它具有下列性质:

  1. $\textsf{Vec}(\pmb A+\pmb B)=\textsf{Vec}(\pmb A)+\textsf{Vec}(\pmb B).$
  2. $\textsf{Vec}(\alpha\pmb A)=\alpha\textsf{Vec}(\pmb A).$
  3. $\textsf{tr}(\pmb A\pmb B)=(\textsf{Vec}(\pmb A’))’\textsf{Vec}(\pmb B).$
  4. 设 $\pmb a$ 和 $\pmb b$ 分别为 $n\times1$ 和 $m\times1$ 向量,则 $\textsf{Vec}(\pmb a\pmb b’)=\pmb b\otimes\pmb a.$
  5. $\textsf{Vec}(\pmb A\pmb B\pmb C)=(\pmb C’\otimes\pmb A)\textsf{Vec}(\pmb B).$
  6. 设 $\pmb X_{m\times n}=(\pmb x_1,\dots,\pmb x_n)$ 为随机矩阵,且
    $\textsf{Cov}(\pmb x_i,\pmb x_j)=\textsf{E}(\pmb x_i-\textsf{E}(\pmb x_i))(\pmb x_j-\textsf{E}(\pmb x_j))'=v_{ij}\pmb\Sigma.$

    记 $\pmb V=(v_{ij})_{n\times n}$,则

    $\textsf{Cov}(\textsf{Vec}(\pmb X))=\pmb V\otimes\pmb\Sigma,\quad\textsf{Cov}(\textsf{Vec}(\pmb T\pmb X))=\pmb V\otimes(\pmb T\pmb\Sigma\pmb T'),$

    这里 $\pmb T$ 为非随机矩阵。

矩阵微商

设 $\pmb X$ 为 $n\times m$ 矩阵,$y=f(\pmb X)$ 为 $\pmb X$ 的一个实值函数,矩阵

$\dfrac{\partial y}{\partial\pmb X}:=\left(\begin{array}{cccc} \dfrac{\partial y}{\partial x_{11}} & \dfrac{\partial y}{\partial x_{12}} & \cdots & \dfrac{\partial y}{\partial x_{1m}}\\ \dfrac{\partial y}{\partial x_{21}} & \dfrac{\partial y}{\partial x_{22}} & \cdots & \dfrac{\partial y}{\partial x_{2m}}\\ \vdots & \vdots & \ddots & \vdots\\ \dfrac{\partial y}{\partial x_{n1}} & \dfrac{\partial y}{\partial x_{n2}} & \cdots & \dfrac{\partial y}{\partial x_{nm}} \end{array}\right)_{n\times m}$

称为 $y$ 对 $\pmb X$ 的矩阵微商

  • 设 $\pmb a,\pmb x$ 均为 $n\times1$ 向量,$y=\pmb a’\pmb x$,则 $\dfrac{\partial y}{\partial\pmb x}=\pmb a$。
  • 设 $\pmb A_{n\times n}$ 对称,$\pmb x$ 为 $n\times1$ 向量,$y=\pmb x’\pmb A\pmb x$,则 $\dfrac{\partial y}{\partial\pmb x}=2\pmb A\pmb x$。
  • 记矩阵 $\pmb X_{m\times m}$ 的元素 $x_{ij}$ 的代数余子式为 $\pmb X_{ij}$,则
    $\dfrac{\partial\vert\pmb X\vert}{\partial\pmb X}=(\pmb X_{ij})_{m\times m}=\vert\pmb X\vert(\pmb X^{-1})'.$

    这一结果可以从行列式的代数余子式定义中直接得到。


定理. 设 $\pmb Y$ 和 $\pmb X$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,$\pmb Y$ 的每个元素 $y_{ij}$ 是 $\pmb X$ 元素的函数,又 $u=u(\pmb Y)$,则

$\displaystyle\dfrac{\partial u}{\partial\pmb X}=\sum_{ij}\left(\dfrac{\partial u}{\partial\pmb Y}\right)_{ij}\dfrac{\partial(\pmb Y)_{ij}}{\partial\pmb X},$

其中

$\left(\dfrac{\partial u}{\partial\pmb Y}\right)_{ij}$ 表示矩阵 $\dfrac{\partial u}{\partial\pmb Y}$ 的第 $(i,j)$ 元,$(\pmb Y)_{ij}$ 表示矩阵 $\pmb Y$ 的第 $(i,j)$ 元。

  • 对任意矩阵 $\pmb A,\pmb X,\pmb B$,
    $\displaystyle\dfrac{\partial\vert\pmb A\pmb X\pmb B\vert}{\partial\pmb X}=\vert\pmb A\pmb X\pmb B\vert\sum_{ij}((\pmb A\pmb X\pmb B)^{-1})_{ij}'\dfrac{\partial(\pmb A\pmb X\pmb B)_{ij}}{\partial\pmb X}=\vert\pmb A\pmb X\pmb B\vert\pmb A'((\pmb A\pmb X\pmb B)^{-1})'\pmb B',$

    这里用到了

    $\displaystyle\dfrac{\partial(\pmb A\pmb X\pmb B)_{ij}}{\partial\pmb X}=\pmb A'\pmb E_{ij}\pmb B'.$

定理(转换定理) 设 $\pmb X$ 和 $\pmb Y$ 分别为 $n\times m$ 和 $p\times q$ 矩阵,$\pmb A,\pmb B,\pmb C,\pmb D$ 分别为 $p\times m$, $n\times q$, $p\times n$, $m\times q$ 矩阵(可以是 $\pmb X$ 的函数),则下列两条是等价的

$\begin{array}{rl} (1) &\!\!\!\! \dfrac{\partial\pmb Y}{\partial x_{ij}}=\pmb A\pmb E_{ij}(m\times n)\pmb B+\pmb C\pmb E_{ij}'(m\times n)\pmb D,\quad i=1,\dots,m,j=1,\dots,n;\\ (2) &\!\!\!\! \dfrac{\partial(\pmb Y)_{ij}}{\partial\pmb X}=\pmb A'\pmb E_{ij}(p\times q)\pmb B'+\pmb D\pmb E_{ij}'(p\times q)\pmb C,\quad i=1,\dots,p,j=1,\dots,q. \end{array}$

这里

$\dfrac{\partial\pmb Z}{\partial t}=\left(\begin{array}{cccc} \dfrac{\partial z_{11}}{\partial t} & \dfrac{\partial z_{12}}{\partial t} & \cdots & \dfrac{\partial z_{1n}}{\partial t}\\ \dfrac{\partial z_{21}}{\partial t} & \dfrac{\partial z_{22}}{\partial t} & \cdots & \dfrac{\partial z_{2n}}{\partial t}\\ \vdots & \vdots & \ddots & \vdots\\ \dfrac{\partial z_{m1}}{\partial t} & \dfrac{\partial z_{m2}}{\partial t} & \cdots & \dfrac{\partial z_{mn}}{\partial t} \end{array}\right)_{m\times n},$

$\pmb Z_{m\times n}=(z_{ij}(t))$,它是矩阵 $\pmb Z=(z_{ij}(t))$ 对自变量 $t$ 的微商。

证明: 记 $\pmb e_i=(0,\dots,0,1,0,\dots,0)’$,即 $\pmb e_i$ 是第 $i$ 个元素为1,其余元素全为0的向量,则 $\pmb E_{ij}=\pmb e_i\pmb e_j’$。首先注意到

$\begin{array}{rl} \pmb e_k'(\pmb A\pmb E_{ij}\pmb B+\pmb C\pmb E_{ij}'\pmb D)\pmb e_l=&\!\!\!\!\pmb e_k'\pmb A\pmb e_i\pmb e_j'\pmb B\pmb e_l+\pmb e_k'\pmb C\pmb e_j\pmb e_i'\pmb D\pmb e_l\\ =&\!\!\!\!\pmb e_i'\pmb A'\pmb e_k\pmb e_l'\pmb B'\pmb e_j+\pmb e_i'\pmb D\pmb e_l\pmb e_k'\pmb C\pmb e_j\\ =&\!\!\!\!\pmb e_i'(\pmb A'\pmb E_{kl}\pmb B'+\pmb D\pmb E_{lk}\pmb C)\pmb e_j. \end{array}$

若 (1) 成立,则

$\left(\dfrac{\partial\pmb Y}{\partial x_{ij}}\right)_{kl}=\pmb e_k'(\pmb A\pmb E_{ij}\pmb B+\pmb C\pmb E_{ij}'\pmb D)\pmb e_l'=\pmb e_i'(\pmb A'\pmb E_{kl}\pmb B'+\pmb D\pmb E_{lk}\pmb C)\pmb e_j.$

$\left(\dfrac{\partial\pmb Y}{\partial x_{ij}}\right)_{kl}=\left(\dfrac{\partial y_{kl}}{\partial x_{ij}}\right)=\left(\dfrac{\partial y_{kl}}{\partial\pmb X}\right)_{ij},$

因此 (2) 成立。同理可证另一方向的等价。


  • 注意到
    $\dfrac{\partial(\pmb X\pmb A\pmb X')}{\partial x_{ij}}=\dfrac{\partial\pmb X}{\partial x_{ij}}\pmb A\pmb X'+\pmb X\dfrac{\partial\pmb A\pmb X'}{\partial x_{ij}}=\pmb E_{ij}\pmb A\pmb X'+\pmb X\pmb A\pmb E_{ij}',$

    由转换定理可知

    $\displaystyle\dfrac{\partial\textsf{tr}(\pmb X\pmb A\pmb X')}{\partial\pmb X}=\sum_i\dfrac{\partial(\pmb X\pmb A\pmb X')_{ii}}{\partial\pmb X}=\sum_i\dfrac{\partial(\pmb X\pmb A\pmb X')}{\partial x_{ii}}=\sum_i(\pmb E_{ii}\pmb X\pmb A'+\pmb E_{ii}'\pmb X\pmb A)=\pmb X(\pmb A+\pmb A').$
  • $\dfrac{\partial\textsf{tr}(\pmb X’\pmb A\pmb X\pmb B)}{\partial\pmb X}=\pmb A\pmb X\pmb B+\pmb A’\pmb X\pmb B’$.

最后,简要提及矩阵对矩阵的微商。

设 $\pmb Y$ 和 $\pmb X$ 分别为 $m\times n$ 和 $p\times q$ 矩阵,且 $\pmb Y$ 的元素 $y_{ij}$ 为 $\pmb X$ 的函数。记

$\dfrac{\partial\pmb Y}{\partial\pmb X}=\left(\begin{array}{cccc} \dfrac{\partial y_{11}}{\partial x_{11}} & \dfrac{\partial y_{11}}{\partial x_{12}} & \dots & \dfrac{\partial y_{11}}{\partial x_{pq}}\\ \dfrac{\partial y_{12}}{\partial x_{11}} & \dfrac{\partial y_{12}}{\partial x_{12}} & \dots & \dfrac{\partial y_{12}}{\partial x_{pq}}\\ \vdots & \vdots & \ddots & \vdots\\ \dfrac{\partial y_{mn}}{\partial x_{11}} & \dfrac{\partial y_{mn}}{\partial x_{12}} & \dots & \dfrac{\partial y_{mn}}{\partial x_{pq}} \end{array}\right)_{mn\times pq},$

称之为 $\pmb Y$ 对 $\pmb X$ 的微商。容易看到

$\dfrac{\partial\pmb Y}{\partial\pmb X}=\left(\textsf{Vec}\bigg(\dfrac{\partial\pmb Y}{\partial x_{11}}\bigg)',\textsf{Vec}\bigg(\dfrac{\partial\pmb Y}{\partial x_{12}}\bigg)',\dots,\textsf{Vec}\bigg(\dfrac{\partial\pmb Y}{\partial x_{pq}}\bigg)'\right).$

它把求 $\dfrac{\partial\pmb Y}{\partial\pmb X}$ 转化为求 $\dfrac{\partial\pmb Y}{\partial x_{ij}}$,在一些情况下,这会带来不少方便。

例如,对 $\pmb Y=\pmb A\pmb X\pmb B$,因为 $\dfrac{\partial\pmb Y}{\partial x_{ij}}=\pmb A\pmb E_{ij}\pmb B$,所以

$\textsf{Vec}\bigg(\dfrac{\partial\pmb Y}{\partial x_{ij}}\bigg)'=\textsf{Vec}(\pmb B'\pmb E_{ji}\pmb A')=(\pmb A\otimes\pmb B')\textsf{Vec}(\pmb E_{ji}),$

所以

$\dfrac{\partial\pmb Y}{\partial\pmb X}=((\pmb A\otimes\pmb B')\textsf{Vec}(\pmb E_{11}),\dots,(\pmb A\otimes\pmb B')\textsf{Vec}(\pmb E_{pq}))=\pmb A\otimes\pmb B'.$

后记

本文内容参考自《线性模型引论》(王松桂等,科学出版社)。

如对本文内容有任何疑问,请联系 watthu@mail.ustc.edu.cn