基本符号

  • \(A \in \mathbb{R}^{m\times n}\)表示一个\(m\)\(n\)列的实数矩阵(matrix)
  • \(x\in \mathbb{R}^n\)表示一个有\(n\)个元素的向量(vector)。通常来说,一个\(n\)维向量指的是一个\(n\times 1\)的矩阵(即列向量(column vector))。通过转置(transpose)可以表示对应的\(1\times n\)矩阵(即行向量(row vector))
  • \(x_i\)表示向量\(x\)的第\(i\)个元素
  • \(a_{ij}\ or\ A_{ij}\)表示矩阵\(A\)\(i\)\(j\)列的元素
  • \(a_j\ or\ A_{:,j}\)表示矩阵\(A\)的第\(j\)
  • \(a_i^T\ or\ A_{i,:}\)表示矩阵\(A\)的第\(i\)

矩阵乘法(Matrix Multiplication)

  • 矩阵\(A \in \mathbb{R}^{m\times n}\)和矩阵\(B \in \mathbb{R}^{n\times p}\)的乘积(product)是\(C=AB\in \mathbb{R}^{m\times p}\),其中\(C_{ij}=\sum^n_{k=1}A_{ik}B_{kj}\)
  • 性质
    • 结合律(associative):\((AB)C=A(BC)\)
    • 分配律(distributive):\(A(B+C)=AB+AC\)
    • 不可交换(not commutative):\(AB\neq BA\)

操作与性质

单位矩阵(Identity Matrix)与对角矩阵(Diagonal Matrix)

  • 单位阵\[ I_{ij}=\left\{\begin{matrix} 1,\ i=j\\0,\ i\neq j \end{matrix}\right. \]
  • 满足对任意\(A\in \mathbb{R}^{m\times n}\)都有\(AI=A=IA\)
  • 对角阵,通常记为\(D=diag(d_1,d_2,...,d_n)\),有\[ D_{ij}=\left\{\begin{matrix} D_i,\ i=j\\0,\ i\neq j \end{matrix}\right. \]

转置(Transpose)

  • \((A^T)_{ij}=A_{ji}\)
  • 性质
    • \((A^T)^T=A\)
    • \((AB)^T=B^TA^T\)
    • \((A+B)^T=A^T+B^T\)

对称矩阵(Symmetric Matrix)

  • \(A\in \mathbb{R}^{n\times n}\)\(A^T=A\),则\(A\)为对称阵;若\(A=-A^T\)\(A\)为反对称阵(anti-symmetric)
  • 对于任意\(A\in \mathbb{R}^{n\times n}\)\(A+A^T\)是对称阵,\(A-A^T\)是反对称阵
  • 因此任意方阵都可以表示为一个对称阵和一个反对称阵的和:\(A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)\)
  • 对称阵在实践中非常常见,通常将所有大小为\(n\)(即\(n\times n\))的对称阵的集合记为\(\mathbb{S}^n\)

迹(Trace)

  • 方阵\(A\in \mathbb{R}^{n\times n}\)的迹(记为\(tr(A)\))是对角线上元素的和:\[trA=\sum^{n}_{i=1}A_{ii}\]

迹的性质:(以下矩阵均在\(\mathbb{R}^{n\times n}\)中讨论)

  • \(trA=trA^T\)
  • \(tr(A+B)=trA+trB\)
  • \(t\in \mathbb{R},\ tr(tA)=t\ trA\)
  • \(AB\)是方阵,则\(trAB=trBA\)
  • \(ABC\)是方阵,则\(trABC=trBCA=trCAB\),以此类推

范式(Norms)

  • 向量\(x\)的范式\(||x||\),不正式地来讲,是该向量“长度”的度量。例如,常用的欧几里得范式(或称 \(\ell_2\)范式)为:\[||x||_2=\sqrt{\sum_{i=1}^{n}x^2_i}\] 注意,\(||x||^2_2=x^Tx\)

正式地来讲,范式是一个满足以下4个条件的任意函数\(f\ :\ \mathbb{R}^n\rightarrow\mathbb{R}\)

  • 非负性(non-negativity):对于任意\(x\in\mathbb{R}^n\)\(f(x)\geq0\)
  • 确定性(definiteness, 不确定这个翻译对不对):\(f(x)=0\)当且仅当\(x=0\)
  • 齐次性(homogeneity):对于任意\(x\in\mathbb{R}^n,\ t\in\mathbb{R}\)\(f(tx)=|t|f(x)\)
  • 三角不等式(triangle inequality):\(x,\ y\in\mathbb{R}^n,\ t\in\mathbb{R}\)\(f(x+y)\leq f(x)+f(y)\)

常用的范式如:

  • \(\ell_1\)范式:\(||x||_1=\sum^n_{i=1}|x_i|\)
  • \(\ell_{\infty}\)范式:\(||x||_\infty=max_i|x_i|\)

事实上,以上的3种范式属于\(\ell_p\ (p\geq1)\)范式,它的定义为:\[||x||_p=(\sum_{i=1}^{n}|x_i|^p)^\frac{1}{p}\]

矩阵也可以定义范式,例如Frobenius范式:\[ ||A||_F=\sqrt{\sum^m_{i=1}\sum^n_{j=1}A^2_{ij}}=\sqrt{tr(A^TA)} \] 还存在其他的矩阵范式,此处不再叙述

线性无关(Linear Independence)与秩(Rank)

  • 线性无关:对于一组向量,没有任何向量能够通过其余向量的线性组合来表示,那么这组向量线性无关;否则线性相关
  • 矩阵的列秩:该矩阵中极大线性无关组的列数
  • 行秩同理
  • 行秩等于列秩!证明:(https://zhuanlan.zhihu.com/p/550019600

性质:

  • 对于矩阵\(A\in \mathbb{R}^{m\times n}\)\(rank(A)\leq min(m, n)\)。如果\(rank(A) = min(m, n)\),那么称为满秩
  • \(rank(A) = rank(A^T)\)
  • \(rank(AB) \leq min(rank(A), rank(B))\)
  • \(rank(A+B) \leq rank(A) + rank(B)\)

逆元(Inverse)

  • \(A \in \mathbb{R}^{n\times n},\ AA^{-1} = I = A^{-1}A\),唯一的矩阵\(A^{-1}\)称为\(A\)的逆元。
  • 非方阵没有逆元
  • 如果\(A^{-1}\)存在,我们说\(A\)是可逆的或非奇异的;否则是不可逆的或奇异的
  • 满秩的方阵有逆元

性质:

  • \((A^{-1})^{-1} = A\)
  • \((AB)^{-1} = B^{-1}A^{-1}\)
  • \((A^{-1})^T = (A^T)^{-1}\),也可以记作\(A^{-T}\)

正交矩阵(Orthogonal Matrix)

  • 正交向量:\(x,y\in \mathbb{R}^n,\ x^Ty=0\),则称\(x,\ y\)正交 (orthogonal)
  • 正规化:\(||x||_2=1\),则称其是正规化的
  • 正交矩阵:所有列都是正规化的,且两两正交

性质

  • \(U^TU=I=UU^T\)。即:正交矩阵的逆矩阵是其转置
  • 一般,正交的矩阵是针对方阵来说的
  • 用正交矩阵对向量进行操作,不会影响其欧几里得 (\(\ell_2\)) 范式:\(||Ux||_2=||x||_2\)

矩阵的值域 (Range) 和零空间 (Nullspace)

  • 一组向量\(\{x_1,...x_n\}\)的张成空间 (span) :所有能被这组向量的线性组合所表示的向量的集合

参考

https://www.yanxishe.com/TextTranslation/2965

https://cs229.stanford.edu/section/cs229-linalg.pdf

https://zhuanlan.zhihu.com/p/550019600