AI中的线性代数(有空更新)
基本符号
- \(A \in \mathbb{R}^{m\times n}\)表示一个\(m\)行\(n\)列的实数矩阵(matrix)
- \(x\in \mathbb{R}^n\)表示一个有\(n\)个元素的向量(vector)。通常来说,一个\(n\)维向量指的是一个\(n\times 1\)的矩阵(即列向量(column vector))。通过转置(transpose)可以表示对应的\(1\times n\)矩阵(即行向量(row vector))
- \(x_i\)表示向量\(x\)的第\(i\)个元素
- \(a_{ij}\ or\ A_{ij}\)表示矩阵\(A\)中\(i\)行\(j\)列的元素
- \(a_j\ or\ A_{:,j}\)表示矩阵\(A\)的第\(j\)列
- \(a_i^T\ or\ A_{i,:}\)表示矩阵\(A\)的第\(i\)行
矩阵乘法(Matrix Multiplication)
- 矩阵\(A \in \mathbb{R}^{m\times n}\)和矩阵\(B \in \mathbb{R}^{n\times p}\)的乘积(product)是\(C=AB\in \mathbb{R}^{m\times p}\),其中\(C_{ij}=\sum^n_{k=1}A_{ik}B_{kj}\)
- 性质
- 结合律(associative):\((AB)C=A(BC)\)
- 分配律(distributive):\(A(B+C)=AB+AC\)
- 不可交换(not commutative):\(AB\neq BA\)
操作与性质
单位矩阵(Identity Matrix)与对角矩阵(Diagonal Matrix)
- 单位阵\[ I_{ij}=\left\{\begin{matrix} 1,\ i=j\\0,\ i\neq j \end{matrix}\right. \]
- 满足对任意\(A\in \mathbb{R}^{m\times n}\)都有\(AI=A=IA\)
- 对角阵,通常记为\(D=diag(d_1,d_2,...,d_n)\),有\[ D_{ij}=\left\{\begin{matrix} D_i,\ i=j\\0,\ i\neq j \end{matrix}\right. \]
转置(Transpose)
- \((A^T)_{ij}=A_{ji}\)
- 性质
- \((A^T)^T=A\)
- \((AB)^T=B^TA^T\)
- \((A+B)^T=A^T+B^T\)
对称矩阵(Symmetric Matrix)
- 当\(A\in \mathbb{R}^{n\times n}\)且\(A^T=A\),则\(A\)为对称阵;若\(A=-A^T\)则\(A\)为反对称阵(anti-symmetric)
- 对于任意\(A\in \mathbb{R}^{n\times n}\),\(A+A^T\)是对称阵,\(A-A^T\)是反对称阵
- 因此任意方阵都可以表示为一个对称阵和一个反对称阵的和:\(A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)\)
- 对称阵在实践中非常常见,通常将所有大小为\(n\)(即\(n\times n\))的对称阵的集合记为\(\mathbb{S}^n\)
迹(Trace)
- 方阵\(A\in \mathbb{R}^{n\times n}\)的迹(记为\(tr(A)\))是对角线上元素的和:\[trA=\sum^{n}_{i=1}A_{ii}\]
迹的性质:(以下矩阵均在\(\mathbb{R}^{n\times n}\)中讨论)
- \(trA=trA^T\)
- \(tr(A+B)=trA+trB\)
- \(t\in \mathbb{R},\ tr(tA)=t\ trA\)
- \(AB\)是方阵,则\(trAB=trBA\)
- \(ABC\)是方阵,则\(trABC=trBCA=trCAB\),以此类推
范式(Norms)
- 向量\(x\)的范式\(||x||\),不正式地来讲,是该向量“长度”的度量。例如,常用的欧几里得范式(或称 \(\ell_2\)范式)为:\[||x||_2=\sqrt{\sum_{i=1}^{n}x^2_i}\] 注意,\(||x||^2_2=x^Tx\)
正式地来讲,范式是一个满足以下4个条件的任意函数\(f\ :\ \mathbb{R}^n\rightarrow\mathbb{R}\):
- 非负性(non-negativity):对于任意\(x\in\mathbb{R}^n\),\(f(x)\geq0\)
- 确定性(definiteness, 不确定这个翻译对不对):\(f(x)=0\)当且仅当\(x=0\)
- 齐次性(homogeneity):对于任意\(x\in\mathbb{R}^n,\ t\in\mathbb{R}\),\(f(tx)=|t|f(x)\)
- 三角不等式(triangle inequality):\(x,\ y\in\mathbb{R}^n,\ t\in\mathbb{R}\),\(f(x+y)\leq f(x)+f(y)\)
常用的范式如:
- \(\ell_1\)范式:\(||x||_1=\sum^n_{i=1}|x_i|\)
- \(\ell_{\infty}\)范式:\(||x||_\infty=max_i|x_i|\)
事实上,以上的3种范式属于\(\ell_p\ (p\geq1)\)范式,它的定义为:\[||x||_p=(\sum_{i=1}^{n}|x_i|^p)^\frac{1}{p}\]
矩阵也可以定义范式,例如Frobenius范式:\[ ||A||_F=\sqrt{\sum^m_{i=1}\sum^n_{j=1}A^2_{ij}}=\sqrt{tr(A^TA)} \] 还存在其他的矩阵范式,此处不再叙述
线性无关(Linear Independence)与秩(Rank)
- 线性无关:对于一组向量,没有任何向量能够通过其余向量的线性组合来表示,那么这组向量线性无关;否则线性相关
- 矩阵的列秩:该矩阵中极大线性无关组的列数
- 行秩同理
- 行秩等于列秩!证明:(https://zhuanlan.zhihu.com/p/550019600)
性质:
- 对于矩阵\(A\in \mathbb{R}^{m\times n}\),\(rank(A)\leq min(m, n)\)。如果\(rank(A) = min(m, n)\),那么称为满秩
- \(rank(A) = rank(A^T)\)
- \(rank(AB) \leq min(rank(A), rank(B))\)
- \(rank(A+B) \leq rank(A) + rank(B)\)
逆元(Inverse)
- \(A \in \mathbb{R}^{n\times n},\ AA^{-1} = I = A^{-1}A\),唯一的矩阵\(A^{-1}\)称为\(A\)的逆元。
- 非方阵没有逆元
- 如果\(A^{-1}\)存在,我们说\(A\)是可逆的或非奇异的;否则是不可逆的或奇异的
- 满秩的方阵有逆元
性质:
- \((A^{-1})^{-1} = A\)
- \((AB)^{-1} = B^{-1}A^{-1}\)
- \((A^{-1})^T = (A^T)^{-1}\),也可以记作\(A^{-T}\)
正交矩阵(Orthogonal Matrix)
- 正交向量:\(x,y\in \mathbb{R}^n,\ x^Ty=0\),则称\(x,\ y\)正交 (orthogonal)
- 正规化:\(||x||_2=1\),则称其是正规化的
- 正交矩阵:所有列都是正规化的,且两两正交
性质
- \(U^TU=I=UU^T\)。即:正交矩阵的逆矩阵是其转置
- 一般,正交的矩阵是针对方阵来说的
- 用正交矩阵对向量进行操作,不会影响其欧几里得 (\(\ell_2\)) 范式:\(||Ux||_2=||x||_2\)
矩阵的值域 (Range) 和零空间 (Nullspace)
- 一组向量\(\{x_1,...x_n\}\)的张成空间 (span) :所有能被这组向量的线性组合所表示的向量的集合
参考
https://www.yanxishe.com/TextTranslation/2965
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Yunsaijc's Blog!