线性代数 | 易学教程

线性相关和生成子空间

　　如果逆矩阵A^-1存在，那么式子Ax = b肯定对于每一个向量b恰好存在一个解。但是，对于方程组而言，对于向量b的某些值，有可能无解或者存在无限多解。存在多于一个解但是少于无限多个解的情况是不可能发生的；因为如果x和y都是某方程组的解，则 z = αx + (1-α)y，(α取任意实数)也是该方程组的解。

　　形式上，一组向量的线性组合，是指每个向量乘以对应标量系数之后的和，即：∑_i x_iv⁽ⁱ⁾，一组向量的生成子空间(span)是原始向量线性组合后所能抵达的点的集合。在线性代数里，矢量空间的一组元素中，若没有矢量可用有限个其他矢量的线性组合所表示，则称为线性无关或线性独立 (linearly independent)，反之称为线性相关(linearly dependent)。

　　例如在三维欧几里得空间R的三个矢量(1, 0, 0)，(0, 1, 0)和(0, 0, 1)线性无关；但(2, 0, 1)，(1, 0, 1)和(3, 1, 2)线性相关，因为第三个是前两个的和。

　　确定 Ax = b $A x = b$

$A x = b$

$A x = b$

$A x = b$
$A x = b$
$A x = b$

$A x = b$

对角矩阵：只在主对角线上含有非零元素，其他位置都是零。形式上，矩阵D是对角矩阵，当且仅当对于所有的i ≠ j， D_i,j= 0
对称矩阵：转置和自己相等的矩阵，A = A^T
正交矩阵：行向量和列向量是分别标准正交的矩阵，AA^T = A^TA = I，即A^-1= A^T
单位向量：具有单位范数的向量，||x||₂= 1，如果x^Ty = 0，那么向量x和向量y互相正交，A = A^T，如果两个向量都有非零范数，那么这两个向量之间的夹角是90度。

　　在Rⁿ中，至多有n 个范数非零向量互相正交。如果这些向量不仅互相正交，并且范数为1，那么我们称它们是标准正交。

特征分解

　　特征分解是指将矩阵分解成一组特征向量和特征值，A = QΛQ^T。

　　方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量v：Av = λv, 标量λ被称为这个特征向量的特征值。（类似的，可以定义左特征向量v^TA = λ v^T，但是通常我们更关注右特征向量）。如果v是A的特征向量，那么任何缩放后的向量sv（s∈R，s≠0）也是A的特征向量。此外，sv和v有相同的特征值。

　　假设矩阵A有n个线性无关的特征向量｛v⁽¹⁾,......,v⁽ⁿ⁾｝，对应着特征值｛λ₁,......,λ_n｝。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量：V= [v⁽¹⁾,......,v⁽ⁿ⁾]。类似地，我们也可以将特征值连接成一个向量λ = [λ₁,......,λ_n]^T。因此A的特征分解可以记为A = V diag(λ) V^-1。

　　每个实对称矩阵都可以分解成实特征向量和实特征值：A = QΛQ^T，其中Q是A的特征向量组成的正交矩阵，Λ是对角矩阵。虽然任意一个实对称矩阵A都有特征分解，但是特征分解可能并不唯一。

　　特征分解唯一当且仅当所有的特征值都是唯一的。

　　矩阵是奇异的当且仅当含有零特征值。实对称矩阵的特征分解也可以用于优化二次方程f(x) = x^TAx，其中限制||x||₂ = 1 。当x等于A的某个特征向量时，f将返回对应的特征值。在限制条件下，函数f的最大值是最大特征值，最小值是最小特征值。

　　正定矩阵：所有特征值都是正数的矩阵；

　　半正定矩阵：所有特征值都是非负数的矩阵；

　　负定矩阵：所有特征值都是负数的矩阵；

　　半负定矩阵：所有特征值都是非正数的矩阵。

　　半正定矩阵保证∨x，x^TA x ≥ 0。此外，正定矩阵保证x^TA x = 0 => x = 0 。

　　步骤：1）求取特征值，按对角线排序得Λ；2）求特征向量，按列向量排序得Q；3）A = QΛQ^T

奇异值分解（SVD）

　　奇异值分解是指将矩阵分解为奇异向量和奇异值，A = UDV^T，假设A是一个 m×n 的矩阵，那么U是一个 m×m 的矩阵，D是一个 m×n 的矩阵，V是一个 n×n 的矩阵。 U和V都是酉矩阵，即满足U^TU=I，V^TV = I。

　　步骤：1）求矩阵A^TA，AA^T；2）求AA^T，A^TA的特征值和对应特征向量u_i，v_i；3）AA^T的特征向量（左奇异向量）组成矩阵U，A^TA的特征向量（右奇异矩阵）组成矩阵V；

　　　　　4）由于矩阵D除了对角线上是奇异值外，其余都为零，故求出每一个奇异值σ_i即可：

A = UDV^T

AV = UDV^TV

AV= UD

Av_i = σ_iu_i

σ_i= Av_i / u_i

　　　　　　求得每一个奇异值即可的奇异值矩阵；

　　　　　5）A = UDV^T ==> A^T= VDU^T==> A^T= VDU^TUDV^T = VD²V^T，可以看出特征值矩阵是奇异值矩阵的平方，

　　　　　　可以不通过步骤4），直接通过σ_i= λ_i^1/2求得奇异值。

Moore-Penrose伪逆

　　矩阵A的伪逆定义：A⁺= lim_α↘0(A^TA + αI)^-1A^T

　　计算伪逆的实际算法：A⁺= lim_α↘0(A^TA + αI)^-1A^T，其中，矩阵U，D，V是矩阵A奇异值分解后得到的矩阵。对角矩阵D的伪逆矩阵D⁺是其非零元素取倒数后再转置得到的。

　　1）当矩阵A的列数大于行数时，使用伪逆求解线性方程是众多可能解法中的一种。特别地，x = A⁺y 是所有可行解中欧几里得范数||x||₂最小的一个。

　　2）当矩阵A的列数大于行数时，可能没有解。这种情况下，通过伪逆得到的x使得 Ax 和 y 的欧几里得距离|| Ax-y ||₂最小。

迹运算

　　迹运算返回的是矩阵对角元素的和：Tr(A) = ∑_iA_i,i

　　迹运算提供了另一种描述矩阵Frobenius范数的方式：||A||_F = (Tr（AA^T）)^1/2

　　迹运算在转置运算下是不变的：Tr(A) = Tr(A^T)

　　多个矩阵相乘得方阵的迹，和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的（需要考虑挪动之后矩阵乘积依然定义良好）：Tr(ABC) = Tr(CAB) = Tr(BCA)

　　标量在迹运算后仍然是本身： a = Tr(a)。

行列式

　　行列式，记作det(A)，是一个将方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。

　　若行列式是 0 ，那么空间至少沿着某一维完全收缩了，使其失去了所有的体积；若行列式是 1 ，那么这个转换保持空间体积不变。

来源：https://www.cnblogs.com/zwjhq/p/8663665.html

标签

特征向量

矩阵

范数

矩阵乘法