第二章 机器学习中的线性代数知识
线性代数作为数学中的一个重要的分支,广发应用在科学与工程中。掌握好线性代数对于理解和从事机器学习算法相关的工作是很有必要的,尤其是对于深度学习而言。因此,在开始介绍深度学习之前,先集中探讨一些必备的线性代数知识。
2.1 标量,向量,矩阵和张量
标量(scalar):一个标量就是一个单独的数。用斜体表示标量,如
向量(vector):一个向量是一列数,我们用粗体的小写名称表示向量。比如
矩阵(matrix):矩阵是二维数组,我们通常赋予矩阵粗体大写变量名称,比如
张量(tensor):某些情况下,我们会讨论不止维坐标的数组。如果一组数组中的元素分布在若干维坐标的规则网络中,就将其称为张量。用
转置(transpose):矩阵的转置是以对角线为轴的镜像,这条从左上角到右下角的对角线称为主对角线(main diagonal)。将矩阵
2.2 矩阵和向量相乘
矩阵乘法是矩阵运算中最重要的操作之一。两个矩阵
具体的地,其中的乘法操作定义为
矩阵乘积服从分配律
矩阵乘积也服从结合律
注意:矩阵乘积没有交换律
点积(dot product)两个相同维数的向量
矩阵乘积的转置
利用向量的乘积是标量,标量的转置是自身的事实,我们可以证明(10)式:
线性方程组
2.3 单位矩阵和逆矩阵
线性代数中提供了 矩阵逆(matrix inverse) 的工具,使得我们能够解析地求解(11)中的
单位矩阵(identity matrix):任意向量与单位矩阵相乘都不会改变。我们将保持
矩阵
(11)式方程组的求解:
方程组的解取决于能否找到一个逆矩阵
2.4 线性相关和生成子空间
如果逆矩阵
形式上,某个集合中向量的线性组合,是指每个向量乘以对应系数之后的和,即
一组向量的生成空间(span) 是原始向量线性组合后所能抵达的点的集合。
线性无关(linearly independent): 如果一组向量中的任意一个向量都不能表示成其他向量的线性组合,那么这组向量被称之为线性无关。
要想使矩阵可逆,首先必须矩阵是一个方阵(square),即
一个列向量线性相关的方阵被称为 奇异的(singular)。
2.5 范数
有时候我们需要衡量一个向量的大小,在机器学习中,我们使用称为范数(norm)的函数来衡量矩阵大小,形式上,
其中
范数是将向量映射到非负值的函数。直观上来说,向量
f(x)=0⟹x=0 f(x+y)≤f(x)+f(y) ∀α∈R,f(αx)=|α|f(x)
当
max 范数(max norm):这个范数表示向量中具有最大幅度得元素的绝对值,用
两个向量的点积(dot product)也可以用范数来表示。具体地,
2.6 特殊类型的矩阵和向量
对角矩阵(diagonal matrix) 只在主对角线上含有非零元素,其它位置都是零。矩阵
对称(symmetric) 矩阵是任意转置和自己相等的矩阵:
即在矩阵
单位向量(unit vector) 是具有单位范数(unit norm) 的向量:
如果
正交矩阵(orthonormal matrix) 是指行向量是标准正交的,列向量是标准正交的方阵:
这意味着
所以正交矩阵受到关注是因为求逆计算代价小。需要注意正交矩阵的定义。反直觉地,正交矩阵的行向量不仅是正交的,还是标准正交的。对于行向量或列向量互相正交但不是标准正交的矩阵没有对应的专有术语。
2.7 特征分解
许多数学对象可以通过将它们分解成多个组成部分,或者找到它们的一些属性而被更好地理解,这些属性是通用的,而不是由我们选择表示它们的方式引起的。就像我们可以通过分解质因数来发现一些关于整数的真实性质,我们也可以通过分解矩阵来获取一些矩阵表示成数组元素时不明显的函数性质。
特征分解(eigendecomposition) 是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。
方阵
标量
如果
假设矩阵
类似地,特征值连成一个向量:
因此\bf A 的特征分解(eigendecomposition)可以记作:
上面我们构建具体特定的特征值和特征向量,能够使我们在目标方向上延伸空间。我们也常常希望将矩阵分解(decompose) 成特征值和特征向量。这样可以帮助我们分析矩阵的特定性质,就像质因数分解有助于我们理解整数。
不是每一个矩阵都可以分解成特征值和特征向量,在某些情况下,特征分解会涉及到复数,而非实数。在本书的机器学习学习中,我们只讨论一类简单分解的矩阵。具体就是,每个实对称矩阵都可以分解为实特征向量和实特征值:
其中
2.8 迹运算
迹运算返回的是矩阵对角元素的和:
迹运算因为很多原因而受到关注。若不使用求和符号,有些矩阵运算很难描述,而通过矩阵乘法和迹运算符号,可以进行清楚地表示。例如,迹运算提供了另一种描述矩阵Frobenius 范数的方式:
用迹运算表示式,使我们可以用很多有用的性质来操纵表示式。例如迹运算在转置下是不变的:
多个矩阵乘积的迹还满足链式规律,即:
标量的迹是它本身:
2.9 行列式
行列式,记作
总结
以上是在机器学习过程中必须了解和掌握的有关线性代数的知识,关于线性代数在机器学习中应用较多的矩阵求导部分,将在下篇文章中阐述。
来源:CSDN
作者:Vinicier
链接:https://blog.csdn.net/u010976453/article/details/54342895