一、线性代数

1.1 标量、向量、矩阵和张量

标量：一个单独的数

向量：一列数，一维数组

矩阵：二维数组

张量：超过二维的数组

转置：以对角线为轴的镜像。

1.2 矩阵和向量相乘

矩阵乘法:两个矩阵A和B的矩阵乘积(matrix product)是第三个矩阵 C。为了使乘法定义良好,矩阵 A 的列数必须和矩阵 B 的行数相等。如果矩阵 A 的形状是 m × n,矩阵 B 的形状是 n × p,那么矩阵C 的形状是 m × p

点积:

1.3 单位矩阵和逆矩阵

单位矩阵:所有沿主对角线的元素都是 1,而所有其他位置的元素都是0,计作:

逆矩阵:

求逆矩阵的条件:

矩阵A必须是一个方阵(square),即 m = n,并且所有列向量都是线性无关的。一个列向量线性相关的方阵被称为奇异的(singular)。

1.4 范数

L 2 范数:当 p = 2 时,L2 范数被称为欧几里得范数(Euclidean norm)。它表示从原点出发到向量 x 确定的点的欧几里得距离。L2 范数在机器学习中出现地十分频繁,经常简化表示为 ∥x∥,略去了下标 2。平方 L 2 范数也经常用来衡量向量的大小.

L 1 范数:当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用 L 1 范数

Frobenius 范数:有时候我们可能也希望衡量矩阵的大小。

1.5 特殊类型的矩阵和向量

对角矩阵:只在主对角线上含有非零元素,其他位置都是零。用 diag(v) 表示一个对角元素由向量 v 中元素给定的对角方阵。

对称矩阵:转置和自己相等的矩阵

单位向量:具有单位范数(unit norm)的向量

正交:如果 = 0,那么向量 x 和向量 y 互相正交(orthogonal)

标准正交:如果这些向量不仅互相正交,并且范数都为 1,那么我们称它们是标准正交

正交矩阵:行向量和列向量是分别标准正交的方阵

1.6 特征分解

特征分解:将方阵分解成一组特征向量和特征值.

1.7 奇异值分解

将矩阵 A 分解成三个矩阵的乘积,假设 A 是一个 m × n 的矩阵,那么 U 是一个 m × m 的矩阵,D 是一个 m × n
的矩阵,V 是一个 n × n 矩阵。

对角矩阵 D 对角线上的元素被称为矩阵 A 的奇异值(singular value)。矩阵U 的列向量被称为左奇异向量(left singular vector),矩阵 V 的列向量被称右奇异向量(right singular vector)。

1.8 伪逆

其中,矩阵 U,D 和 V 是矩阵 A奇异值分解后得到的矩阵。对角矩阵 D 的伪逆D + 是其非零元素取倒数之后再转置得到的。
当矩阵 A 的列数多于行数时

1.9 迹运算

迹运算返回的是矩阵对角元素的和

1.10 行列式

行列式,记作 det(A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。

二概率论及信息论

我们使用概率论来量化不确定性.

2.1 随机变量

随机变量(random variable)是可以随机地取不同值的变量。

2.2 概率分布

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一
个可能取到的状态的可能性大小。

2.3 边缘概率

离散:

连续:

3.5 条件概率

3.6 条件概率的链式法则

3.7 独立性和条件独立性

相互独立:

条件独立:

3.8 期望、方差和协方差

期望:

离散型:

连续型:

方差

协方差:

3.9 常用概率分布

高斯分布:

3.10 常用函数的有用性质

logistic sigmoid

softplus 函数

3.11 贝叶斯规则

3.13 信息论

信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。我们想要通过这种基本想法来量化信息。特别地,
• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。
• 较不可能发生的事件具有更高的信息量。
• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

香农熵:

[参考资料]

<深度学习>

来源：CSDN

作者：xuanweichangran

链接：https://blog.csdn.net/xuanweichangran/article/details/88280995

标签

矩阵

范数

矩阵乘法

数学

矩阵转置

矩阵分解

深度学习理论之数学基础