预备知识

一、正定和半正定矩阵

在这里插入图片描述

半正定矩阵包括了正定矩阵。

不定矩阵：特征值有正有负

半正定矩阵：所有特征值为非负。
半负定矩阵：所有特征值为非正。

二、牛顿法和拟牛顿法（二阶优化方法）

由于我主要是做NLP，机器学习方面基本功扎实后，更加偏机器学习的方法浅尝辄止即可，面试的时候知道有这些东西即可。这里只提一提。

牛顿法（Newton method）和拟牛顿法（quasi Newton method）是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步都需求解目标函数的海塞矩阵（Hessian Matrix），计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵，简化了这一计算过程。

1 牛顿法：
在这里插入图片描述
2 拟牛顿法：

拟牛顿法主要常见有DFP法（逼近Hession的逆）、BFGS（直接逼近Hession矩阵）、 L-BFGS（可以减少BFGS所需的存储空间）。均是用不同的构造方法来近似海塞矩阵或其逆。

3 牛顿法和梯度下降法：
在这里插入图片描述
4 牛顿法和深度学习：

三、海塞矩阵

在这里插入图片描述

四、鞍点问题

高维非凸优化问题之所以困难，是因为存在大量的鞍点而不是局部极值。
神经网络优化问题中的鞍点即一个维度向上倾斜且另一维度向下倾斜的点。

鞍点和局部极值的区别：
鞍点和局部极小值，
相同的是，在该点处的梯度都等于零，
不同在于在鞍点附近Hessian矩阵是不定的（特征值有正有负则属于不定矩阵，Hessian矩阵的不定矩阵说明该点不是极值点），而在局部极值附近的Hessian矩阵是正定的（Hessian矩阵的正定矩阵说明该点是极小值）。

在鞍点附近，基于梯度的优化算法（几乎目前所有的实际使用的优化算法都是基于梯度的）会遇到较为严重的问题。
在这里插入图片描述

五、最优化问题-如何逃离鞍点

深度学习中鞍点的大量存在，传统的牛顿法不适合，来寻优，因为牛顿法是通过直接寻找梯度为0的点，来寻优的,那么极有可能陷入鞍点。
在这里插入图片描述
各算法逃离鞍点的效果图：
https://img-blog.csdn.net/20170921144326084?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvQlZMMTAxMDExMTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast