0.介绍
- 内容来自工程数学课程PPT的学习。
- 线搜索方法实际上是一种寻找目标函数f的局部?最小值的近似方法。
1.目录
5.1 Step length 步长
5.2 Convergence of Line Search Methods 线搜索方法的收敛
5.3 Rate of Convergence 收敛速率
5.4 Newton’s Method with Hessian Modification 海森修正的牛顿方法
5.5 Step-Length Seletion Algorithms 步长选择方法
2.内容
2.1 概述
- 线搜索方法的每一步迭代,首先计算出一个方向Pk,然后决定沿着该方向移动多远。
- 迭代式为:
其中的正标量(Positive Scalar)αk就是步长。 - Pk是一个满足下式的下降方向:
Pk自身的形式为:
其中的Bk是一个对称的非正定矩阵。
备注1: 正定矩阵,就是----------如果对任何非零向量z,都有zTMz> 0,其中zT表示z的转置,就称M为正定矩阵。https://www.cnblogs.com/marsggbo/p/11461155.html
此外,Bk的不同取值对应着不同的方法(最速下降方法、牛顿法和拟牛顿法):
2.2 PPT内容
5.1 步长(Step Length)
- 如何选择步长:步长的选择实际上是对两个预期要求的一种权衡。这两个预期要求分别是:目标函数值减少量和步长选择耗费时长。
也就是说,尽管我们希望目标函数值下降越多越好,但是我们也不希望在一步之中花费太多时间。 - 理想的选择实际上是求得下面这个一元函数的全局最小值即可:
这个式子的意思是:只要基于当前点,求得确定方向条件下,能够移动的最大值即可。(能够最大限度使得目标函数值减少,从而接近目标的最小值) - 但是一般情况下,定位到这个目标值的成本很大。比如下图中的全局最小值很难求得:
- 实际上有很多更加切实可行的策略,能够用最小的代价取得足够的函数值下降的步长。
- 证明充分下降条件是必要的一个例子:首先,迭代后的值小于上一步的函数值,尽管确实是向最优点接近了,但是它在产生逼近最优迭代点的收敛上并不足够。也就是说,下面这个条件太过宽松:
比如下面这个例子:函数全局最小值为-1,但是迭代序列为针对f(Xk)=5/k。尽管每次迭代都能产生一个下降,但是函数值有限收敛于0。 - 于是乎,下面提出更加严格有效的条件。
沃尔夫条件们:第一位是Armijo条件(充分下降条件),其中c1属于(0,1),且通常取极小值,如0.0001,10的-4次方.
上述充分下降条件如图(Figure3)所示,其中的l(alpha)代表不等式右侧的线性函数:
对于该方法我的理解就是:通过严格迭代函数值条件,来缩小执行域,提高收敛速度(效率)。
第二位是Curvature条件,其中c2属于(c1,1)–c1就是Armijo条件中的常数:
如图(Figure4),当c2=0.9,就是牛顿法或拟牛顿法;当c2=0.1,就是非线性共轭梯度法。
- The Wolfe Conditions:沃尔夫条件(两个)
- The Strong Wolfe Conditions:强沃尔夫条件(两个)
- 满足沃尔夫条件的步长如图(Figure 5)所示:
- 因此不难证明,对每一个光滑有下界的函数总有满足沃尔夫条件的步长。(bounded below有下界)
(Goldenstein Conditions占坑)
5.2 线搜索方法的收敛性(Convergence of Line Search Method)
5.3 收敛速度(Rate of Convergence)
来源:CSDN
作者:YH在学习呀
链接:https://blog.csdn.net/qq_32760017/article/details/102906846