【工程数学】之PPT6:Line Search Methods(线搜索方法)

流过昼夜 提交于 2019-11-25 22:37:02

0.介绍

  • 内容来自工程数学课程PPT的学习。
  • 线搜索方法实际上是一种寻找目标函数f的局部?最小值的近似方法。

1.目录

5.1 Step length 步长
5.2 Convergence of Line Search Methods 线搜索方法的收敛
5.3 Rate of Convergence 收敛速率
5.4 Newton’s Method with Hessian Modification 海森修正的牛顿方法
5.5 Step-Length Seletion Algorithms 步长选择方法

2.内容

2.1 概述

  • 线搜索方法的每一步迭代,首先计算出一个方向Pk,然后决定沿着该方向移动多远。
  • 迭代式为:在这里插入图片描述
    其中的正标量(Positive Scalar)αk就是步长。
  • Pk是一个满足下式的下降方向:在这里插入图片描述
    Pk自身的形式为:在这里插入图片描述
    其中的Bk是一个对称的非正定矩阵。
    备注1: 正定矩阵,就是----------如果对任何非零向量z,都有zTMz> 0,其中zT表示z的转置,就称M为正定矩阵。https://www.cnblogs.com/marsggbo/p/11461155.html
    此外,Bk的不同取值对应着不同的方法(最速下降方法、牛顿法和拟牛顿法):在这里插入图片描述

2.2 PPT内容

5.1 步长(Step Length)
  • 如何选择步长:步长的选择实际上是对两个预期要求的一种权衡。这两个预期要求分别是:目标函数值减少量和步长选择耗费时长。
    也就是说,尽管我们希望目标函数值下降越多越好,但是我们也不希望在一步之中花费太多时间。
  • 理想的选择实际上是求得下面这个一元函数的全局最小值即可:
    在这里插入图片描述
    这个式子的意思是:只要基于当前点,求得确定方向条件下,能够移动的最大值即可。(能够最大限度使得目标函数值减少,从而接近目标的最小值)
  • 但是一般情况下,定位到这个目标值的成本很大。比如下图中的全局最小值很难求得:
    在这里插入图片描述
  • 实际上有很多更加切实可行的策略,能够用最小的代价取得足够的函数值下降的步长。
  • 证明充分下降条件是必要的一个例子:首先,迭代后的值小于上一步的函数值,尽管确实是向最优点接近了,但是它在产生逼近最优迭代点的收敛上并不足够。也就是说,下面这个条件太过宽松:
    在这里插入图片描述
    比如下面这个例子:函数全局最小值为-1,但是迭代序列为针对f(Xk)=5/k。尽管每次迭代都能产生一个下降,但是函数值有限收敛于0。
    在这里插入图片描述
  • 于是乎,下面提出更加严格有效的条件。

沃尔夫条件们:第一位是Armijo条件(充分下降条件),其中c1属于(0,1),且通常取极小值,如0.0001,10的-4次方.
在这里插入图片描述
上述充分下降条件如图(Figure3)所示,其中的l(alpha)代表不等式右侧的线性函数:
在这里插入图片描述
对于该方法我的理解就是:通过严格迭代函数值条件,来缩小执行域,提高收敛速度(效率)。
第二位是Curvature条件,其中c2属于(c1,1)–c1就是Armijo条件中的常数:在这里插入图片描述
如图(Figure4),当c2=0.9,就是牛顿法或拟牛顿法;当c2=0.1,就是非线性共轭梯度法。
在这里插入图片描述

  • The Wolfe Conditions:沃尔夫条件(两个)
    在这里插入图片描述
  • The Strong Wolfe Conditions:强沃尔夫条件(两个)
    在这里插入图片描述
  • 满足沃尔夫条件的步长如图(Figure 5)所示:
    在这里插入图片描述
  • 因此不难证明,对每一个光滑有下界的函数总有满足沃尔夫条件的步长。(bounded below有下界)

(Goldenstein Conditions占坑)

5.2 线搜索方法的收敛性(Convergence of Line Search Method)
5.3 收敛速度(Rate of Convergence)
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!