第九章: 镜像下降法
本章讨论
镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是
Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.
1. 从投影次梯度法到镜像下降法
考虑优化问题(P)min{f(x):x∈C}.我们对其做如下假设:
假设条件1
(i) f:E→(−∞,∞]是正常闭凸函数;
(ii) C⊂E是非空闭凸集;
(iii) C⊂int(dom(f));
(iv) 问题(P)的最优解集非空, 记为X∗. 最优值记为fopt.
求解问题(P)的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即∥⋅∥=⟨⋅,⋅⟩. 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式xk+1=PC(xk−tkf′(xk)),f′(xk)∈∂f(xk),其中tk为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: xk在E中,而f′(xk)在E∗中. 当然, 元素上我们可以将E,E∗视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.
为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式:xk+1=argx∈Cmin{f(xk)+⟨f′(xk),x−xk⟩+2tk1∥x−xk∥2},等价是因为f(xk)+⟨f′(xk),x−xk⟩+2tk1∥x−xk∥2=2tk1∥x−[xk−tkf′(xk)]∥2+D,其中D是与x无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点xk处的一个线性近似外加一个二次的临近项.
当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离21∥x−y∥2换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).
定义1 (Bregman距离) 设ω:E→(−∞,∞]为一正常闭凸函数, 且在dom(∂ω)上可微. 与ω相关联的Bregman距离是二元函数Bω:dom(ω)×dom(∂ω)→R, 定义为Bω(x,y)=ω(x)−ω(y)−⟨∇ω(y),x−y⟩.
对于给定的集合C, 我们对ω做如下假设.
假设条件2 (ω的性质)
(i) ω是正常闭凸函数;
(ii) ω在dom(∂ω)上可微;
(iii) C⊂dom(ω);
(iv) ω+δC是σ-强凸函数(σ>0).
需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为0, 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.
引理1 (Bregman距离的基本性质) 设C⊂E为非空闭凸集, ω满足假设条件2. 设Bω为与ω相关联的Bregman距离. 则
(i) Bω(x,y)≥2σ∥x−y∥2,∀x∈C,y∈C∩dom(∂ω);
(ii) 设x∈C,y∈C∩dom(∂ω). 则
- Bω(x,y)≥0;
- Bω(x,y)=0⇔x=y.
证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.
假设xk∈C∩dom(∂ω). 将Proj-SGM等价迭代格式中的21∥x−xk∥2替换成Bregman距离Bω(x,xk)就有xk+1=argx∈Cmin{f(xk)+⟨f′(xk),x−xk⟩+tk1Bω(x,xk)}.忽略常数项可得xk+1=argx∈Cmin{⟨f′(xk),x⟩+tk1Bω(x,xk)}.进一步注意到⟨f′(xk),x⟩+tk1Bω(x,xk)=tk1[⟨tkf′(xk)−∇ω(xk),x⟩+ω(x)]常数−tk1ω(xk)+tk1⟨∇ω(xk),xk⟩.所以, 迭代格式简化为xk+1=argx∈Cmin{⟨tkf′(xk)−∇ω(xk),x⟩+ω(x)}.于是有MDM:
MDM的迭代格式需要对某个a∈E∗, 求解如下形式的子问题x∈Cmin{⟨a,x⟩+ω(x)}.为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在C∩dom(∂ω)中. 为此, 我们给出一个更加一般的引理.
引理2 假设
- ω:E→(−∞,∞]为正常闭凸函数, 且在dom(∂ω)上可微;
- ψ:E→(−∞,∞]为正常闭凸函数, 且dom(ψ)⊂dom(ω);
- ω+δdom(ψ)是σ-强凸函数(σ>0).
则问题x∈Emin{ψ(x)+ω(x)}的极小点唯一取在dom(ψ)∩dom(∂ω)中.
证明: 问题可写作x∈Eminφ(x),其中φ=ψ+ω. 易知φ是正常闭函数. 由于ω+δdom(ψ)是σ-强凸函数, ψ是凸函数, 所以ψ+ω+δdom(ψ)=ψ+ω=φ是σ-强凸函数. 根据第五章定理7(i), 问题有唯一极小点x∗∈dom(φ)=dom(ψ). 为证明x∗∈dom(∂ω), 注意由Fermat最优性条件, 0∈∂φ(x∗)⇒∂φ(x∗)=∅. 而由次微分的加法法则(第三章定理15), ∂φ(x∗)=∂ψ(x∗)+∂ω(x∗). 所以必然有∂ω(x∗)=∅⇒x∗∈dom(∂ω).
定理1 (MDM的良定性) 假定假设条件1、2成立. 设a∈E∗. 则问题x∈Cmin{⟨a,x⟩+ω(x)}的唯一极小点取在C∩dom(∂ω).
证明: 直接利用引理2, 其中ψ(x)≡=⟨a,x⟩+δC(x).
我们列举两个比较常见的强凸函数的选取方式.
例1 (欧式范数平方) 假定假设条件1成立, E是欧式空间. 定义ω(x)=21∥x∥2.则ω显然满足假设条件2中的条件, 并且它是1-强凸函数. 由于∇ω(x)=x, 于是MDM迭代格式变成xk+1=argx∈Cmin{⟨tkf′(xk)−xk,x⟩+21∥x∥2}.配方后易知, 这就是Proj-SGM迭代格式xk+1=PC(xk−tkf′(xk)). 这再次说明了MDM是Proj-SGM的推广.
例2 (单位单纯形上的负熵函数) 假定假设条件1成立, E=Rn, 范数为ℓ1-范数, C=Δn. 我们取ω为非负象限上的负熵函数:ω(x)={∑i=1nxilogxi,∞,x∈R+n,其它.根据第五章例10, ω+δΔn是ℓ1-范数下的1-强凸函数. 此时dom(∂ω)=R++n, 并且事实上, ω在其次可微点处就是可微的. 因此假设条件2成立. 对∀x∈Δn,y∈Δn+≡{x∈R++n:eTx=1}, 与ω关联的Bregman距离为