First Order Methods in Optimization Ch9. Mirror Descent

大兔子大兔子 提交于 2020-03-09 07:26:18

第九章: 镜像下降法


本章讨论镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.

1. 从投影次梯度法到镜像下降法

考虑优化问题(P)min{f(x):xC}.(\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}.我们对其做如下假设:

假设条件1
(i) f:E(,]f:\mathbb{E}\to(-\infty,\infty]是正常闭凸函数;
(ii) CEC\subset\mathbb{E}是非空闭凸集;
(iii) Cint(dom(f))C\subset\mathrm{int}(\mathrm{dom}(f));
(iv) 问题(P)(\mathrm{P})的最优解集非空, 记为XX^*. 最优值记为foptf_{\mathrm{opt}}.

求解问题(P)(\mathrm{P})的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即=,\Vert\cdot\Vert=\sqrt{\langle\cdot,\cdot\rangle}. 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式xk+1=PC(xktkf(xk)),f(xk)f(xk),\mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)),\quad f'(\mathbf{x}^k)\in\partial f(\mathbf{x}^k),其中tkt_k为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: xkE,f(xk)E.\mathbf{x}^k在\mathbb{E}中, 而f'(\mathbf{x}^k)在\mathbb{E}^*中. 当然, 元素上我们可以将E,E\mathbb{E},\mathbb{E}^*视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.

为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式:xk+1=argminxC{f(xk)+f(xk),xxk+12tkxxk2},\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\},等价是因为f(xk)+f(xk),xxk+12tkxxk2=12tkx[xktkf(xk)]2+D,f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2=\frac{1}{2t_k}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)]\Vert^2+D,其中DD是与x\mathbf{x}无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点xk\mathbf{x}^k处的一个线性近似外加一个二次的临近项.

当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离12xy2\frac{1}{2}\Vert\mathbf{x-y}\Vert^2换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).

定义1 (Bregman距离) 设ω:E(,]\omega:\mathbb{E}\to(-\infty,\infty]为一正常闭凸函数, 且在dom(ω)\mathrm{dom}(\partial\omega)上可微. 与ω\omega相关联的Bregman距离是二元函数Bω:dom(ω)×dom(ω)RB_{\omega}:\mathrm{dom}(\omega)\times\mathrm{dom}(\partial\omega)\to\mathbb{R}, 定义为Bω(x,y)=ω(x)ω(y)ω(y),xy.B_{\omega}(\mathbf{x,y})=\omega(\mathbf{x})-\omega(\mathbf{y})-\langle\nabla\omega(\mathbf{y}),\mathbf{x-y}\rangle.

对于给定的集合CC, 我们对ω\omega做如下假设.

假设条件2 (ω\omega的性质)
(i) ω\omega是正常闭凸函数;
(ii) ω\omegadom(ω)\mathrm{dom}(\partial\omega)上可微;
(iii) Cdom(ω)C\subset\mathrm{dom}(\omega);
(iv) ω+δC\omega+\delta_Cσ\sigma-强凸函数(σ>0\sigma>0).

需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为00, 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.

引理1 (Bregman距离的基本性质) 设CEC\subset\mathbb{E}为非空闭凸集, ω\omega满足假设条件2. 设BωB_{\omega}为与ω\omega相关联的Bregman距离. 则
(i) Bω(x,y)σ2xy2,xC,yCdom(ω)B_{\omega}(\mathbf{x,y})\ge\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega);
(ii) 设xC,yCdom(ω)\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega). 则

  • Bω(x,y)0B_{\omega}(\mathbf{x,y})\ge0;
  • Bω(x,y)=0x=yB_{\omega}(\mathbf{x,y})=0\Leftrightarrow\mathbf{x=y}.

证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.

假设xkCdom(ω)\mathbf{x}^k\in C\cap\mathrm{dom}(\partial\omega). 将Proj-SGM等价迭代格式中的12xxk2\frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2替换成Bregman距离Bω(x,xk)B_{\omega}(\mathbf{x},\mathbf{x}^k)就有xk+1=argminxC{f(xk)+f(xk),xxk+1tkBω(x,xk)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.忽略常数项可得xk+1=argminxC{f(xk),x+1tkBω(x,xk)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.进一步注意到f(xk),x+1tkBω(x,xk)=1tk[tkf(xk)ω(xk),x+ω(x)]1tkω(xk)+1tkω(xk),xk.\begin{aligned}&\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\\&=\frac{1}{t_k}\left[\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\right]\underbrace{-\frac{1}{t_k}\omega(\mathbf{x}^k)+\frac{1}{t_k}\langle\nabla\omega(\mathbf{x}^k),\mathbf{x}^k\rangle}_{常数}.\end{aligned}所以, 迭代格式1简化为xk+1=argminxC{tkf(xk)ω(xk),x+ω(x)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\}.于是有MDM:

在这里插入图片描述
MDM的迭代格式需要对某个aE\mathbf{a}\in\mathbb{E}^*, 求解如下形式的子问题minxC{a,x+ω(x)}.\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}.为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在Cdom(ω)C\cap\mathrm{dom}(\partial\omega)中. 为此, 我们给出一个更加一般的引理.

引理2 假设

  • ω:E(,]\omega:\mathbb{E}\to(-\infty,\infty]为正常闭凸函数, 且在dom(ω)\mathrm{dom}(\partial\omega)上可微;
  • ψ:E(,]\psi:\mathbb{E}\to(-\infty,\infty]为正常闭凸函数, 且dom(ψ)dom(ω)\mathrm{dom}(\psi)\subset\mathrm{dom}(\omega)
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!