First Order Methods in Optimization Ch9. Mirror Descent

独自空忆成欢 提交于 2020-03-07 05:44:10

第九章: 镜像下降法


本章讨论镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.

1. 从投影次梯度法到镜像下降法

考虑优化问题(P)min{f(x):xC}.(\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}.我们对其做如下假设:

假设条件1
(i) f:E(,]f:\mathbb{E}\to(-\infty,\infty]是正常闭凸函数;
(ii) CEC\subset\mathbb{E}是非空闭凸集;
(iii) Cint(dom(f))C\subset\mathrm{int}(\mathrm{dom}(f));
(iv) 问题(P)(\mathrm{P})的最优解集非空, 记为XX^*. 最优值记为foptf_{\mathrm{opt}}.

求解问题(P)(\mathrm{P})的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即=,\Vert\cdot\Vert=\sqrt{\langle\cdot,\cdot\rangle}. 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式xk+1=PC(xktkf(xk)),f(xk)f(xk),\mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)),\quad f'(\mathbf{x}^k)\in\partial f(\mathbf{x}^k),其中tkt_k为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: xkE,f(xk)E.\mathbf{x}^k在\mathbb{E}中, 而f'(\mathbf{x}^k)在\mathbb{E}^*中. 当然, 元素上我们可以将E,E\mathbb{E},\mathbb{E}^*视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.

为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式:xk+1=argminxC{f(xk)+f(xk),xxk+12tkxxk2},\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\},等价是因为f(xk)+f(xk),xxk+12tkxxk2=12tkx[xktkf(xk)]2+D,f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2=\frac{1}{2t_k}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)]\Vert^2+D,其中DD是与x\mathbf{x}无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点xk\mathbf{x}^k处的一个线性近似外加一个二次的临近项.

当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离12xy2\frac{1}{2}\Vert\mathbf{x-y}\Vert^2换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).

定义1 (Bregman距离) 设ω:E(,]\omega:\mathbb{E}\to(-\infty,\infty]为一正常闭凸函数, 且在dom(ω)\mathrm{dom}(\partial\omega)上可微. 与ω\omega相关联的Bregman距离是二元函数Bω:dom(ω)×dom(ω)RB_{\omega}:\mathrm{dom}(\omega)\times\mathrm{dom}(\partial\omega)\to\mathbb{R}, 定义为Bω(x,y)=ω(x)ω(y)ω(y),xy.B_{\omega}(\mathbf{x,y})=\omega(\mathbf{x})-\omega(\mathbf{y})-\langle\nabla\omega(\mathbf{y}),\mathbf{x-y}\rangle.

对于给定的集合CC, 我们对ω\omega做如下假设.

假设条件2 (ω\omega的性质)
(i) ω\omega是正常闭凸函数;
(ii) ω\omegadom(ω)\mathrm{dom}(\partial\omega)上可微;
(iii) Cdom(ω)C\subset\mathrm{dom}(\omega);
(iv) ω+δC\omega+\delta_Cσ\sigma-强凸函数(σ>0\sigma>0).

需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为00, 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.

引理1 (Bregman距离的基本性质) 设CEC\subset\mathbb{E}为非空闭凸集, ω\omega满足假设条件2. 设BωB_{\omega}为与ω\omega相关联的Bregman距离. 则
(i) Bω(x,y)σ2xy2,xC,yCdom(ω)B_{\omega}(\mathbf{x,y})\ge\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega);
(ii) 设xC,yCdom(ω)\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega). 则

  • Bω(x,y)0B_{\omega}(\mathbf{x,y})\ge0;
  • Bω(x,y)=0x=yB_{\omega}(\mathbf{x,y})=0\Leftrightarrow\mathbf{x=y}.

证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.

假设xkCdom(ω)\mathbf{x}^k\in C\cap\mathrm{dom}(\partial\omega). 将Proj-SGM等价迭代格式中的12xxk2\frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2替换成Bregman距离Bω(x,xk)B_{\omega}(\mathbf{x},\mathbf{x}^k)就有xk+1=argminxC{f(xk)+f(xk),xxk+1tkBω(x,xk)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.忽略常数项可得xk+1=argminxC{f(xk),x+1tkBω(x,xk)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.进一步注意到f(xk),x+1tkBω(x,xk)=1tk[tkf(xk)ω(xk),x+ω(x)]1tkω(xk)+1tkω(xk),xk.\begin{aligned}&\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\\&=\frac{1}{t_k}\left[\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\right]\underbrace{-\frac{1}{t_k}\omega(\mathbf{x}^k)+\frac{1}{t_k}\langle\nabla\omega(\mathbf{x}^k),\mathbf{x}^k\rangle}_{常数}.\end{aligned}所以, 迭代格式1简化为xk+1=argminxC{tkf(xk)ω(xk),x+ω(x)}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\}.于是有MDM:

在这里插入图片描述
MDM的迭代格式需要对某个aE\mathbf{a}\in\mathbb{E}^*, 求解如下形式的子问题minxC{a,x+ω(x)}.\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}.为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在Cdom(ω)C\cap\mathrm{dom}(\partial\omega)中. 为此, 我们给出一个更加一般的引理.

引理2 假设

  • ω:E(,]\omega:\mathbb{E}\to(-\infty,\infty]为正常闭凸函数, 且在dom(ω)\mathrm{dom}(\partial\omega)上可微;
  • ψ:E(,]\psi:\mathbb{E}\to(-\infty,\infty]为正常闭凸函数, 且dom(ψ)dom(ω)\mathrm{dom}(\psi)\subset\mathrm{dom}(\omega);
  • ω+δdom(ψ)\omega+\delta_{\mathrm{dom}(\psi)}σ\sigma-强凸函数(σ>0)(\sigma>0).

则问题minxE{ψ(x)+ω(x)}\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+\omega(\mathbf{x})\}的极小点唯一取在dom(ψ)dom(ω)\mathrm{dom}(\psi)\cap\mathrm{dom}(\partial\omega)中.

证明: 问题可写作minxEφ(x),\min_{\mathbf{x}\in\mathbb{E}}\varphi(\mathbf{x}),其中φ=ψ+ω\varphi=\psi+\omega. 易知φ\varphi是正常闭函数. 由于ω+δdom(ψ)\omega+\delta_{\mathrm{dom}(\psi)}σ\sigma-强凸函数, ψ\psi是凸函数, 所以ψ+ω+δdom(ψ)=ψ+ω=φ\psi+\omega+\delta_{\mathrm{dom}(\psi)}=\psi+\omega=\varphiσ\sigma-强凸函数. 根据第五章定理7(i), 问题有唯一极小点xdom(φ)=dom(ψ)\mathbf{x}^*\in\mathrm{dom}(\varphi)=\mathrm{dom}(\psi). 为证明xdom(ω)\mathbf{x}^*\in\mathrm{dom}(\partial\omega), 注意由Fermat最优性条件, 0φ(x)φ(x)\mathbf{0}\in\partial\varphi(\mathbf{x}^*)\Rightarrow\partial\varphi(\mathbf{x}^*)\ne\emptyset. 而由次微分的加法法则(第三章定理15), φ(x)=ψ(x)+ω(x)\partial\varphi(\mathbf{x}^*)=\partial\psi(\mathbf{x}^*)+\partial\omega(\mathbf{x}^*). 所以必然有ω(x)xdom(ω)\partial\omega(\mathbf{x}^*)\ne\emptyset\Rightarrow\mathbf{x}^*\in\mathrm{dom}(\partial\omega).

定理1 (MDM的良定性) 假定假设条件1、2成立. 设aE\mathbf{a}\in\mathbb{E}^*. 则问题minxC{a,x+ω(x)}\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}的唯一极小点取在Cdom(ω)C\cap\mathrm{dom}(\partial\omega).

证明: 直接利用引理2, 其中ψ(x)=a,x+δC(x)\psi(\mathbf{x})\equiv=\langle\mathbf{a,x}\rangle+\delta_C(\mathbf{x}).

我们列举两个比较常见的强凸函数的选取方式.

例1 (欧式范数平方) 假定假设条件1成立, E\mathbb{E}是欧式空间. 定义ω(x)=12x2.\omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2.ω\omega显然满足假设条件2中的条件, 并且它是11-强凸函数. 由于ω(x)=x\nabla\omega(\mathbf{x})=\mathbf{x}, 于是MDM迭代格式变成xk+1=argminxC{tkf(xk)xk,x+12x2}.\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle t_kf'(\mathbf{x}^k)-\mathbf{x}^k,\mathbf{x}\rangle+\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}.配方后易知, 这就是Proj-SGM迭代格式xk+1=PC(xktkf(xk))\mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). 这再次说明了MDM是Proj-SGM的推广.

例2 (单位单纯形上的负熵函数) 假定假设条件1成立, E=Rn\mathbb{E}=\mathbb{R}^n, 范数为1\ell_1-范数, C=ΔnC=\Delta_n. 我们取ω\omega为非负象限上的负熵函数:ω(x)={i=1nxilogxi,xR+n,,.\omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\mathbb{R}_+^n,\\\infty, & 其它.\end{array}\right.根据第五章例10, ω+δΔn\omega+\delta_{\Delta_n}1\ell_1-范数下的11-强凸函数. 此时dom(ω)=R++n\mathrm{dom}(\partial\omega)=\mathbb{R}_{++}^n, 并且事实上, ω\omega在其次可微点处就是可微的. 因此假设条件2成立. 对xΔn,yΔn+{xR++n:eTx=1}\forall\mathbf{x}\in\Delta_n,\,\mathbf{y}\in\Delta_n^+\equiv\{\mathbf{x}\in\mathbb{R}_{++}^n:\mathbf{e}^T\mathbf{x}=1\}, 与ω\omega关联的Bregman距离为Bω(x,y)=i=1nxilogxii=1nyilogyii=1n(log(yi)+1)(xiyi)=i=1nxilog(xi/yi)+i=1nyii=1nxi=i=1nxilog(xi/yi),\begin{aligned}B_{\omega}(\mathbf{x,y})&=\sum_{i=1}^nx_i\log x_i-\sum_{i=1}^ny_i\log y_i-\sum_{i=1}^n(\log(y_i)+1)(x_i-y_i)\\&=\sum_{i=1}^nx_i\log(x_i/y_i)+\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\\&=\sum_{i=1}^nx_i\log(x_i/y_i),\end{aligned}

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!