第九章: 镜像下降法

文章目录

第九章: 镜像下降法

1. 从投影次梯度法到镜像下降法
2. 收敛性分析

2.1 分析工具
2.2 固定迭代数目的步长选取准则
2.3 变步长准则

3. 求解组合模型的镜像下降法——镜像-C算法

本章讨论镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.

1. 从投影次梯度法到镜像下降法

考虑优化问题 $(\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}.$ 我们对其做如下假设:

假设条件1
(i) $f:\mathbb{E}\to(-\infty,\infty]$ 是正常闭凸函数;
(ii) $C\subset\mathbb{E}$ 是非空闭凸集;
(iii) $C\subset\mathrm{int}(\mathrm{dom}(f))$ ;
(iv) 问题 $(\mathrm{P})$ 的最优解集非空, 记为 $X^*$ . 最优值记为 $f_{\mathrm{opt}}$ .

求解问题 $(\mathrm{P})$ 的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即 $\Vert\cdot\Vert=\sqrt{\langle\cdot,\cdot\rangle}$ . 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式 $\mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)),\quad f'(\mathbf{x}^k)\in\partial f(\mathbf{x}^k),$ 其中 $t_k$ 为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: $\mathbf{x}^k在\mathbb{E}中, 而f'(\mathbf{x}^k)在\mathbb{E}^*中.$ 当然, 元素上我们可以将 $\mathbb{E},\mathbb{E}^*$ 视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.

为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式: $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\},$ 等价是因为 $f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2=\frac{1}{2t_k}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)]\Vert^2+D,$ 其中 $D$ 是与 $\mathbf{x}$ 无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点 $\mathbf{x}^k$ 处的一个线性近似外加一个二次的临近项.

当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离 $\frac{1}{2}\Vert\mathbf{x-y}\Vert^2$ 换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).

定义1 (Bregman距离) 设 $\omega:\mathbb{E}\to(-\infty,\infty]$ 为一正常闭凸函数, 且在 $\mathrm{dom}(\partial\omega)$ 上可微. 与 $\omega$ 相关联的Bregman距离是二元函数 $B_{\omega}:\mathrm{dom}(\omega)\times\mathrm{dom}(\partial\omega)\to\mathbb{R}$ , 定义为 $B_{\omega}(\mathbf{x,y})=\omega(\mathbf{x})-\omega(\mathbf{y})-\langle\nabla\omega(\mathbf{y}),\mathbf{x-y}\rangle.$

对于给定的集合 $C$ , 我们对 $\omega$ 做如下假设.

假设条件2 ( $\omega$ 的性质)
(i) $\omega$ 是正常闭凸函数;
(ii) $\omega$ 在 $\mathrm{dom}(\partial\omega)$ 上可微;
(iii) $C\subset\mathrm{dom}(\omega)$ ;
(iv) $\omega+\delta_C$ 是 $\sigma$ -强凸函数( $\sigma>0$ ).

需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为 $0$ , 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.

引理1 (Bregman距离的基本性质) 设 $C\subset\mathbb{E}$ 为非空闭凸集, $\omega$ 满足假设条件2. 设 $B_{\omega}$ 为与 $\omega$ 相关联的Bregman距离. 则
(i) $B_{\omega}(\mathbf{x,y})\ge\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega)$ ;
(ii) 设 $\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega)$ . 则

$B_{\omega}(\mathbf{x,y})\ge0$ ;
$B_{\omega}(\mathbf{x,y})=0\Leftrightarrow\mathbf{x=y}$ .

证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.

假设 $\mathbf{x}^k\in C\cap\mathrm{dom}(\partial\omega)$ . 将Proj-SGM等价迭代格式中的 $\frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2$ 替换成Bregman距离 $B_{\omega}(\mathbf{x},\mathbf{x}^k)$ 就有 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.$ 忽略常数项可得 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}.$ 进一步注意到 $\begin{aligned}&\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\\&=\frac{1}{t_k}\left[\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\right]\underbrace{-\frac{1}{t_k}\omega(\mathbf{x}^k)+\frac{1}{t_k}\langle\nabla\omega(\mathbf{x}^k),\mathbf{x}^k\rangle}_{常数}.\end{aligned}$ 所以, 迭代格式¹简化为 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\}.$ 于是有MDM:

在这里插入图片描述
MDM的迭代格式需要对某个 $\mathbf{a}\in\mathbb{E}^*$ , 求解如下形式的子问题 $\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}.$ 为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在 $C\cap\mathrm{dom}(\partial\omega)$ 中. 为此, 我们给出一个更加一般的引理.

引理2 假设

$\omega:\mathbb{E}\to(-\infty,\infty]$ 为正常闭凸函数, 且在 $\mathrm{dom}(\partial\omega)$ 上可微;
$\psi:\mathbb{E}\to(-\infty,\infty]$ 为正常闭凸函数, 且 $\mathrm{dom}(\psi)\subset\mathrm{dom}(\omega)$ ;
$\omega+\delta_{\mathrm{dom}(\psi)}$ 是 $\sigma$ -强凸函数 $(\sigma>0)$ .

则问题 $\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+\omega(\mathbf{x})\}$ 的极小点唯一取在 $\mathrm{dom}(\psi)\cap\mathrm{dom}(\partial\omega)$ 中.

证明: 问题可写作 $\min_{\mathbf{x}\in\mathbb{E}}\varphi(\mathbf{x}),$ 其中 $\varphi=\psi+\omega$ . 易知 $\varphi$ 是正常闭函数. 由于 $\omega+\delta_{\mathrm{dom}(\psi)}$ 是 $\sigma$ -强凸函数, $\psi$ 是凸函数, 所以 $\psi+\omega+\delta_{\mathrm{dom}(\psi)}=\psi+\omega=\varphi$ 是 $\sigma$ -强凸函数. 根据第五章定理7(i), 问题有唯一极小点 $\mathbf{x}^*\in\mathrm{dom}(\varphi)=\mathrm{dom}(\psi)$ . 为证明 $\mathbf{x}^*\in\mathrm{dom}(\partial\omega)$ , 注意由Fermat最优性条件, $\mathbf{0}\in\partial\varphi(\mathbf{x}^*)\Rightarrow\partial\varphi(\mathbf{x}^*)\ne\emptyset$ . 而由次微分的加法法则(第三章定理15), $\partial\varphi(\mathbf{x}^*)=\partial\psi(\mathbf{x}^*)+\partial\omega(\mathbf{x}^*)$ . 所以必然有 $\partial\omega(\mathbf{x}^*)\ne\emptyset\Rightarrow\mathbf{x}^*\in\mathrm{dom}(\partial\omega)$ .

定理1 (MDM的良定性) 假定假设条件1、2成立. 设 $\mathbf{a}\in\mathbb{E}^*$ . 则问题 $\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}$ 的唯一极小点取在 $C\cap\mathrm{dom}(\partial\omega)$ .

证明: 直接利用引理2, 其中 $\psi(\mathbf{x})\equiv=\langle\mathbf{a,x}\rangle+\delta_C(\mathbf{x})$ .

我们列举两个比较常见的强凸函数的选取方式.

例1 (欧式范数平方) 假定假设条件1成立, $\mathbb{E}$ 是欧式空间. 定义 $\omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2.$ 则 $\omega$ 显然满足假设条件2中的条件, 并且它是 $1$ -强凸函数. 由于 $\nabla\omega(\mathbf{x})=\mathbf{x}$ , 于是MDM迭代格式变成 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle t_kf'(\mathbf{x}^k)-\mathbf{x}^k,\mathbf{x}\rangle+\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}.$ 配方后易知, 这就是Proj-SGM迭代格式 $\mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k))$ . 这再次说明了MDM是Proj-SGM的推广.

例2 (单位单纯形上的负熵函数) 假定假设条件1成立, $\mathbb{E}=\mathbb{R}^n$ , 范数为 $\ell_1$ -范数, $C=\Delta_n$ . 我们取 $\omega$ 为非负象限上的负熵函数: $\omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\mathbb{R}_+^n,\\\infty, & 其它.\end{array}\right.$ 根据第五章例10, $\omega+\delta_{\Delta_n}$ 是 $\ell_1$ -范数下的 $1$ -强凸函数. 此时 $\mathrm{dom}(\partial\omega)=\mathbb{R}_{++}^n$ , 并且事实上, $\omega$ 在其次可微点处就是可微的. 因此假设条件2成立. 对 $\forall\mathbf{x}\in\Delta_n,\,\mathbf{y}\in\Delta_n^+\equiv\{\mathbf{x}\in\mathbb{R}_{++}^n:\mathbf{e}^T\mathbf{x}=1\}$ , 与 $\omega$ 关联的Bregman距离为 $\begin{aligned}B_{\omega}(\mathbf{x,y})&=\sum_{i=1}^nx_i\log x_i-\sum_{i=1}^ny_i\log y_i-\sum_{i=1}^n(\log(y_i)+1)(x_i-y_i)\\&=\sum_{i=1}^nx_i\log(x_i/y_i)+\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\\&=\sum_{i=1}^nx_i\log(x_i/y_i),\end{aligned}$

标签

凸函数

psi

First Order Methods in Optimization Ch9. Mirror Descent

第九章: 镜像下降法

文章目录

1. 从投影次梯度法到镜像下降法