编者按
作为动态规划和强化学习中的一类算法,本文谈谈需要结合非凸优化,随机分析等领域来进行设计和分析的policy gradient算法的一些基本性质和分析方法。
Policy gradient其实是个很有意思的研究领域(2020年来说)。它联系了非凸优化,随机分析,强化学习等多个不同的子领域,我现在的感觉是还有很多"坑"是可以做的(理论&应用)。
文章作者:覃含章
责任编辑:曾宇
文章发表于 微信公众号【运筹OR帷幄】: 优化 | Policy Gradient 浅释
欢迎原链接转发,转载请私信 @运筹OR帷幄 获取信息,盗版必究。
敬请关注和扩散本专栏及同名公众号,会邀请 全球知名学者发布运筹学、人工智能中优化理论等相关干货、 知乎Live及行业动态
更多精彩文章,欢迎访问我们的机构号: @运筹OR帷幄
引言
梯度上升法
更多分析
当然如果只是用上一节的分析那就有点索然无味了,次线性时间可以收敛到一个驻点,这是优化小学生都知道的事实,也无法解释为什么policy gradient在很多复杂的强化学习问题中可以有非常好的效果。而这方面其实就跟深度学习为什么那么牛一样的问题,最近呢理论界也得到了比较类似的结果:和深度学习模型近些年的一些理论结果类似;学者们最近发现policy gradient的优化问题(*)其实很多时候虽然非凸;但其实不存在一个很差的局部最优(bad local minima),因此policy gradient的全局收敛性方法也是可以得到保证的!
为了说明这些很新的理论成果,我们再介绍一些nonations。
最后再提一个最近的有意思的工作:[2]直接讨论了优化问题(*)什么时候不存在bad local minima,任何局部最优都是(近似)全局最优。很有意思的是,很多有结构性质的传统控制问题都是这样的,比如Linear Quadratic Control的linear policies,Optimal Stopping问题里的threshold policies和Inventory Control里的base-stock policy。非常有意思!
参考文献
1.^Agarwal, Alekh, et al. "Optimality and approximation with policy gradient methods in markov decision processes." arXiv preprint arXiv:1908.00261 (2019).
2.^Bhandari, Jalaj, and Daniel Russo. "Global optimality guarantees for policy gradient methods." arXiv preprint arXiv:1906.01786 (2019).
更多精彩文章欢迎关注我们的机构号@运筹OR帷幄
来源:oschina
链接:https://my.oschina.net/u/4274413/blog/4268334