有限马尔可夫决策过程的公式推导

允我心安 提交于 2020-03-01 07:43:05

一、问题描述

在这里插入图片描述

二、第一组公式推导

在这里插入图片描述

三、回报公式的定义

在这里插入图片描述

四、策略和价值函数

在这里插入图片描述

五、第二组公式推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六、最优策略和最优价值函数

在这里插入图片描述

七、第三组公式推导

在这里插入图片描述

八、贝尔曼最优方程

在这里插入图片描述

九、求解贝尔曼最优方程

对于有限MDP来说,贝尔曼最优方程实际上是一个方程组,每个方程对应一个方程等式。也就是说,如果有n个状态,那么有n个含有n个未知量的方程。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!