一、问题描述 二、第一组公式推导 三、回报公式的定义 四、策略和价值函数 五、第二组公式推导 六、最优策略和最优价值函数 七、第三组公式推导 八、贝尔曼最优方程 九、求解贝尔曼最优方程 对于有限MDP来说,贝尔曼最优方程实际上是一个方程组,每个方程对应一个方程等式。也就是说,如果有n个状态,那么有n个含有n个未知量的方程。 来源:CSDN作者:azago链接:https://blog.csdn.net/cjm083121/article/details/104553028 标签 马尔可夫决策过程 马尔可夫