4.4.H-J-B方程*
在前面,我们所讨论的都是时间离散的MDP。但是,在传统的最优控制问题中,人们更习惯于讨论时间连续的MDP;本书中对“最优控制”的定义是求解环境已知的MDP。不过,一般语境下的最优控制更侧重于研究动作、状态与时间都连续的MDP。我们将用两章来讨论时间为连续变量的最优控制问题,分别讲解基于价值的方法与基于策略的方法。 需要提前声明的是,接下来的两章H-J-B方程与变分原理,由于考虑的是连续时间的问题,分别需要用到偏微分方程与变分法(常微分方程),需要一定的数学基础。如果没有学过有关的课程,会学起来非常吃力。事实上,这两章的内容能为强化学习提供一些思路,但是和后面强化学习的具体算法关系并不大(因为强化学习研究时间是离散的情况)。因此,这两章我们打上星号,作为补充内容。如果读者看着吃力可以直接跳过,这不会影响后面关于强化学习的学习。 不过另一方面,虽然本章的H-J-B方程并一定需要读者掌握,但是本章一定程度上相当于最优控制中基于价值的算法的一个总结。本章第四节总结了所有和价值有关的方程与公式,读者可以直接前往观看。 下面,让我们先来明确我们要讨论的问题是什么: 1、时间连续的最优控制问题 首先,我们的状态与控制函数不再是序列 与 的形式,而是连续函数 与 的形式。其次, 时刻的损失也不再是 的形式,而应该是 的形式,也可以将其简记为 。为了简单起见,我们考虑损失函数时齐的情况,即损失为 或