作者|Nathan Lambert 编译|VK 来源|Towards Data Science 研究价值迭代和策略迭代。 本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,它直接导致Q-Learning。 你可以阅读我之前的一些文章(有意独立): 什么是马尔可夫决策过程?( https://towardsdatascience.com/what-is-a-markov-decision-process-anyways-bdab65fd310c ) 强化学习的线性代数( https://towardsdatascience.com/the-hidden-linear-algebra-of-reinforcement-learning-406efdf066a ) Q-Learning开启了我们所处的深度强化学习的浪潮,是强化学习学生学习策略的重要一环。 回顾马尔可夫决策过程 马尔可夫决策过程(MDPs)是支持强化学习(RL)的随机模型。如果你熟悉,你可以跳过这一部分,不过我增加了一些相关的解释。 定义 状态集$s\in S,动作集$a\in A$。状态和动作是代理程序所有可能的位置和动作的集合。在 高级强化学习 中,状态和动作是连续,所以这需要重新考虑我们的算法。 转换函数T