什么是马尔可夫决策过程
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 关于马尔可夫决策过程的马尔可夫是什么? 马尔可夫是安德烈·马尔科夫(Andrey Markov),他是著名的俄罗斯数学家,以其在随机过程中的工作而闻名。 “马尔可夫”通常意味着在当前状态下,未来和过去是独立的。 建立Markovian系统的关键思想是无记忆。无记忆是系统历史不会影响当前状态的想法。用概率表示法,无记忆性转化为这种情况。考虑一系列动作产生的轨迹,我们正在寻找当前动作将带给我们的位置。长的条件概率可能看起来像: 现在如果系统是Markovian,则历史将全部包含在当前状态中。因此,我们的第一步分配要简单得多。 这一步是改变计算效率的规则。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。 马尔可夫决策过程(MDP) MDP由以下定义: 状态集$s\in S。状态是代理程序所有可能的位置。在下面的示例中,它是机器人位置。 一组动作$a\in A$。动作是代理可以采取的所有可能动作的集合。在下面的示例中,这些动作的下方是{北,东,南,西}。 转换函数T(s,a,s')。T(s,a,s')保持MDP的不确定性。给定当前位置和给定动作,T决定下一个状态出现的频率。在下面的示例中,转换函数可能是下一个状态在80%的时间内处于目前动作方向,而在其他20%的情况下偏离了90度