https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B 在 概率论 和 统计学 中, 马尔可夫决策过程 (英语:Markov Decision Processes,缩写为 MDPs)提供了一个数学架构模型,用于面对部分随机,部分可由决策者控制的状态下,如何进行 决策 ,以俄罗斯数学家 安德雷·马尔可夫 的名字命名。 在经由 动态规划 与 强化学习 以解决 最优化问题 的研究领域中,马尔可夫决策过程是一个有用的工具。 马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程,并(从数学上)体现出 马尔可夫性质 ,以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是,使用具有马尔可夫性质这个假设来建立模型。在建模领域,具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时,当分支增多时,允许相关性下降的少有几种简单的方式。 来源: CSDN 作者: born-in-freedom 链接: https://blog.csdn.net/bornfree5511/article/details/103814828