Markov Reward Processes 任何部分可观测问题都可以转化为马尔可夫过程 MDP化 Markov Property 状态转移概率 -> 矩阵 告诉我们在当前状态下,有多大概率到达哪个state a tuple(S,P) non-stationary MDP 不稳定的动态过程 如概率变化 Reward a tuple (S, P, R, γ) return G 强化学习的目标 γ:折扣因子 所有的returns都是有限的 value function v(s) -> 长期的reward 期望值 Bellman方程 矩阵表示: v = R + γPv (P为状态转移概率矩阵) -> 线性方程 可求解v Action空间 a tuple (S, A, P, R, γ) A:有限action的集合 policy:完全定义agent的行为 -> 决策概率 vs 环境的状态转移概率 v_Π(s):基于当前policy下的value function 在s状态下的一个action可能到达s1,也可能到达s2 离开一个state时,采取不同的action可能得到不同的reward “你采取一个action,环境就给你掷一个骰子,告诉你在哪个state结束” Best policy v_*(s) = max_Π v_Π(s) v_Π(s) 是在policy下 各个action对应的