强化学习-7.策略梯度算法
文章目录 引言 强化学习方法的分类 基于值函数的方法的局限性 策略梯度算法的优缺点 策略模型的建模方式 策略梯度算法 策略梯度目标函数 策略梯度的推导 弥补策略梯度的缺陷 引入基线 修改回报值函数 Actor-Critic MC 策略梯度 (REINFORCE) 使用 Critic 函数减小方差 使用优势函数减小误差 使用 TD 误差替代优势函数 策略梯度多种形式的总结 A2C 算法 引言 强化学习方法的分类 强化学习方法可以分为:基于值函数的方法、基于策略的方法和Actor-Critic。 基于值函数的方法: 用 值函数 进行策略评价+策略优化,用值函数导出策略 基于策略的方法: 直接学习 策略 Actor-Critic: 学习 值函数 + 策略 之前的强化学习方法都是基于值函数的方法,在值函数近似中,我们使用带参数w的函数去近似值函数,如下: 在基于值函数的方法中,策略是从值函数中导出的 使用贪婪的方法导出 最优策略 (最终收敛得到的策略) 使用 ϵ \epsilon ϵ -贪婪方法导出 行为策略 (智能体真正做的策略) 而基于策略的方法,直接将策略进行参数化。 基于值函数的方法的局限性 针对确定性策略 存在策略退化: 收敛后,若存在误差,则很容易因为微小的值函数差,发生策略退化现象 难以处理高维度的状态/动作空间 不能处理连续的状态/动作空间 收敛速度慢: 反复进行策略迭代