文章目录 一、课程内容 二、什么是深度强化学习 三、真实世界中的决策需要解决什么问题 四、应该如何构建一个智能体 参考资料 一、课程内容 从监督学习到决策 强化学习中的无模型算法: Q-Learning , Policy Gradients , Actor Critic 高级模型学习与预测 迁移学习,多任务学习,元学习 开放性问题研究与探索 二、什么是深度强化学习 强化学习拥有一个 学习者(Agent) , 其处在一个 环境 中,其对环境状态有一个 观测 ,据此其做出 决策(行动) ,决策会改变环境状态,环境会反馈给Agent 奖励 。强化学习即用数学建模了这一过程,使得Agent能够做出最优决策。 深度学习 提供了一种处理非结构数据的方法,也就能够更好地从环境中提取特征。 两者结合,我们便能够实现能够更加灵活处理现实环境并进行决策的Agent。个人认为,强化学习核心是 决策 ,而 深度学习 为其提供了一种特征提取的方法,使得Agent能够更加灵活地对现实做出反应。 三、真实世界中的决策需要解决什么问题 传统强化学习是希望最大化奖励,但是这不是仅仅重要的。这里仍然有一些高级的主题 学习奖励函数(逆强化学习) 在不同领域中迁移知识(迁移学习、元学习)。 学习如何预测并根据预测行动。 四、应该如何构建一个智能体 方案一:硬编码实现各个 部位 (如脑)的功能。 困难 方案二: