OpenAI Gym

Training batch reinforcement learning policies with Amazon SageMaker RL

折月煮酒 提交于 2020-11-09 08:28:47
https://amazonaws-china.com/blogs/machine-learning/training-batch-reinforcement-learning-policies-with-amazon-sagemaker-rl/ Amazon SageMaker is a fully managed service that enables developers and data scientists to quickly and easily build, train, and deploy machine learning (ML) models at any scale. In addition to building ML models using more commonly used supervised and unsupervised learning techniques, you can also build reinforcement learning (RL) models using Amazon SageMaker RL. Amazon SageMaker RL includes pre-built RL libraries and algorithms that make it easy to get started with

TensorFlow 深度学习中文第二版·翻译完成

感情迁移 提交于 2020-08-20 06:40:21
原文: Deep Learning with TensorFlow Second Edition 协议: CC BY-NC-SA 4.0 不要担心自己的形象,只关心如何实现目标。——《原则》,生活原则 2.3.c 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 TensorFlow 深度学习中文第二版 一、人工神经网络 二、TensorFlow v1.6 的新功能是什么? 三、实现前馈神经网络 四、CNN 实战 五、使用 TensorFlow 实现自编码器 六、RNN 和梯度消失或爆炸问题 七、TensorFlow GPU 配置 八、TFLearn 九、使用协同过滤的电影推荐 十、OpenAI Gym 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科) 联系方式 负责人 飞龙 : 562826179 其他 在我们的 apachecn/apachecn-tf-zh github 上提 issue. 发邮件到 Email: apachecn@163.com . 在我们的 组织学习交流群 中联系群主

如何运用深度强化学习,让机器人运动更灵活智能?

ⅰ亾dé卋堺 提交于 2020-08-16 19:06:24
对大脑的工作领域,我们知之甚少,但是我们知道的是,大脑能够通过反复尝试来学习知识。当我们做了合适的选择时,大脑就会给我们奖励,但当我们做了错误的抉择时,大脑就会惩罚我们。 如果我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。 强化学习是机器学习中的一个领域,其最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展,最终经Bellman之手将其抽象为 马尔可夫决策过程 (Markov Decision Process,MDP)。 DeepMind DQN 强化学习的经典应用案例有: 非线性二级摆系统(非线性控制问题)、棋类游戏、机器人学习站立和走路、无人驾驶、机器翻译、人机对话 等。 不过,强化学习比较快的入门方法是交互式的: 先阅读基础知识,掌握强化学习的发展脉络和整体框架概念; 尝试运行与实现基础算法,上手写代码,做出视觉demo; 然后再进一步系统地学习强化学习,包含基础理论及解法等。 那么,如何才能入门强化学习?如何掌握其框架和算法理论?别急,今天,给大家推荐一份由 开课吧 提供赞助, 《强化学习资料包——从入门到进阶》 。包含了 入门篇 和 进阶篇 两大部分内容。非常适合想深耕强化学习(RL)的同学。本号主为大家争取到了免费名额 (前200还可以获得8份独家人工智能知识图谱哦) 。 目前, 2000+ 看过这个资料的同学

机器学习工程师

时光怂恿深爱的人放手 提交于 2020-05-08 04:45:25
四、动态规划 1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。) 2.迭代方法求状态值函数 迭代方法先对每个状态的值进行初始猜测。尤其是,我们先假设每个状态的值为 0。然后,循环访问状态空间并通过应用连续的更新方程修改状态值函数的估算结果。 3.动作值 思考下 q π ​(s 1​ ,right) 这个示例。这个动作值的计算方式如下所示: q π ​(s 1 ​,right)=−1+v π ​(s 2 ​)=−1+2=1, 我们可以将状态动作对的值 s 1 ​,right 表示为以下两个量的和:(1)向右移动并进入状态 s 2 ​ 的即时奖励,以及 (2) 智能体从状态 s 2 ​ 开始并遵守该策略获得的累积奖励。 4.对于更加复杂的环境 在这个简单的网格世界示例中,环境是确定性环境。换句话说,智能体选择某个动作后,下个状态和奖励可以 100% 确定不是随机的。对于确定性环境,所有的s′,r,s,a 为 p(s′,r∣s,a)∈{0,1}。 在这种情况下,当智能体处在状态 s 并采取动作 a 时,下个状态 s′ 和奖励 r 可以确切地预测,我们必须确保 q π ​(s,a)=r+γv π ​(s′)。 通常

机器学习工程师

无人久伴 提交于 2020-05-08 04:12:08
五、蒙特卡洛方法 1.状态值 如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读 此论文 的第 3 部分。结果在第 3.6 部分进行了总结。作者指出: 所有经历 MC 存在 偏差 ,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。 一开始,所有经历 MC 具有更低的 均方误差 (MSE) ,但是随着经历更多的阶段,首次经历 MC 的均方误差更低(请参阅 Corollary 9a 和 10a,以及图 4)。 当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。( 换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。 )对于首次经历 MC,收敛性遵守 大数定律 ,详情请参阅该 教科书 的第 5.1 部分。 2.动作值 当每个状态动作对的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。( 换句话说,只要智能体在每个状态动作对获取足够的经验,值函数估值将非常接近真值。 ) 我们不会使用 MC 预测估算确定性策略对应的动作值;这是因为很多状态动作对从未 经历过(因为确定性策略在每个状态始终选择 相同的动作)。因此为了收敛,我们仅估算在每个状态中每个动作被选中的概率非零的策略对应的动作值函数。 3.广义策略迭代 旨在解决控制问题的算法会通过与环境互动确定最优策略 π ∗ 。 广义策略迭代

强化学习(十三) 策略梯度(Policy Gradient)

风流意气都作罢 提交于 2020-05-02 07:41:52
    在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。     本文参考了Sutton的强化学习书第13章和策略梯度的 论文 。 1. Value Based强化学习方法的不足     DQN系列强化学习算法主要的问题主要有三点。     第一点是对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作。虽然有NAF DQN之类的变通方法,但是并不优雅。比如我们之前提到的经典的冰球世界(PuckWorld) 强化学习问题,具体的动态demo见 这里 。环境由一个正方形区域构成代表着冰球场地,场地内大的圆代表着运动员个体,小圆代表着目标冰球。在这个正方形环境中,小圆会每隔一定的时间随机改变在场地的位置,而代表个体的大圆的任务就是尽可能快的接近冰球目标。大圆可以操作的行为是在水平和竖直共四个方向上施加一个时间乘时长的力,借此来改变大圆的速度。假如此时这个力的大小和方向是可以灵活选择的,那么使用普通的DQN之类的算法就不好做了

TensorFlow 深度学习中文第二版(初稿)

纵然是瞬间 提交于 2019-11-30 05:41:30
TensorFlow 深度学习中文第二版 第 1 章深度学习入门 人工神经网络 ANN 如何学习? 神经网络架构 深度学习框架 总结 第 2 章 TensorFlow 的首次观察 TensorFlow v1.6 的新功能是什么? 安装和配置 TensorFlow TensorFlow 计算图 TensorFlow 代码结构 TensorFlow 中的数据模型 通过 TensorBoard 可视化计算 线性回归及更多 总结 第 3 章使用 TensorFlow 的前馈神经网络 实现前馈神经网络 实现多层感知器(MLP) 调整超参数和高级 FFNN 总结 第 4 章卷积神经网络 CNN 实战 LeNet5 逐步实现 LeNet-5 数据集准备 微调实现 Inception-v3 使用 CNN 进行情感识别 总结 第 5 章优化 TensorFlow 自编码器 使用 TensorFlow 实现自编码器 提高自编码器的鲁棒性 使用自编码器进行欺诈分析 总结 第 6 章循环神经网络 RNN 和梯度消失 - 爆炸问题 实现 RNN 进行垃圾邮件预测 开发时间序列数据的预测模型 用于情感分析的 LSTM 预测模型 使用 LSTM 模型识别人类活动 总结 第 7 章异构和分布式计算 TensorFlow GPU 设置 分布式计算 分布式 TensorFlow 设置 总结 第 8 章高级