强化学习

全球最大的Spark+AI峰会发放优惠码SAIS20TRAIN,培训费优惠20%!

帅比萌擦擦* 提交于 2020-07-27 08:31:06
Spark AI 峰会现在对于数据团队来说规模更大了,提供的培训课程是原来的四倍!使用优惠码SAIS20TRAIN可享受20%的折扣培训,用于学习热门开源项目如Apache Spark、DeltaLake、MLflow和Koalas的前沿技术。 目录 Databricks全球最大的Spark+AI峰会 免费参加主题演讲及分组会议 参加付费培训,领取优惠码SAIS20TRAIN 管理人员统一数据分析入门 Delta数据湖简介 Databricks 管理 Apache Spark™编程介绍 Databricks SQL Apache Spark调优和最佳实践 使用Delta Lake为Apache Spark构建更好的数据管道 Databricks Structured Streaming Apache Spark 机器学习和数据科学 使用TensorFlow和Apache Spark扩展深度学习 强化学习导论 无模型强化学习 MLflow:管理机器学习生命周期 机器学习部署:3个模型部署范例、监视和警报 Apache SparkR/sparklyr中的分布式机器学习 大规模的自然语言处理 财务的实际问题解决:使用Apache Spark进行实时数据分析 零售中的实际问题解决:使用Apache Spark进行实时数据分析 医疗保健中的实际问题解决:使用Apache

Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)

爷,独闯天下 提交于 2020-07-26 19:17:33
目录 本次示例:训练一个追踪红球的白球AI 1. 新建Unity项目,导入package 2. 编写Agent脚本 void OnEpisodeBegin() void CollectObservations(VectorSensor sensor) void OnActionReceived(float[] vectorAction) void Heuristic(float[] action) 3. 搭建好游戏场景 4. 调整脚本参数 Behavior Parameters Roller Agent Decision Requester 5. 开始训练 6. 将训练过的模型整合到Unity中 附录 config文件配置 参考 前言:上一篇博文已经介绍了 Unity Ml-Agents的环境配置 了。 个人建议先敲深度强化学习的Demo再摸清概念比较容易上手,因此本文先提供一个深度强化学习的Demo示例简单阐述下。 更新于2020.3.6:由于现在Unity ml-agents项目比起2018年已经更新了许多,以前的Demo教程已经不适合了,因此决定翻新Unity ml-agents机器学习系列博客。 更新于2020.7.6:没想到仅仅过了几个月,ml-agents项目已经从最初的beta版到现在已经第3个正式发行版了。因此再次翻新博客。 本次示例:训练一个追踪红球的白球AI 1

Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)

我怕爱的太早我们不能终老 提交于 2020-07-26 07:49:04
目录 本次示例:训练一个追踪红球的白球AI 1. 新建Unity项目,导入package 2. 编写Agent脚本 void OnEpisodeBegin() void CollectObservations(VectorSensor sensor) void OnActionReceived(float[] vectorAction) void Heuristic(float[] action) 3. 搭建好游戏场景 4. 调整脚本参数 Behavior Parameters Roller Agent Decision Requester 5. 开始训练 6. 将训练过的模型整合到Unity中 附录 config文件配置 参考 前言:上一篇博文已经介绍了 Unity Ml-Agents的环境配置 了。 个人建议先敲深度强化学习的Demo再摸清概念比较容易上手,因此本文先提供一个深度强化学习的Demo示例简单阐述下。 更新于2020.3.6:由于现在Unity ml-agents项目比起2018年已经更新了许多,以前的Demo教程已经不适合了,因此决定翻新Unity ml-agents机器学习系列博客。 更新于2020.7.6:没想到仅仅过了几个月,ml-agents项目已经从最初的beta版到现在已经第3个正式发行版了。因此再次翻新博客。 本次示例:训练一个追踪红球的白球AI 1

完虐"机器人",36核CPU单机,南加大游戏AI在Doom中实现SOTA性能

℡╲_俬逩灬. 提交于 2020-07-25 23:48:33
  机器之心报道    编辑:陈萍、杜伟    训练游戏 AI 往往需要耗费巨量的计算,并且依赖配备数百个 CPU 和 GPU 的服务器。大的科技公司有能力和资金支撑,但学术实验室却「心有余而钱不足」。在本文中,南加州大学和英特尔实验室的研究者展示了在第一人称射击游戏《毁灭战士》中,使用单个高端工作站训练具备 SOTA 性能的游戏 AI,最多时用到了 36 核 CPU 和单个 RTX 2080 Ti GPU 的系统。      我们都清楚,训练 SOTA 人工智能系统往往需要耗费大量的计算资源,这意味着资金雄厚的科技公司的发展进程会远远超过学术团队。但最近的一项研究提出了一种新方法,该方法有助于缩小这种差距,使得科学家可以在单个计算机上解决前沿的 AI 问题。   OpenAI 2018 年的一份报告显示,用于训练游戏 AI 的处理能力正在快速地提升,每 3.4 个月翻一番。其中对数据需求量最大的一种方法是深度强化学习,通过在数百万个模拟中迭代,AI 在反复试错中进行学习。《星际争霸》和《Dota2》等电子游戏领域取得了令人瞩目的新进展,但都依赖封装了数百个 CPU 和 GPU 的服务器。   针对这种情况,Cerebras System 开发的 Wafer Scale 引擎能够使用单个大芯片来替换这些处理器,这个芯片为训练 AI 进行了完美的优化。但是由于价格高达数百万

颠覆制药行业,AI究竟是「噱头」还是「盼头」?

萝らか妹 提交于 2020-05-08 16:21:58
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 人工智能(AI)已经在过去十年左右的时间里从科幻变成了现实,并且正在颠覆(或可望颠覆)地球上几乎每个流程。比如帮助导航我们的汽车、飞机和太空飞船,可以在Netflix上建议用户看什么电影,也可以助力颠覆其他数十种事情,无论是大事情还是普通事情。 在这之中,制药业可以说是个真正的生死攸关产业。而且,制药业也在使用计算机和计算机工具(例如AI),但为什么AI在制药业里几乎就没有颠覆的影子呢?有些专家认为,制药行业仍然是效率比较低的行业之一,亦是抵制技术颠覆的最后桥头堡。此外,专家们还表示,自上世纪50年代以来,尽管其他行业的生产力和效率都在不断提高,但制药业的效率却一直在下降。 举个例子,现在要将一种药物或新分子实体(NME)推向市场的成本超过26亿美元。这种费用(甚至包括失败药物尝试的费用)最终都会直接转移给包括你我在内的患者、客户和纳税人。 因此,笔者希望在本篇文章里相对客观地讨论一下传统药物发现的挑战性,包括目前AI在药物发现的方法以及该领域里新技术和新工艺革新的潜力。 赌一把:传统药物发现 要了解AI在小分子药物发现中的潜力和局限性,就要先了解制药公司传统上如何完成药物发现的流程,这一点很重要。 前面提到过,制药业是地球上风险比较高的企业之一。小分子药物发现流程包括几个步骤

ICLR认知科学@AI workshop一览

自作多情 提交于 2020-05-08 14:57:44
今年ICLR2020顶会有一个特别有意思的专题, 叫认知科学与AI顶会专题。 在当下深度学习愈发进入瓶颈期的时代,认知科学和AI的交叉成为大势所趋。 一方面我们希望把认知科学或心理学的知识用起来直接指导AI,另一方面我们希望用AI来理解我们的大脑和认知规律,最终进一步改善AI, 那么ICLR的这个workshop在这两个方面各有哪些建树? 1, 用AI来理解我们的大脑 Bridging AI and Cognitive Science (BAICS) ​ baicsworkshop.github.io 用深度学习模型来理解视皮层对信息的处理一直是两个领域交叉的热点, 因为视觉处理是2010深度学习革命的最大成者, 而视皮层是神经科学了解最多的区域, 两者都有充分的理由认为可以反哺对方。 From heuristic to optimal models in naturalistic visual search 根据一些研究,人眼的精度大约相当于一个5.76亿像素的数码相机, 这相比任何当下的数码相机都很可怕。但事实上这个数字对我们有所误导,因为事实上我们只有人眼的极小中心区域有很高精度, fovea是在积极工作的(这部分只相当于500到1500万像素), 而人之所以能够得到非常清晰的视觉图像,是因为人眼通过眼动把很多微小区域拼接起来理解一个整个的场景

机器学习工程师

拟墨画扇 提交于 2020-05-08 04:56:36
九、策略梯度 1.为何要使用基于策略的方法 原因有三个方面:简单性,随机性策略和连续动作空间。 在 Q 学习等基于值的方法中我们发明了值函数这一概念作为查找最优策略的中间步骤,它有助于我们将问题重新描述为更易于理解和学习的形式。但是如果我们的最终目标是查找最优策略,真的需要该值函数吗?可以直接估算最优策略吗?这样的策略看起来如何?如果我们采用确定性方法,则该策略只需是从状态到动作的映射或函数。对于随机性方法,则为在特定状态下每个动作的条件概率,然后根据该概率分布选择一个动作。这样更简单,因为我们直接处理手头上的问题,并且可以避免处理大量额外的数据。这些数据并非始终有用。例如,状态空间的很大部分可能具有相同的值,以这种方式构建策略使我们能够在可能时进行此类泛化,并更侧重于状态空间的更复杂区域 与基于值的方法相比,基于策略的方法具有的主要优势之一是它们可以学习真正的随机性策略。这就像从一种特殊的机器中选择一个随机数字。首先,每个数字被选择的概率取决于可以更改的某些状态变量。相反,当我们对值函数应用 Epsilon 贪婪动作选择法时的确会增加一些随机性,但并不足够。抛掷硬币,如果正面朝上,遵守确定性策略,因此随机选择一个动作,底层的值函数依然会促使我们选择特定的动作。我们来看看其中存在的问题。假设你要学习如何玩剪刀石头布,对手同时伸出自己的手,因此你无法使用该信息来决定选择什么动作

当博弈论遇上机器学习:一文读懂相关理论

只谈情不闲聊 提交于 2020-05-07 14:53:35
https://zhuanlan.zhihu.com/p/88923770 博弈论和机器学习能擦出怎样的火花?本文作者王子嘉通过回顾总结近年来博弈论和机器学习领域的交叉研究工作,为读者展示了这一领域最新的研究图景。 机器之心原创,作者:王子嘉,编辑:Joni Zhong。 「博弈论」这个词可能对于一些仅仅致力于机器学习前沿算法的人并不算熟悉。其实,有意无意的,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还是大火的 GAN,这些模型的背后都有博弈论的影子。 近年来,随着机器学习的发展,机器学习要应用的场景越来越复杂,开始有人有意识的将博弈论与机器学习联系起来。总的来说,博弈论在机器学习研究中的作用主要有三个:(1) 解释机器学习模型的原理与思想;(2) 建立合适的学习策略;(3) 预测人类参与者(人机交互时)的行为。基于这三个方面,本文首先解释了博弈论的基本概念及其如何解释机器学习中的一些模型,然后介绍了博弈论在 Multi-Agent Reinforcement Learning(MARL)中的应用,最后介绍了博弈论与机器学习结合所产生的新分支——博弈机器学习。 博弈论是什么 严格来说,博弈论主要是研究理性决策者之间的冲突与合作的数学模型。这个定义有些抽象,没接触过博弈论的人也很难很直观的从「博弈论」这个名字知晓博弈论到底是什么。这个词可以拆开来看,「博弈

优化 | Policy Gradient 浅释

夙愿已清 提交于 2020-05-06 15:32:24
编者按 作为动态规划和强化学习中的一类算法,本文谈谈需要结合非凸优化,随机分析等领域来进行设计和分析的policy gradient算法的一些基本性质和分析方法。 Policy gradient其实是个很有意思的研究领域(2020年来说)。它联系了非凸优化,随机分析,强化学习等多个不同的子领域,我现在的感觉是还有很多"坑"是可以做的(理论&应用)。 文章作者:覃含章 责任编辑:曾宇 文章发表于 微信公众号【运筹OR帷幄】: 优化 | Policy Gradient 浅释 欢迎原链接转发,转载请私信 @运筹OR帷幄 获取信息,盗版必究。 敬请关注和扩散本专栏及同名公众号,会邀请 全球知名学者 发布运筹学、人工智能中优化理论等相关干货、 知乎Live 及行业动态 更多精彩文章,欢迎访问我们的机构号: @运筹OR帷幄 引言 梯度上升法 更多分析 当然如果只是用上一节的分析那就有点索然无味了,次线性时间可以收敛到一个驻点,这是优化小学生都知道的事实,也无法解释为什么policy gradient在很多复杂的强化学习问题中可以有非常好的效果。而这方面其实就跟深度学习为什么那么牛一样的问题,最近呢理论界也得到了比较类似的结果:和深度学习模型近些年的一些理论结果类似;学者们最近发现policy gradient的优化问题(*)其实很多时候虽然非凸;但其实不存在一个很差的局部最优(bad

深度学习两巨头LeCun、Bengio预言:自我监督学习是让AI接近人类智能的关键

吃可爱长大的小学妹 提交于 2020-05-04 13:21:21
  在 4 月 26 日至 5 月 1 日举行的国际表征学习大会 ICLR 2020 期间,深度学习三巨头中的 Yoshua Bengio 和 Yann LeCun 表示, 自我监督学习可能会让 AI 在推理上更像人类 ,他们坦率地谈到了一些最新的研究趋势。   监督学习需要在标记的数据集上训练人工智能模型,LeCun 认为随着自我监督学习的广泛应用,监督学习的作用将越来越小。自监督学习算法不依赖注释,而是通过暴露数据各部分之间的关系,从数据中生成标签,这一步骤被认为是实现人类智能的关键。      图|深度学习三巨头(来源:Fortune)   “ 我们作为人类学习的大部分知识和动物学习的大部分知识都是在自我监督的模式下,而不是强化的模式。 基本上是通过观察世界,并与之进行一些互动,主要是以独立于测试的方式进行观察,这是我们不知道如何用机器复制的(学习)类型。”    但不确定性是阻碍自主学习成功的主要障碍。   深度学习里的 “ 特征分布 ” 至关重要,它们能将变量的每个可能值与该值出现的概率联系起来,也能很好地表示变量离散的不确定性,这就是为什么像 Google 的 BERT 模型这样的架构会比较成功的原因。    不幸的是,研究人员还没有找到一种有效的方法来表示变量是连续的分布,也就是说,它们只能通过测量获得。   LeCun 指出