强化学习

AlphaLife: 像AI一样思考人生

…衆ロ難τιáo~ 提交于 2020-08-05 15:23:46
前言 很早以前就想过这个问题: AlphaGo,AlphaStar这么强,我们人是否能反过来向它们学习一下? 然后我就想了很多,总结出看起来还挺不错的一些人生准则。今天先抛砖引玉弹两个准则,如果大家感兴趣,我可以多写一些。 特别注明:每个人都不一样,下文仅供参考。 准则 1:给自己设定一个明确的远大的又喜欢的人生目标 我们知道深度强化学习最基本的概念就是有一个Reward来引导智能体学习,到达某一个目标。比如AlphaGo就是下围棋要赢,AlphaStar就是打星际要赢,那么AlphaLife就是人生要赢 人生会复杂很多,每个人都会有不同的目标。所以,给自己设定一个明确的目标是必须的。 古人云:志当存高远! 易经说要知崇礼卑: 桥水基金Ray Dalio的原则:设定Audacious Goals 大胆的目标 乔布斯说:我们要做我们所爱的事,找不到就一直找下去! 这条准则基本上是正确的,从古到今,成大事的人都先要立大志,并且这个大志最好就是我们喜欢的事情。 虽然这条准则简直是一条废话,但是现实世界中确实并不是每个人都有明确的人生目标。毕竟大部分人都是普通人,生活尚且不易,谈何理想? 但这里,我们想说的是,即使生活足够艰难,目标还是要有的。因为没有目标,也就不可能有未来了。 这里我很乐意分享我的人生目标: 推动虚拟世界和机器人的革命,使人类获得前所未有的精神自由和生存自由

谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单

﹥>﹥吖頭↗ 提交于 2020-08-05 07:08:04
  机器之心报道    编辑:泽南、张倩    在最新的 MLPerf 基准测试结果中,英伟达新出的 A100 GPU 打破了八项 AI 性能纪录,谷歌的 4096 块 TPU V3 将 VERT 的训练时间缩短到了 23 秒。华为昇腾 910 这次也跑了个分。      在距离推出不到一个月的时间里,内置超过 2000 块英伟达 A100 GPU 的全新 DGX SuperPOD 服务器就在各项针对大规模计算性能的 MLPerf 基准测试中取得了优异成绩。   在今天官方发布的 MLPerf 第三批 AI 训练芯片测试结果中,英伟达 A100 Tensor Core GPU 在全部八项基准测试中展现了最快性能。在实现总体最快的大规模解决方案方面,利用 HDR InfiniBand 实现多个 DGX A100 系统互联的服务器集群 DGX SuperPOD 系统也同样创造了业内最优性能。   行业基准测试组织 MLPerf 于 2018 年 5 月由谷歌、百度、英特尔、AMD、哈佛和斯坦福大学共同发起,目前已成为机器学习领域芯片性能的重要参考标准。此次结果已是英伟达在 MLPerf 训练测试中连续第三次展现了最强性能。早在 2018 年 12 月,英伟达就曾在 MLPerf 训练基准测试中创下了六项纪录,次年 7 月英伟达再次创下八项纪录。   最新版的 MLPerf 基准测试包含

边做边思考,谷歌大脑提出并发RL算法,机械臂抓取速度提高一倍!

你说的曾经没有我的故事 提交于 2020-08-04 20:17:22
RL 算法通常假设,在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现,然而在真实机器人控制当中并不成立,很可能导致控制策略运行缓慢甚至失效。为缓解以上问题,最近谷歌大脑与 UC 伯克利、X 实验室共同提出一种并发 RL 算法,使机器人能够像人一样「边做边思考」。目前,该论文已被 ICLR 2020 接收。 选自arXiv,作者:Ted Xiao 等,机器之心编译,机器之心编辑部。 该研究在如下情况中研究强化学习:在受控系统随着时间演变的过程中同时对动作进行采样。换句话说,所研究的机器人必须在执行着上一个动作的同时考虑下一个动作。就如同人或动物一样,机器人必须同时思考及行动,在上一个动作完成之前决定下一个动作。 为了开发用于此类并发性控制问题的算法框架,研究者从连续时间的贝尔曼方程开始,随后以考虑系统延迟的方式进行离散化。通过对现有基于价值(value-based)的深度强化学习算法进行简单的架构扩展,该团队提出了一类新型近似动态规划方法,并在模拟基准任务和大规模机器人抓取任务上进行了评估(机器人必须「边走边思考」)。 以下分别为该方法在仿真与真实机器人上的运行效果: 论文地址: https:// arxiv.org/abs/2004.0608 9 项目网页: https:// sites.google.com/view/t

学术分享丨机器人操作学习系列分享:模仿学习

拟墨画扇 提交于 2020-08-04 09:42:44
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《机器人操作学习系列分享:模仿学习》。   人类从婴幼儿时期就学会模仿别人来获得许多新技能,这种行为被称为 模仿学习 。我们古代中国就有很多形容人们模仿学习中成语,有如“ 邯郸学步 ”、“ 画虎成狗 ”、“ 鹦鹉学语 ”等都是形容模仿不到位的情况,又如“ 惟妙惟肖 ”、“ 栩栩如生 ”、“ 有模有样 ”等模仿极佳的状态。因此,智能体如何通过模仿学习避免出现那些尴尬的状态,而达到完美的状态,也是亟待研究的课题。      目前模仿学习也成为许多研究领域的重要课题,包括心理学、神经科学、人工智能和机器人学。模仿学习是机器学习诸多领域的交叉点。它对应于一个复杂的优化问题,可以用不同的方式形式化,例如结构化输出预测问题或半监督学习问题。模仿学习还与强化学习、在线主动学习、多智能体学习、特征建构等有着密切的关系。      从机器学习的角度来看,模仿学习是一种解决控制和顺序决策问题的学习方法。在模仿学习社区内,机器人获得专家的示例数据主要包括运动示教、遥操作、动作捕捉,视觉实例等等。最近,相关研究领域可分为以下子领域:行为克隆

EA公司教AI制作游戏角色,行动流畅自然,全程无需人类介入

非 Y 不嫁゛ 提交于 2020-07-29 10:11:11
  想开发出一款爆款游戏,是一件难度极高的事情,不仅要有精妙的内容设计,精致的光影效果,自然的动画建模,还要投入相当多的资金和时间。   现在,美国游戏公司艺电(EA)正在与加拿大不列颠哥伦比亚大学(UBC)合作,尝试在游戏开发中引入强化学习技术,用于制作角色模型和动作控制系统,希望可以 让 AI 学会制作游戏角色,使其行为模式更加逼真,同时简化和加速游戏研发流程 。   研究团队通过强化学习和深度生成模型 Motion VAE(变分自动编码器), 在没有使用传统编程和动画制作的情况下,生成了可控的足球运动员角色,能够做到跑动、传球、射门和头球等动作,行动流畅自然,基本符合人类的运动模式。   EA 高级软件工程师法比奥 · 钦诺(Fabio Zinno)认为,这项研究成果非常令人鼓舞,体现了 AI 拥有的巨大潜力。该研究成果将于今年 7 月在 SIGGRAPH 2020 计算机图形大会上发布。      图 | AI 生成的折返跑和头球动作(来源:Character Controllers Using Motion VAEs/ACM)   通常来说,制作电子游戏中的角色及其动作需要花费大量时间。   以 FIFA 一类的体育游戏为例,为了呈现逼真的动作,需要用到动作捕捉技术来追踪真人的面部和肢体动作。不过这种方法局限了动作的可能性,游戏角色只能表现出已记录的动作

618前端竞品分析研究(互动篇)

你说的曾经没有我的故事 提交于 2020-07-28 20:05:41
智能化测试 在互动中经常需要维护 大量的状态 ,对这些状态进行 测试验证成本较高 ,尤其是当有功能变动需要回归测试的时候。为了降低开发测试的成本,在这方面使用 强化学习模拟用户行为 ,在两个方面提效: mock接口 :将学习过程中的状态作为服务接口的测试数据; 回归测试 :根据mock接口数据回溯到特定状态,Puppeteer根据强化学习触发前端操作,模拟真实用户行为; 什么是强化学习呢? 强化学习是机器学习的一个领域,它强调如何基于环境行动,获取最大化的预期利益。强化学习非常适用于近几年比较流行的电商互动机制:做任务/做游戏 -> 得到不同的奖励值 -> 最终目标大奖,在这类型的互动游戏中,奖励是可预期的,用户的目标是使得自己的奖励最大化。这个过程可以抽象为马尔科夫决策模型:玩家(agent)通过不同的交互行为(action),改变游戏(environment)的状态(state),反馈给玩家不同的奖励 (reward);这个过程不断循环迭代, 玩家的最终目标是奖励最大化。 接下来,我们使用比较简单的Q-learning,来实现类似的智能化测试目的。 Q-learning 对于不同状态下,Q-learning的Q(s,a)表示在某一个时刻的s状态下,采取动作a可以得到的收益期望,算法的主要思想是将state和ation构建一张Q-table来存储Q值

强化学习(四)用蒙特卡罗法(MC)求解

雨燕双飞 提交于 2020-07-28 12:36:29
    在 强化学习(三)用动态规划(DP)求解 中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。     蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。 1. 不基于模型的强化学习问题定义     在动态规划法中,强化学习的两个问题是这样定义的:     预测问题,即给定强化学习的6个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 给定策略$\pi$, 求解该策略的状态价值函数$v(\pi)$     控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 求解最优的状态价值函数$v_{*}$和最优策略$\pi_{*}$      可见, 模型状态转化概率矩阵$P$始终是已知的,即MDP已知,对于这样的强化学习问题

三天后启幕!百余位知名AI学者齐聚,年度盛会免费注册通道在这里

只谈情不闲聊 提交于 2020-07-28 03:38:08
  扫码免费参加人工智能年度盛会   自 2009 年深度学习崛起以来,第三波人工智能浪潮席卷全球,推动了新一波技术革命。   在这波澜壮阔的 11 年,我们见证了技术突破、应用创新与产业变革。   技术上,深度学习首先带来计算机视觉、语音识别等领域的突破,让机器识别的准确率一步步突破人类水平;在应用上,深度学习、强化学习、联邦学习等学习范式在安防、游戏、金融等不同场景带来新的创新。人工智能技术,在这些领域由点到面的落地应用,逐步推动着整个产业的变革。   技术变革,需要不断的推陈出新。在这 11 年中,如果说前半期是深度学习的时代,那么近年来我们能够看到更多不同的概念继续推动这人工智能的发展:符号主义、因果关系、联邦学习,等等。   2020 年,是一个十年的结束,也是下一个十年的开始。   在未来的十年,人工智能技术将如何发展?如何推动 AI 技术在医疗、交通等领域的落地应用?如何构建 AI 基础设置、规范 AI 伦理,都是当前人工智能领域亟待解决的问题。   依托北京在人工智能领域的科研和人才优势,第二届北京智源大会将于 6 月 21-24 日线上开幕。   此届大会围绕技术、应用、基础设施等话题,广泛邀请国内外人工智能领域的顶级专家学者,探索人工智能前沿科技发展趋势,对人工智能基础研究发展现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题展开分享与讨论

NeurIPS「提前拒稿」直接刷掉11%,投稿人质疑:像是为了完成KPI随机分配的理由

徘徊边缘 提交于 2020-07-27 13:59:13
看完摘要,领域主席:我觉得你这篇论文不太行。 机器之心报道,参与:泽南、蛋酱。 「我收到了 NeurIPS 发来的拒稿邮件,感到有苦说不出。」今年 NeurIPS 新提出的「提前拒稿」机制,对于很多人来说有些猝不及防。 在两次推迟 Deadline 之后,全球人工智能顶会 NeurIPS 2020 终于到了论文评审阶段。最近,有关收到大会领域主席 Desk reject 的消息时常出现在社交网络上。 在一些人收到的邮件中,NeurIPS 表示:「由于 NeurIPS 近年来论文提交数量大幅增长,会方难以找到足够数量的评审者。我们今年收到了史无前例的 9467 篇论文提交。因此,我们今年使用了摘要拒稿程序:每篇论文都会经过两名不同有经验的研究者评估(领域主席 AC 和高级领域主席 SAC),决定论文是否需要接受进一步的评审。」 根据 NeurIPS 官方统计,今年大会的论文提交数量比上一年增长了 38%,再次刷新了 NeurIPS 史上的提交数量记录。 在今年提交论文的研究类型中,算法领域占据 29%,深度学习领域占据 19%,应用领域占据 18%,三者占据了绝大多数。其余分别为强化学习和规划领域 (9%) 、理论领域 (7%) 、概率方法领域 (5%) 、机器学习与社会 (5%) 、优化领域 (5%) 、神经与认知科学领域 (3%) 、数据、挑战、实现和软件等领域 (1%)。与

强化学习的基本迭代方法

本小妞迷上赌 提交于 2020-07-27 08:57:03
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 研究价值迭代和策略迭代。 本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,它直接导致Q-Learning。 你可以阅读我之前的一些文章(有意独立): 什么是马尔可夫决策过程?( https://towardsdatascience.com/what-is-a-markov-decision-process-anyways-bdab65fd310c ) 强化学习的线性代数( https://towardsdatascience.com/the-hidden-linear-algebra-of-reinforcement-learning-406efdf066a ) Q-Learning开启了我们所处的深度强化学习的浪潮,是强化学习学生学习策略的重要一环。 回顾马尔可夫决策过程 马尔可夫决策过程(MDPs)是支持强化学习(RL)的随机模型。如果你熟悉,你可以跳过这一部分,不过我增加了一些相关的解释。 定义 状态集 \(s\in S,动作集\) a\in A$。状态和动作是代理程序所有可能的位置和动作的集合。在 高级强化学习 中,状态和动作是连续,所以这需要重新考虑我们的算法。