强化学习

强化学习(四)—— DQN系列(DQN, Nature DQN, DDQN, Dueling DQN等)

最后都变了- 提交于 2020-11-01 20:04:46
1 概述   在之前介绍的几种方法,我们对值函数一直有一个很大的限制,那就是它们需要用表格的形式表示。虽说表格形式对于求解有很大的帮助,但它也有自己的缺点。如果问题的状态和行动的空间非常大,使用表格表示难以求解,因为我们需要将所有的状态行动价值求解出来,才能保证对于任意一个状态和行动,我们都能得到对应的价值。因此在这种情况下,传统的方法,比如Q-Learning就无法在内存中维护这么大的一张Q表。   针对上面的问题,于是有人提出用一个模型来表示状态,动作到值函数的关系。我们令状态为 $s \in S $,行动为 $a \in A $,引入一个状态价值函数 $\hat{v}$,函数的参数为 $w$,接收状态 $s$ 的输入,则有:     $ \hat{v}(s, w) \approx v_{\pi}(s) $   对于动作-状态价值函数也是一样可以表示为:     $ \hat{q}(s,a,w) \approx q_{\pi}(s,a) $   还有一种表现形式是输入状态向量 $s$,输出每个动作 ${a_i}\in{A}$ 所对应的 $\hat{q}(s,a_i,w) $。具体的如下如所示:      虽说有上面三种表达形式,但一般我们用第三种方式,这一种方法会获得所有动作的Q值,这样就可以很方便的使用贪婪策略和$\epsilon-greedy$。  

DeepMind开源薛定谔方程求解程序:从量子力学原理出发,TensorFlow实现

倖福魔咒の 提交于 2020-11-01 06:23:45
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 只要解出薛定谔方程,你就能预测分子的化学性质。但现实很骨感,迄今为止,科学家只能精确求解一个电子的氢原子,即使是只有两个电子的氦原子都无能为力。 原因是有两个以上电子组成的薛定谔方程实在太复杂,根本无法精确求解。 既然找不到精确解,科学家们希望能找到一种实用的近似解求法,只要结果足够近似,也能预测原子或分子的行为。 近日,DeepMind开源了一个“ 费米网络 ”(FermiNet),用来求解分子的电子行为,在30个电子的有机分子上也达到了很高的精度。文章结果发表在期刊 Physical Review Research 上。 为什么叫费米网络 在量子力学中,电子没有精确的位置,我们只能从 波函数 预测电子在空间中出现的概率,也就是电子云。 比如氢原子的电子云就有以下几种形态。 曲面内表示电子出现的高概率区域。蓝色区域波函数为正,紫色区域波函数为负。(注:波函数平方表示电子出现的概率) 误差小于0.5%即可预测分子的能量,但这对于化学家来说远远不够,要准确预测分子的形状和化学性质,需要0.001%的精度,相当于以毫米精度测量足球场宽度。 电子在分子中不仅受到原子核的吸引力、其他电子的斥力,还遵循着量子力学中的 费米-狄拉克统计 :如果两个电子交换状态,波函数要反号。 这也意味着两个电子的状态不可能完全相同,否则波函数为0

独家 | 深度学习 V.S. 谜题游戏

ぃ、小莉子 提交于 2020-10-31 15:04:44
作者:Kabalan Gaspard 翻译:王紫岳 校对:陈汉青 本文约 4000字 ,建议阅读 10+分钟 。 本文为大家介绍了作者使用不同的算法来解决Free Flow谜题游戏的心路历程,从一开始的A*,Q-learning,到最后的卷积神经网络,作者详细的介绍了在使用这些算法时遇到的困难和得到的启示。 深度学习比古老的蛮力技术更适合解决FlowFree问题吗? 我们都有过这种经历。你拿着手机发呆,想要消磨一些时间,于是你决定放弃自己优秀的思考,打开应用商店的游戏区,看看游戏排行榜。你找到了一个看起来很有趣的谜题游戏,但其实游戏是否有趣并不重要,因为你只想玩半个小时,然后就删掉、忘记它,对么? 2个月以后,我完成了两千多关的Flow Free①游戏,并且坚持每一关都得到“完美”评分。这一游戏(自2012年发行以来,这款游戏在iOS和Android平台上都是最受欢迎的游戏之一)的设定相当简单:将不同颜色的阀门分别连起来,并且不能有线相交。 FreeFlow——你可以通过这个截图来了解游戏 截图中的关卡可能看起来很简单,但是它的难度确实在不断提升。随着关卡的进行,我发现我自己想出了一些可以帮助我更快完成这些高级关卡的策略(例如:尽可能的保留外层边界空白,避免在未填满的方形中创建“港湾”等)。浏览网上论坛时,我看到其他的玩家都有他们自己的技巧,有的和我的一样,有的则略微不同

滴滴重磅发布交通出行领域多项AI技术成果,KDD 2019大放异彩

点点圈 提交于 2020-10-31 08:25:50
8月4日-8日,KDD 2019 在美国阿拉斯加州安克雷奇市召开,汇集了来自世界各地超过 3100 名学界与业界人员畅谈前沿科技与行业发展。本次大会,滴滴通过举办 深度强化学习教程、AIoT 研讨会 、Oral 论文、大会演讲等累计10余场技术报告,多维度展示了滴滴 AI 技术的深耕与发展,在 KDD 2019 交出了亮眼的成绩。 第25届国际数据挖掘顶级会议 KDD (KDD 2019),滴滴现场重磅发布了智能派单调度、智能客服、AI 运营、AIoT 等出行领域的多项技术突破,并详解相关算法的实践。 ▍ 三篇 Oral 论文入选 在今年 KDD 会议上,滴滴共有三篇 Oral 论文入选,内容涉及自动化地生成工单摘要、深度强化学习在智能派单的应用和 GAN 在环境重构的探索。以《Automatic Dialogue Summary Generation for Customer Service》为例,滴滴的客服每天需要处理大量的用户进线,因此工单摘要对于客服系统变得尤为重要。滴滴 AI Labs 团队利用深度学习方法,基于辅助要点序列提出了Leader-Writer网络来帮助解决客服工单摘要生成问题,能让客服工单摘要的自动化生成更具完整性、逻辑性与正确性。 滴滴专家算法工程师王鹏博士 现场分享模型实践 继滴滴 KDD 2018 口头论文基础上,滴滴 AI Labs 团队在《A

KDD Cup 2020开赛,滴滴邀你挑战共享出行领域优化难题

不羁的心 提交于 2020-10-31 07:55:21
导读:2020年4月3日,由滴滴主办的 KDD Cup 2020强化学习挑战赛正式开赛,邀请全球算法高手共同挑战共享出行领域优化难题。 KDD Cup(国际知识发现和数据挖掘竞赛)由美国计算机协会知识发现与数据挖掘专委会(ACM SIGKDD)发起,从1997年开始,每年举办一次,是国际公认的数据挖掘领域的最高水平的赛事。该比赛同时面向企业界和学术界,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,也被誉为是数据挖掘领域的“世界杯”。每年都有很多杰出的学术组织及科技申请承办 KDD Cup,但最终只有拥有深厚的学术积累和行业实践的机构能够脱颖而出。 今年 KDD Cup 2020的 RL Track (强化学习赛道)最终由滴滴举办。在这一挑战赛中,滴滴邀请全球参赛团队聚焦按需出行平台,尝试应用机器学习解决方案来提出智能策略,在确保用户体验的基础上,进一步提高出行效率和司机收入。 此次比赛滴滴共设计了订单分配(任务一)和车辆调度(任务二)两个任务。在订单分配任务中,参赛团队需设计开发算法来指定在派单窗口内的订单和司机的匹配;而在车辆调度任务中,参赛团队需设计开发调度算法指引一批空闲司机开往指定目的地。两个任务既可分别开发,也有联动的空间。 比赛将主要基于滴滴盖亚数据开放计划脱敏数据集,该数据集包含一定时间内滴滴滴平台专车和快车在成都市部分区域内的脱敏轨迹数据

数字货币引发数字化市场与算法边界探讨

☆樱花仙子☆ 提交于 2020-10-30 12:55:41
   大数据文摘投稿作品    作者: 袁峻峰   马云在10月24日,在中国金融四十人论坛(CF40)联合各组委会成员机构举办的第二届外滩金融峰会上提到数字货币,发表了非常高远的观点:“拿数字货币来说,如果用未来的眼光打造30年后世界所需的金融体系,数字货币可能是非常重要的核心。... 这个数字货币不是从历史上去找,不应该从监管角度去找,不应该从研究机构去找,而是从市场去找,从需求去找,从未来去找...因为数字货币体系是一个技术问题,但又不仅仅是技术问题,更是一个解决未来问题的方案,数字货币可能会重新定义货币,尽管货币的主要功能仍然在,但是一定会重新定义货币。”   货币的本质是什么?   很多关于货币的书都喜欢举个石币岛的例子,位于西太平洋的雅浦岛的土著居民,居民在土地和房屋的买卖交易时,是用直径达4米、最重5吨的石材当货币使用。当一宗交易结束,受石币重量所限,这些石币并不用搬离前所有者的家,而是在石币上作标记表示所有权已经转移。只要大家认可这石币的所有权谁属,便承认了财富的转移。   岛上有一户大财主,所有人都承认他们家是首富,但没有人见过他们家里的石币。他们家的财产是一块巨大的石币,具体大小只有祖辈知道,因为这块石币一直沉睡在海底。因为同去的大伙都见证了这块巨大石币的价值和去处,所以大伙都为他作证。虽然那块石币不在岛上,依然不影响石币的价值。   对于雅浦岛居民来说

SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿标准

江枫思渺然 提交于 2020-10-29 17:24:09
选自 evjang.com 作者:Eric Jang 机器之心编译 编辑:Panda 数据集过于简单、只在一两项指标上达到 SOTA、没有充分说明之前的研究都可能成为你论文被拒的原因。 会议论文评审已经成为了人工智能和机器学习领域的热门争议话题,既有审稿人在线吐槽论文注水严重,半成品太多,也有投稿人网上喊冤,质疑审稿人的资格和敬业程度。 纷纷扰扰之中,也许一个重要的原因是论文评审缺乏明晰的标准,严重依赖审稿人的主观判断。 近日,谷歌 Robotics 研究科学家 Eric Jang 基于他十多场会议和研讨会的审稿经验,罗列了审稿人在评审论文时可能会考虑的标准,然后他说明了自己个人的审稿标准。 这虽然只是一位审稿人的个人看法,但如果审稿人都能公开说明自己的审稿标准,当前会议论文评审方面的争议之声大概也会小一些。 审稿人到底会考虑哪些标准? NeurIPS 2020 已经公布了论文的收拒情况:在收到的 9454 篇论文中,有 1900 篇被接收(接收率为 20%)。接收详情请参阅《NeurIPS 2020 放榜,接收率史上最低!AC:低接收率带不来有趣的论文》。不管接收结果如何,都要祝贺各位辛苦研究取得了成果。 机器学习研究者大概都知道,NeurIPS 和其它一些会议的接收决定就像是一种经过加权的掷骰子游戏。在这个被称为「学术出版」的剧场中,评议五花八门

强化学习七

随声附和 提交于 2020-10-29 06:57:09
一.前言   之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大的action,action 的选择都离不开action value 的计算)。即 没有action value的估计值就无法进行action选择,也就没有Policy,这类方法被称为 value-based methods. 其实我们可以直接产生不依赖于action value 的polcy ,这类直接生成action的方法就叫policy-based methods.他们关系如下:   value-based方法,需要计算价值函数(value function),根据自己认为的高价值选择行(action)的方法,如Q Learning。   policy-based方法,不需要根据value function选择action,可以直接得出policy的方法。   图中第三类方法(Actor critic)结合了上述两者, 即计算value function,但不直接根据value function选择action,action 由policy-based方法得到。 二.

强化学习Q-learning的理解与python实现

爷,独闯天下 提交于 2020-10-28 00:17:19
Q-learning介绍 在介绍Q-learning这一基础的强化学习方法之前,首先要知道Q值代表什么。Q值翻译成中文是状态动作价值的意思,通俗一点来讲就是假设有个无所不知的上帝(先验),在凡人(智能体)当前处于某一状态s时,他可以从一定范围的动作(如a、b、c)中选择一个执行,而上帝会根据凡人的选择给出一个分数(因为上帝无所不知,所以知道凡人在选择了动作a之后会发生的所有事情)。比如凡人选择了a,上帝会给出80分,选择b的话上帝会给70分,选择c的话上帝会给60分,那么凡人在当前状态下肯定会选择分数最高的a选项。综上,只要智能体知道了所有的Q值,他就能做出当前状态下最优的选择。在强化学习中是通过Q-learning这一方法来计算Q值的。 Q-learning是采用Q表格的方式存储Q值,一开始假设所有的Q值为零,然后不断地根据每次选择所对应的reward与下一状态的所有Q值来更新Q表格。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。 Q-learning的更新公式为: 上述公式解释如下,假设t1时刻的状态是s1,想更新的是此时做出动作a1时的Q值,Q(a1|s1)。我们知道当执行a1后,智能体会获得一个reward(r1),同时所处的状态也会变为s2

SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿标准

拈花ヽ惹草 提交于 2020-10-26 23:55:15
数据集过于简单、只在一两项指标上达到 SOTA、没有充分说明之前的研究都可能成为你论文被拒的原因。 选自 http:// evjang.com ,作者:Eric Jang,机器之心编译,编辑:Panda。 会议论文评审已经成为了人工智能和机器学习领域的热门争议话题,既有 审稿人在线吐槽论文注水严重 ,半成品太多,也有 投稿人网上喊冤 ,质疑审稿人的资格和敬业程度。纷纷扰扰之中,也许一个重要的原因是论文评审缺乏明晰的标准,严重依赖审稿人的主观判断。近日,谷歌 Robotics 研究科学家 Eric Jang 基于他十多场会议和研讨会的审稿经验,罗列了审稿人在评审论文时可能会考虑的标准,然后他说明了自己个人的审稿标准。这虽然只是一位审稿人的个人看法,但如果审稿人都能公开说明自己的审稿标准,当前会议论文评审方面的争议之声大概也会小一些。 审稿人到底会考虑哪些标准? NeurIPS 2020 已经公布了论文的收拒情况:在收到的 9454 篇论文中,有 1900 篇被接收(接收率为 20%)。接收详情请参阅 《NeurIPS 2020 放榜,接收率史上最低!AC:低接收率带不来有趣的论文》 。不管接收结果如何,都要祝贺各位辛苦研究取得了成果。 机器学习研究者大概都知道,NeurIPS 和其它一些会议的接收决定就像是一种经过加权的掷骰子游戏。在这个被称为「学术出版」的剧场中,评议五花八门