强化学习

脑机头条 第39期| MIT最新黑科技—3D打印柔软大脑植入物

╄→尐↘猪︶ㄣ 提交于 2020-12-10 06:30:27
点击上面"脑机接口社区"关注我们 更多脑机干货第一时间送达 2020年4月3日 脑机头条 第39期 最近麻省理工学院发布了一项黑科技--3D打印柔软大脑电极。 MIT赵选贺教授研究团队开发出一种3D打印神经探针和其他电子设备的方法,3D打印柔软大脑电极就像橡胶一样柔软灵活。研究成果已发表在Nature Communications上,题为“3D printing of conducting polymers”。 论文地址: https://www.nature.com/articles/s41467-020-15316-7 研究人员将这种类似于液体的导电聚合物溶液转化成一种更像粘性牙膏的物质,并将其放入3D打印机中,然后打印出稳定的导电图案。 图1 图2 研究人员将这些软电子设备植入小鼠的大脑中。当小鼠在一个可控的环境中自由移动时,研究人通过植入的神经探针能够捕捉到单个神经元的活动。 然后通过监测这种活动来获取更高分辨率的大脑活动图像,以此可以帮助制定治疗方案和长期大脑植入物,以应对各种神经系统疾病。 MIT博士生Hyunwoo Yuk表示:“我们希望通过演示,人们可以使用这种技术快速制造出不同的设备,可以更改设计、运行打印代码并在30分钟内生成新的设计。希望这将简化神经接口的开发,完全由软材料制成。” 导电聚合物是一种具有类似塑料的柔韧性和类似金属的电导率的材料

升级版“绝悟”AI自带“军师”,解禁王者荣耀全英雄池

时光毁灭记忆、已成空白 提交于 2020-12-02 16:41:20
出品 | AI科技大本营 一个人精通金庸武侠里的所有武功,这可能吗?现实中很难,但“绝悟“做到了。 11月28日腾讯宣布,由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI“绝悟”推出升级版本。“绝悟”一年内掌握的英雄数从1个增加到100+个,实现了王者荣耀英雄池的完全解禁,此版本因此得名“绝悟完全体”。 这意味着,腾讯策略协作型AI的算法能力进一步得到提升,达到了国际领先水平。 升级后的“绝悟”AI不但掌握王者荣耀所有英雄的所有技能,能应对高达10的15次方的英雄组合数变化,还“自带军师”,能够做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。 目前,这一“绝悟”完全体版本已在王者荣耀 App 限时开放,公众都可与之对战,亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。11 月 14 日至 30 日,绝悟在 20 个关卡的能力将不断提升,最强的20级于11月28日开放,接受 5v5 的组队挑战。 相关研究还被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录,展现出腾讯国际一流的 AI 研究与应用能力。 强化学习相关研究被 AI 顶级会议 NeurIPS 2020 收录 由于MOBA游戏本身的复杂性,现有的工作无法很好地解决智能体阵容组合数随着英雄池扩大而爆炸增长的问题,例如,OpenAI的Dota

文献笔记:Issues in Using Function Approximation for Reinforcement Learning

99封情书 提交于 2020-12-02 07:04:51
该篇论文描述了采用函数逼近法进行深度强化学习所遇到的问题,即会产生过高估计。 所谓函数逼近,指的是采用复杂函数估计state-value function值。一般Q-learning有以下表示: \[\mathcal { Q } ( s , a ) \quad - \quad r _ { s } ^ { a } + \gamma \underset { \hat { a } \text { accion } } { \max } \mathcal { Q } \left( s ^ { \prime } , \hat { a } \right) \] 假设我们采用一个函数Q_approx(s,a)对真实的Q_target(s,a)进行估计,若设估计误差为$Y_{s'}^{\hat{a}}$,则具有下面等式: \[\mathcal { Q } ^ { \text { approx } } \left( s ^ { \prime } , \hat { a } \right) = \mathcal { Q } ^ { \text { target } } \left( s ^ { \prime } , \hat { a } \right) + Y _ { s ^ { \prime } } ^ { \hat { a } }\] 我们希望估计误差为稳定的,若强化学习算法收敛,$Y_{s'}^{

马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

删除回忆录丶 提交于 2020-11-26 13:56:32
上文介绍了马尔科夫决策过程之Markov Processes(马尔科夫过程),可以移步到下面: 马尔科夫决策过程之Markov Processes(马尔科夫过程) 本文我们总结一下马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程),value function等知识点。 1Markov Reward Process 马尔科夫奖励过程在马尔科夫过程的基础上增加了奖励R和衰减系数γ:<S,P,R,γ>。 R是一个奖励函数。S状态下的奖励是某一时刻(t)处在状态s下在下一个时刻(t+1)能获得的奖励期望,如下: 这里大家可能有疑问的是为什么 Rt+1而不是Rt,我们更倾向于理解起来这相当于离开这个状态才能获得奖励而不是进入这个状态即获得奖励。视频中也有学生请教了David。 David的回答:David指出这仅是一个约定,为了在描述RL问题中涉及到的观测O、行为A、和奖励R时比较方便。 他同时指出如果把奖励改为Rt而不是Rt+1,只要规定好,本质上意义是相同的,在表述上可以把奖励描述为“当进入某个状态会获得相应的奖励”。大家认为是约定就好。 详细的定义如下: 2Example: Student MRP 下图是一个“马尔科夫奖励过程”图示的例子,在“马尔科夫过程”基础上增加了针对每一个状态的奖励。 举例说明:当学生处在第一节课(Class1)时,他

【强化学习】马尔科夫决策过程之Bellman Equation(贝尔曼方程)

拥有回忆 提交于 2020-11-26 13:54:28
前面总结了马尔科夫决策过程之Markov Processes(马尔科夫过程),见下文:马尔科夫决策过程之Markov Processes(马尔科夫过程) 马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程),见下文:马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程) 本文总结一下马尔科夫决策过程之Bellman Equation(贝尔曼方程) 1Bellman Equation for MRPs 首先我们从value function的角度进行理解,value function可以分为两部分: 见下面的推导公式: 我们直接从第一行到最后一行是比较好理解的,因为从状态s到状态s+1,是不确定,还是之前的例子。 比如掷骰子游戏,当前点数是1的情况下,下一个状态有可能是1,2,3,4,5,6的任意一种状态可能,所以最外层会有一个期望符号。 如果我们跟着一直推下来的话:有疑问的会在导出最后一行时,将G(t+1)变成了v(St+1)。其理由是收获的期望等于收获的期望的期望。参考叶强童鞋的理解。 则最后我们得到了针对MRP的Bellman方程: 通过方程可以看出v(s)由两部分组成,一是该状态的即时奖励期望,即时奖励期望等于即时奖励,因为根据即时奖励的定义,它与下一个状态无关。 这里解释一下为什么会有期望符合

深度学习的中文资源,教程推荐!

假如想象 提交于 2020-11-25 08:33:30
教材,教程,中文的,直对问题回答一波: 注意:我认为教程不在多,在于精,网上很多教程,但下面我整理一份我认为比较靠谱的中文机器学习和深度学习基础教程。在学习基础的同时,应该要学好英语! python零基础开始,推荐廖雪峰python教程 ,2,3自选 1 机器学习: 《机器学习实战》入门必备,不难,容易上手,而且可以增加兴趣,缺点:理论不够深入 《机器学习》西瓜书,《统计学习方法》理论上的经典,理论详细又深入,真的值得一看。缺点:有点枯燥,建议结合机器学习实战。 2 深度学习框架和库(撸起代码来): 先来代码,我始终觉得,若理论很枯燥,那先用代码来提提兴趣。 TensorFlow 官方文档中文版 ,官方的,靠谱!tensorflow神器,绝对要有啊! 机器学习系列 | 莫烦Python ,再次推荐莫凡教程,这里有很多教程,推荐其中的numpy,pytorch教程。优点:简单,易懂,推荐pytorch好好学,比tensorflow灵活,个人感觉。缺点:有些过于简单。 3 深度学习: 吴恩达的deeplearning.ai,这个在网易云课堂有中文字幕版的-- 链接 。这个入门深度学习可以有。吴老师的课,通俗,易懂,最重要的:可靠 经典的cs231n,官网 链接 ,cs231n是有笔记的- 链接 ,当然,知乎上的一些大神对这个笔记进行了翻译--- 链接 。如果看英文很吃力,参考这个翻译

谈谈实现小样本学习的两条路径

半世苍凉 提交于 2020-11-24 09:53:03
来源:混沌巡洋舰 小样本学习是当下机器学习界的一个核心课题。大数据是当下深度学习的咽喉,面临收集成本昂贵,甚至根本无法采集的弊端, 小样本学习的实践价值不言而喻。对于众多产业来说, 真正能够收集到大量样本的是极少数情况,比如人脸识别,互联网上的文本等。而更广大的行业, 数据本身收集就很难,一些隐私伦理等障碍难以跨越,比收集数据更难的还有标注,大数据支撑的机器学习基本使用无望。 所谓小样本学习,就是使用远小于深度学习所需要的数据样本量, 达到接近甚至超越大数据深度学习的效果,也即是小样本学习的本质就是学习的效果与数据比值的提升, 或者说单位数据产生的模型收益增大了 。 与之高度相关的课题其实是迁移学习, 元学习, 提高模型泛化性能, 这些方法, 本质是在不对数据使用量进行限定的情况下, 如何让同一模型用到更广泛的数据分布和更多的任务, 因此它们是一颗硬币的两面。多一分泛化能力,就少一点数据成本。 那么, 小样本学习究竟有没有可能?这个问题其实是细思恐极。因为这个命题就像永动机一样, 似乎违反了能量守恒。不应该是有多少数据, 有多少模型效果吗?这里事实上一被忽略的盲点是先验知识, 二被忽略的是盲点是数据利用效率。 如果没有任何先验知识, 当然是有多少数据有多少模型。然而, 如果先验知识是充足的, 那么其实可以数据不足, 知识来凑。另一条路则是提高单位数据的使用效率,

6位图灵奖得主,10多位院士,19个分论坛:北京智源大会邀你共同探索AI下一个十年

房东的猫 提交于 2020-11-18 03:53:56
编者按: 届时也请大家关注我们的“AI科技女性专题”,还有精彩的AI TIME论道,6月智源大会见! 长按上图或点击「阅读原文」免费注册参会 2020年,是一个十年的结束,也是下一个十年的开始。 过去十年,人工智能在深度学习算法、大规模算力和新型芯片、互联网收集的海量数据等因素的共同驱动下,经历了波澜壮阔的迅速发展,开始深刻改变我们生活、学习和工作的方方面面。 未来十年,人工智能将如何发展,如何影响整个社会?这将是一项复杂的系统工程——如何构建多学科开放协同的创新体系,如何推进人工智能与经济社会发展深度融合,如何建立人工智能安全可控的治理体系,如何与各国携手开展重大共性挑战的研究与合作?这些问题都亟须全球学术和产业界有识之士共同探索。 2020年6月21-24日 , 第二届 北京智源大会 ( 官网:https://2020.baai.ac.cn )将邀请 包括6位图灵奖获得者、10多院士在内的上百位人工智能领袖 ,回顾过去,展望未来,深入系统探讨“ 人工智能的下一个十年 ”。 01 口碑盛会,内行人的视角 2019年,首届北京智源大会定位 “真正内行的AI盛会”,向世界展示了北京人工智能开放、活跃、重视可持续发展的面貌。 2020北京智源大会继续关注国际性、权威性和专业性,以营造学术氛围,促进国际交流与合作,打造世界人工智能学术高地

论文浅尝

[亡魂溺海] 提交于 2020-11-17 03:55:17
论文笔记整理:谭亦鸣,东南大学博士生。 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。 作者提出的方法大致可以描述为: 1.基于实体的上下文关系,将分布于文本中的实体融合为一个实体图; 2.通过证据关系及类型,从实体图中抽取子图,构成推理链(同时也获得对应的局部文本信息); 3.基于推理链,构建了一个整合的“生成-评价”网络模型,实现多跳问题的生成。 其中,作者将生成过程(生成器)设计为一个强化了问题句法和语义合理性的seq2seq模型; 在评价方面,作者通过建立一个混合监督学习与强化学习的评价机制,同时用于生成模型的优化。 本工作使用的数据集为:HotpotQA 问题生成方法的主要作用是构建伪训练标注集用于弥补数据集不足的问题。 背景与动机 本工作主要关联的一个NLP是:多跳机器阅读理解:即使机器完全理解文本语义,并回答一般的问题(尤其是需要学习推理)。因此这里的问题生成主要基于包含多实体/关系的文本数据。 从现有的问题生成方法上看: 1. 基于模板的方法受限于手写模板对于问题类型的覆盖能力; 2. 目前的 seq2seq 问题生成方法无法捕获和合成多个句子之间的证据(evidence,本质上,连续的relation)。

NeurIPS 2020 | 清华大学提出:通用、高效的神经网络自适应推理框架

邮差的信 提交于 2020-11-17 03:45:34
来源:人工智能AI技术 本文 约3400字 ,建议阅读 7 分钟 本文介绍我们被NeurIPS 2020会议录用的一篇文章。 本文主要介绍我们被NeurIPS 2020会议录用的一篇文章:Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification。 论文: https://arxiv.org/abs/2010.05300 代码和预训练模型已经在Github上面放出: https://github.com/blackfeather-wang/GFNet-Pytorch 这项工作提出了一个通用于 绝大多数CNN 的自适应推理框架,其效果比较明显,在同等精度的条件下, 将MobileNetV3的平均推理速度加快了30%,将ResNet/DenseNet加速了3倍以上,且在iPhone XS Max上的实际测速和理论结果高度吻合。 此外,它的计算开销可以简单地 动态在线调整,无需额外训练。 (太长不看版)下面一张图可以概括我们做的事情:将图像识别建模为序列决策过程,先将缩略图输入神经网络(Glance),再不断选择最关键的图像区域进行处理(Focus,利用强化学习实现),直至网络产生一个足够可信的预测结果时停止;对于简单和困难的样本分配不同的计算资源,以提升整体效率。