Intrinsic

如何提高强化学习效果?内在奖励和辅助任务

随声附和 提交于 2020-09-27 16:53:24
     文字整理:智源社区 吴继芳   如何能够提高强化学习效果?   这是美国密西根大学教授Satinder Singh长期以来致力于解决的问题。在2020北京智源大会上,Satinder Singh教授对这个问题进行了深度阐释,他通过Meta-Gradient方法来学习发现以往强化学习智能体中需要手动设置的参数:内在奖励和辅助任务问题。   Satinder Singh从近期关于强化学习的两个研究工作出发,针对如何通过数据驱动的方式学习到内在奖励函数,他提出了一个学习跨多生命周期(Lifetime)内部奖励函数的Meta-Gradient框架,同时设计了相关实验证明学习到的内在奖励函数能够捕获有用的规律,这些规律有助于强化学习过程中的Exploration和Exploitation,并且可以迁移到到不同的学习智能体和环境中。   针对于如何在数据中发现问题作为辅助任务,他扩展通用辅助任务架构,参数化表示General Value Functions,并通过Meta-Gradient方法学习更新参数发现问题。实验证明这个方法可以快速发现问题来提高强化学习效果。   Satinder Singh,美国密西根大学教授,Deep Mind科学家,AAAI Fellow。主要研究兴趣是人工智能(AI)的传统目标,即构建能够学习在复杂、动态和不确定环境中具有广泛能力的自主智能体

为什么必须将代码从 x86 迁移到 ARM,这篇文章给你答案

半腔热情 提交于 2020-08-17 16:54:46
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! “我们非常希望 ARM 和鲲鹏的生态能成为下一个计算产业迭代的方向。”在 6 月 8 日于成都举办的华为 DevRun 开发者沙龙——四川鲲鹏开发者嘉年华上,华为鲲鹏计算产业开源与生态营销总监梁冰对计算产业未来展望道。 新基建风口下,算力一跃成为了新的生产力,云、AI 与 5G 则是新的生产工具,技术聚变将引发商业裂变,带动各行各业的数字化快速发展。基于 5G 等新兴技术的创新应用催生多样化算力的需求,市场既需要通用计算算力也需要异构计算算力。此外,摩尔定律的逐渐放缓,让算力和性能陷入一系列发展瓶颈,市场对创新架构的需求日益加深,计算平台的创新之战一触即发。 在此背景下,x86 架构的不足越发明显,功耗大、通用寄存器数量少、计算机硬件利用率低、寻址范围小等问题凸显,难以跟上算力发展的速度。与此同时,ARM 架构在移动互联网盛行的当下却开始焕发出别样的生命力。 “基于 ARM 架构来设计的鲲鹏,其成功的前提是早早地便看到了未来计算机算力架构的迭代之路。对华为来说,不光要在中国携手合作伙伴共建鲲鹏生态,为更多企业带来价值,更为重要的是要融入全球 ARM 的生态,共同推进 ARM 进阶为下一代计算机平台的实施标准。”梁冰对鲲鹏生态的意义阐述道。 从 x86 迁移到 ARM

系列文章(十一)丨边缘计算的安全思考

∥☆過路亽.° 提交于 2020-08-17 11:40:06
*本文作者系VMware中国研发中心研发总监 路广 从 文章(二) 到 文章(十) ,我们讨论的重点都是边缘计算系统内对用户可直接产生使用价值的功能,涵盖构造、部署、编排、集成、管理、运维、智能加速等话题。本篇讨论的中心是安全,即如何降低风险、应对挑战,响应威胁。 在与众多用户的交流中,我们发现大家对安全的一个流行看法是:技术复杂的业务负担。即“完全不做不大好,做得太少易暴雷,做得太多划不来,做得很好显不出,做到多深难把握”。尤其是对于边缘计算这种新兴的计算模式,因为各种各样的原因,很多用户最关心的是它如何带来更多的业务价值,对于安全加固常常是次一级的考虑因素。 我们充分理解这样的考虑。本文试图以一种宏观的视角来描述云边协同环境内的安全状态,提出若干技术思路,以资普遍性的讨论。至于在某用户的某实际系统中应该如何实施,是利益相关方具体问题具体分析才可以的,不是本文的目标。 第十一篇 边缘计算的安全思考 原生安全 安全和边缘计算行业有一个很有意思的共同点,非常碎片化。 据统计,全球共有数千家安全厂商,分布在几十个不同的领域上。 内置 一般的安全产品经常是由系统平台厂商之外的独立专业厂商来提供的。就像在完整的衣服上打补丁:随着发现的问题增加,补丁也越来越多,最后整个系统的可维护性也越来越差。 究其根本原因,外接的安全性意味着太多产品、代理和策略集。 如果能将安全性内置到基础架构中

如何在JavaScript中将字符串转换为布尔值?

帅比萌擦擦* 提交于 2020-08-15 08:07:21
问题: Can I convert a string representing a boolean value (eg, 'true', 'false') into a intrinsic type in JavaScript? 我可以将表示布尔值(例如“ true”,“ false”)的字符串转换为JavaScript中的固有类型吗? I have a hidden form in HTML that is updated based upon a user's selection within a list. 我有一个隐藏的HTML表单,该表单会根据用户在列表中的选择进行更新。 This form contains some fields which represent boolean values and are dynamically populated with an intrinsic boolean value. 此表单包含一些表示布尔值的字段,并使用内部布尔值动态填充。 However, once this value is placed into the hidden input field it becomes a string. 但是,一旦将此值放入隐藏的输入字段中,它将成为一个字符串。 The only way I could find to

强化学习如何使用内在动机?

别等时光非礼了梦想. 提交于 2020-08-14 12:45:53
本文在回顾内在动机的生理学知识的基础上,探讨了内在动机在强化学习中的应用。 机器之心分析师网络,作者:仵冀颖,编辑:Joni Zhong。 「 内在动机 」 (Intrinsic Motivation) 这一概念最初是在心理学中提出并发展起来的。由于其在制造开放式学习机器和机器人方面的潜力,这一概念正日益受到认知科学的关注。 所谓动机(Motivation)是指生物体的行为受到三个因素影响:(1)不可抗拒的外部影响;(2)内在的需求、动力、计划等;(3)充当目标或动机的外部对象或情况。 第一个因素很大程度上独立于生物体的内部状态,例如,从痛苦刺激中反射性退出,这叫做 外在动机 (Extrinsic Motivation)。后两个因素涉及假设的内部状态,这些内部状态被认为是解释行为的必要条件,称之为 内在动机 。 从心理学的角度分析,研究内在动机的主要目的是解释克服行为主义学习和驱动理论的困难,例如:解释为什么动物会对一些中性刺激(突然的光照、喂食等)产生特定的条件反射等反应。另一方面,研究内在动机的目的是探讨行动在内在动机中的重要性,例如解释一个人设法通过其行为来影响环境或可以自主地设定自己的事实有关的重要性。 Baldassarre 在文献 [1] 中从生物学的角度探讨内在动机。特别地,他对于内在动机和外在动机的区别进行了详细的分析。外在动机是指因某些外部提供的奖励而做某事

边缘计算的安全思考|系列文章(11)

有些话、适合烂在心里 提交于 2020-08-10 16:17:41
题图摄于旧金山市政广场 近期文章: VMware招聘机器学习和云原生开发工程师 vSphere Bitfusion运行TensorFlow深度学习任务 Harbor从CNCF毕业啦! KubeFATE: 用云原生技术赋能联邦学习 (转发 VMware 中国研发中心系列文章,本文作者系 VMware 边缘计算实验室主任) 在与众多用户的交流中,我们发现大家对安全的一个流行看法是:技术复杂的业务负担。即“完全不做不大好,做得太少易暴雷,做得太多划不来,做得很好显不出,做到多深难把握”。尤其是对于边缘计算这种新兴的计算模式,因为各种各样的原因,很多用户最关心的是它如何带来更多的业务价值,对于安全加固常常是次一级的考虑因素。 我们充分理解这样的考虑。本文试图以一种宏观的视角来描述云边协同环境内的安全状态,提出若干技术思路,以资普遍性的讨论。至于在某用户的某实际系统中应该如何实施,是利益相关方具体问题具体分析才可以的,不是本文的目标。 第十一篇 边缘计算的安全思考 原生安全 安全和边缘计算行业有一个很有意思的共同点,非常碎片化。 据统计,全球共有数千家安全厂商,分布在几十个不同的领域上。 内置 一般的安全产品经常是由系统平台厂商之外的独立专业厂商来提供的。就像在完整的衣服上打补丁:随着发现的问题增加,补丁也越来越多,最后整个系统的可维护性也越来越差。 究其根本原因,外接的安全性意味着太多产品

第六节、双目视觉之相机标定

孤街醉人 提交于 2020-08-09 15:43:09
去年三四月份实验室做了一个机器人与视觉识别系统的项目,主要就是利用双目摄像头进行物体空间坐标定位,然后利用机器人进行抓取物体。当时我才研一,还是个菜鸡,项目主要是几个学长负责做的,我也就是参与打打酱油,混混经验。现在过了一年多了,机器人一直在实验室放着,空着也是浪费,所以就想搞点事情。这里我们就先从利用双目摄像头进行空间定位说起,因此这是整个项目的核心部分。 双目视觉是建立在几何数学的基础上,数学推导是枯燥乏味的。因此这里不去过多的介绍数学原理,只是简要的叙述一下双目视觉的流程。 双目视觉主要包括相机标定、图片畸变矫正、摄像机校正、图片匹配、3D恢复五个部分。 下面我们从相机标定开始说起。相机 标定的目的有两个。 第一,要还原摄像头成像的物体在真实世界的位置就需要知道世界中的物体到计算机图像平面是如何变换的,相机标定的目的之一就是为了搞清楚这种变换关系,求解内外参数矩阵。 第二,摄像机的透视投影有个很大的问题——畸变。摄像头标定的另一个目的就是求解畸变系数,然后用于图像矫正。 一、三大坐标系 谈到相机标定,我们不得不说起摄相机坐标系、世界坐标系、图像坐标系。 上图是三个坐标的示意简图,通过它大家可以对三个坐标有一个直观的认识。 世界坐标系$(X_w,Y_w,Z_w)$: 目标物体位置的参考系。除了无穷远,世界坐标可以根据运算方便与否自由放置, 单位为长度单位如$mm$。

设计模式 ~ 享元模式

时光怂恿深爱的人放手 提交于 2020-07-24 01:54:49
概念 内部状态、外部状态、享元池 角色 & UML Demo: 编辑器图片重用 - Java Reference 概念 享元模式(Flyweight Pattern),是以 共享 的方式,对 大量细粒度对象 重用,来减少内存的使用(避免大量重复地创建、销毁对象)。 名称中的 Flyweight ,是搏击比赛中体重级别之一,中文称为 蝇量级 或 次最轻量级 。把这个单词移植到软件工程中,也是用来表示特别小的对象,即细粒度对象。由此可见,享元模式的特点不仅是 共享 ,更是强调 细粒度的共享 。 内部状态、外部状态、享元池 享元类中可以共享的 相同的 内容称为 内部状态(Intrinsic State) ,需要外部环境设置的特异内容称为 外部状态(Extrinsic State) ,二者相互独立,彼此解耦,组合在一起共同构成了 享元类 。不同但是有关系的(比如同一类的)享元对象聚合在一起构成了一个 享元池 ,使用一个 享元工厂 来维护这个 享元池 。 这样在使用的时候,根据需求,调用享元工厂(在其维护的享元池中)获取需要的享元对象,然后对其配置外部状态,来使用。 由于区分了 内部状态 和 外部状态 ,因此可以通过设置不同的外部状态使得 相同的对象具有一些不同的特征 ,而相同的内部状态使可以共享的。所以,享元模式的本质是 将完整的对象分解出更细的粒度,来解耦变与不变,并共享不变 ,实现

《一天一模式》— 享元模式

烂漫一生 提交于 2020-05-05 04:12:51
一、享元模式的概念 运用共享技术有效地支持大量细粒度对象的复用。系统只使用少量的对象,而这些对象都很相似,状态变化很小,可以实现对象的多次复用。由于享元模式要求能够共享的对象必须是细粒度对象,因此它又称为轻量级模式,它是一种对象结构型模式。 二、什么时候使用享元模式 我个人理解为,把基本不变、并可以多次使用的细颗粒度(小)对象,加载到内存中保存起来,然后对外提供业务。业务是指组合这些细颗粒度对象提供更丰富的数据,每次使用时不必再加载一次,直接从内存中读取。 享元模式是一个考虑系统性能的设计模式,通过使用享元模式可以节约内存空间,提高系统的性能。 三、如何使用享元模式 3.1 实现方式 还是以一个需求进行说明:假设汽车有很多故障的解决信息FAQ信息,当发生某种故障时,找出对应的几条FAQ信息,把他们返回给用户。 看一下类图和代码: // 模拟故障数据库 // 假设是在磁盘系统保存这些数据 public class DTCDataBase { private static Map<String, String> info = new HashMap<>(); static { info.put("1", "故障A"); info.put("2", "故障B"); info.put("3", "故障C"); info.put("4", "故障D"); info.put("5", "故障E

【今日CV 计算机视觉论文速览】Thu, 28 Mar 2019

流过昼夜 提交于 2020-04-30 19:49:07
今日CS.CV计算机视觉论文速览 Thu, 28 Mar 2019 Totally 32 papers Daily Computer Vision Papers 1.Title: GAN-based Pose-aware Regulation for Video-based Person Re-identification Authors:Alessandro Borgia, Yang Hua, Elyor Kodirov, Neil M. Robertson 2.Title: Privacy Protection in Street-View Panoramas using Depth and Multi-View Imagery Authors:Ries Uittenbogaard, Clint Sebastian, Julien Vijverberg, Bas Boom, Dariu M. Gavrila, Peter H.N. de With 3.Title: Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving Authors:Xinzhu Ma, Zhihui Wang, Haojie Li, Wanli Ouyang,