强化学习

华为“天才少年”导师:不要只关注年薪

北城以北 提交于 2020-08-09 07:31:10
  “过分关注年薪的报道铺天盖地,已经给张霁带来不小压力。希望媒体不要总以多少年薪为导向。”   8 月 5 日,以年薪 201 万元入职华为的华中科技大学毕业生张霁的导师周可教授,对 DeepTech 如是称。      图 | 张霁   周可表示,“天才少年”固然可以激励同学们做好科研,但仅仅关注年薪是不够的。他认为,做科研是老老实实的工作,科研本身也存在很多乐趣。现在中国大企业的技术需求很旺盛,为科研提供了实际系统和实际数据,这是科研人员的幸运。但张霁毕竟刚参加工作,后面的路还很长。   据了解,张霁是湖北咸宁人,博士毕业于华中科技大学武汉光电国家研究中心计算机系统结构专业,读博期间主要在该校计算机存储实验室做研究,目前,该实验室已经跻身全国顶尖水平。   而张霁的主要研究方向是 AI for System,读博期间他还曾去纽约大学库朗数学研究所访问,后在阿姆斯特丹大学 INDE Lab 进行博士后研究。   谈及对该生的印象,周可表示,张霁最大的特点就是主动学习能力强,他对于新知识有一种强烈渴求,一旦发现问题,就要想办法解决。在该校学习期间,张霁曾被周可派去腾讯实习,并联合后者发表过论文成果。   概括来说,他以第一作者在 ATC、DAC、ICPP、SIGMOD、VLDB、IEEE TPDS 等会议和期刊上发表多篇论文,其在数据库和磁盘故障预测方面,已经做出一定成果。  

机器人是如何模仿动物行为,执行更复杂的动作?谷歌这样说

我是研究僧i 提交于 2020-08-09 05:04:53
自本田于2000年发布ASIMO机器人以来,在过去的二十年中,人类机器人大大提高了其执行功能的能力,例如抓取物体和使用计算机视觉来检测事物。尽管有这些改进,但它们的行走,跳跃和执行其他复杂功能的能力像人类一样流畅的腿动作一直是机器人专家的挑战。 近年来,网络安全专家、东方联盟创始人郭盛华透露:“人工智能机器人学习和设计的新进展是利用动物行为的数据和见解,使有腿机器人能够以更像人类的方式运动。“ 谷歌和加州大学伯克利分校的研究人员在今年早些时候发表了研究成果,展示了一种机器人通过模仿来模仿狗的动作来学习如何走路。单独的工作表明,使用深度强化学习算法,机器人可以成功地通过反复试验来学习自我行走。 模仿学习尤其已经在机器人技术中用于各种用例,例如OpenAI 致力于通过模仿来帮助机器人抓取物体的工作,但是它在机器人运动中的使用是新颖且令人鼓舞的。它可以使机器人获取执行要学习的动作的专家生成的输入数据,并将其与深度学习技术结合使用,以更有效地学习动作。 近期使用模仿和更广泛的深度学习技术进行的许多工作都涉及小型机器人,将相同功能应用于真人大小的机器人将面临许多挑战,但是这些进步为改善机器人运动性提供了创新的新途径。 动物行为的灵感也已扩展到机器人设计,诸如敏捷机器人公司和波士顿动力公司等公司采用了力建模技术并集成了全身传感器,以帮助他们的机器人更紧密地模仿动物如何执行复杂的动作。

“深度学习之父”后悔投少了?90后华人学者:我们只卖AI软件|专访

会有一股神秘感。 提交于 2020-08-08 19:32:34
   “如果 AI 在现实场景中不具备自主性,就没有任何价值,也没有任何意义。” 90 后华人学者陈曦(Peter Xi Chen)的观点一针见血、毫不妥协。   陈曦是美国加州大学伯克利分校的博士、OpenAI 的前研究科学家,他的另外一个身份 — — AI 机器人公司 Covariant 的联合创始人兼首席执行官 — — 如今让他更加亮眼。“就我个人而言,其实我特别喜欢做两类事情,一类是在科研上实现突破,解决科技难题,另一类就是做有价值的事。”   一个多月前,Covariant 刚刚完成了 4,000 万美元的 B 轮融资,正式退出了两年多的 “隐身模式”。 消息一出,2018 年图灵奖得主、“深度学习之父” 杰弗里 · 辛顿(Geoffrey Hinton)随即发推表示十分后悔,甚至感叹 “我应该多投资 100 倍”。      (来源:Twitter)   对于此般认可,陈曦表示,“辛顿之所以会看好并投资我们,一方面,他认识我们团队中的很多人,认可我们的实力;另一方面,他在一年前就看过并肯定了 Covariant 的技术成果。”    相比于辛顿的认可,更令 Covariant 吸引眼球的是,这家公司背后的投资人阵容堪称豪华。 不仅有感慨 “投少了” 的辛顿,另外一位图灵奖得主、“卷积神经网络之父” 杨立昆(Yann LeCun),华人学者、斯坦福大学教授李飞飞

机器学习 --基础入门介绍 他来啦!!!

只愿长相守 提交于 2020-08-08 12:15:49
行业热词解释 机器学习基本术语 假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的: 城市 最高温度 最低温度 相对湿度 某时刻风速 A市 36℃ 28℃ 58% 16.7km/h B市 28℃ 17℃ 86% / C市 34℃ 29℃ 39% 20.4km/h 在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为 数据集 (data set)。表格中的每一行,也就是某城市和它的情况被称为一个 样例 (sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为 特征 (feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为 属性值 (attribute value)。数据中也可能会有 缺失数据 (missing data),例如B市的某时刻风速,我们会将它视作缺失数据。 如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为 标签 (label),用于标记数据。值得注意的是,数据集中不一定包含标签信息,而这种区别会引起方法上的差别。我们可以给上述示例加上一组标签: 城市 天气 A市 晴朗 B市 阴雨 C市

基于点云的机器人抓取识别综述

左心房为你撑大大i 提交于 2020-08-08 08:45:29
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 机器人作为面向未来的智能制造重点技术,其具有可控性强、灵活性高以及配置柔性等优势,被广泛的应用于零件加工、协同搬运、物体抓取与部件装配等领域,如图1-1所示。然而,传统机器人系统大多都是在结构化环境中,通过离线编程的方式进行单一重复作业,已经无法满足人们在生产与生活中日益提升的智能化需求。随着计算机技术与传感器技术的不断发展,我们期望构建出拥有更加灵敏的感知系统与更加智慧的决策能力的智能化机器人系统。 图1-1 机器人的应用领域 图1-2 机器人抓取的操作流程与步骤 机器人抓取与放置是智能化机器人系统的集中体现,也是生产与生活中十分重要的环节,近几年来在工业界与学术界得到了深入而广泛的研究。具体的机器人抓取可以分为视觉感知部分与机器人抓取操作部分。视觉感知部分又包含:模型与场景表征、目标识别与定位这两个步骤;而机器人抓取操作部分则包含:系统标定、运动控制与抓取规划等步骤,如图1-2所示。这其中,机器人通过视觉传感器感知环境并实现对目标物体的识别与定位,也就是视觉感知部分,是十分重要的环节,其直接决定了后续机器人的抓取精度。 图1-3 二维图像的部分缺陷 受益于计算机算力的不断提高以及传感器成像水平的高速发展,目前针对结构化环境或者半结构化环境中,基于二维图像的机器人平面单目标物体的抓取技术已经趋于成熟

强化学习的基本迭代方法

断了今生、忘了曾经 提交于 2020-08-08 05:16:40
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 研究价值迭代和策略迭代。 本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,它直接导致Q-Learning。 你可以阅读我之前的一些文章(有意独立): 什么是马尔可夫决策过程?( https://towardsdatascience.com/what-is-a-markov-decision-process-anyways-bdab65fd310c ) 强化学习的线性代数( https://towardsdatascience.com/the-hidden-linear-algebra-of-reinforcement-learning-406efdf066a ) Q-Learning开启了我们所处的深度强化学习的浪潮,是强化学习学生学习策略的重要一环。 回顾马尔可夫决策过程 马尔可夫决策过程(MDPs)是支持强化学习(RL)的随机模型。如果你熟悉,你可以跳过这一部分,不过我增加了一些相关的解释。 定义 状态集 \(s\in S,动作集\) a\in A$。状态和动作是代理程序所有可能的位置和动作的集合。在 高级强化学习 中,状态和动作是连续,所以这需要重新考虑我们的算法。

强化学习(九)Deep Q-Learning进阶之Nature DQN

家住魔仙堡 提交于 2020-08-08 02:20:07
    在 强化学习(八)价值函数的近似表示与Deep Q-Learning 中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。     本章内容主要参考了ICML 2016的 deep RL tutorial 和Nature DQN的论文。 1. DQN(NIPS 2013)的问题     在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现,虽然它可以训练像CartPole这样的简单游戏,但是有很多问题。这里我们先讨论第一个问题。     注意到DQN(NIPS 2013)里面,我们使用的目标Q值的计算方式:$$y_j= \begin{cases} R_j& {is\_end_j\; is \;true}\\ R_j + \gamma\max_{a'}Q(\phi(S'_j),A'_j,w) & {is\_end_j \;is\; false} \end{cases}$$     这里目标Q值的计算使用到了当前要训练的Q网络参数来计算$Q(\phi(S'_j),A'_j,w)$,而实际上,我们又希望通过$y_j$来后续更新Q网络参数。这样两者循环依赖

亲测有用!轻松get新技能的四步学习法

爷,独闯天下 提交于 2020-08-06 12:06:39
全文共1965字,预计学习时长7分钟 图源:unsplash 置身于滚滚的庞大信息流当中,我们常常会不知所措。新框架和新技术接踵而至,每个人都在声称自己的比其他框架和技术更快、更安全、更高效。作为开发人员,很可能会感到迷茫焦虑,甚至可能患上“冒名顶替综合症”,觉得自己努力学习不过是为了沽名钓誉罢了。 要学的东西似乎有点儿太多了,该如何下手呢?想要把握好学习的节奏,就必须找到适合自己的学习方法。 本文将分享笔者在学习编程时用到的四步学习法,亲测有效,你可以以之为参考,找到适合自己的学习方法。 第一步:明确基本概念 学什么比怎么学更重要。 时间有限,因此要选择适合自己的领域战斗。无论你选择扮演何种角色,都必须深入理解与之相关的一系列基本概念,为将来的学习打下坚实的基础。 明确基本概念,我们需要挖掘互联网信息: 例如,MDN是web技术的最佳参考文档。如果想成为一名web开发人员,应该首先查阅MDN文档中列出的每种基本技术——HTML,CSS,Javascript,HTTP,API / DOM。 这可能会很无聊乏味,而且不酷也不时髦。但找出基本概念能帮你打下一个坚实的基础,学习效率提高十倍。 第二步:快速学习 刚开始学习编程的人常常误入歧途,深陷“教程地狱”无法自拔:不断学习一个又一个的教程,却没有什么实质性进步。 图源:unsplash 虽然教程是入门级学习不错的选择

什么是马尔可夫决策过程

安稳与你 提交于 2020-08-06 06:31:38
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 关于马尔可夫决策过程的马尔可夫是什么? 马尔可夫是安德烈·马尔科夫(Andrey Markov),​​他是著名的俄罗斯数学家,以其在随机过程中的工作而闻名。 “马尔可夫”通常意味着在当前状态下,未来和过去是独立的。 建立Markovian系统的关键思想是无记忆。无记忆是系统历史不会影响当前状态的想法。用概率表示法,无记忆性转化为这种情况。考虑一系列动作产生的轨迹,我们正在寻找当前动作将带给我们的位置。长的条件概率可能看起来像: 现在如果系统是Markovian,则历史将全部包含在当前状态中。因此,我们的第一步分配要简单得多。 这一步是改变计算效率的规则。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。 马尔可夫决策过程(MDP) MDP由以下定义: 状态集$s\in S。状态是代理程序所有可能的位置。在下面的示例中,它是机器人位置。 一组动作 \(a\in A\) 。动作是代理可以采取的所有可能动作的集合。在下面的示例中,这些动作的下方是{北,东,南,西}。 转换函数T(s,a,s')。T(s,a,s')保持MDP的不确定性。给定当前位置和给定动作,T决定下一个状态出现的频率。在下面的示例中,转换函数可能是下一个状态在80%的时间内处于目前动作方向,而在其他20

强化学习(四)用蒙特卡罗法(MC)求解

北战南征 提交于 2020-08-06 03:28:49
    在 强化学习(三)用动态规划(DP)求解 中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。     蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。 1. 不基于模型的强化学习问题定义     在动态规划法中,强化学习的两个问题是这样定义的:     预测问题,即给定强化学习的6个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 给定策略$\pi$, 求解该策略的状态价值函数$v(\pi)$     控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 求解最优的状态价值函数$v_{*}$和最优策略$\pi_{*}$      可见, 模型状态转化概率矩阵$P$始终是已知的,即MDP已知,对于这样的强化学习问题