强化学习

4.4.H-J-B方程*

杀马特。学长 韩版系。学妹 提交于 2020-09-30 15:15:01
在前面,我们所讨论的都是时间离散的MDP。但是,在传统的最优控制问题中,人们更习惯于讨论时间连续的MDP;本书中对“最优控制”的定义是求解环境已知的MDP。不过,一般语境下的最优控制更侧重于研究动作、状态与时间都连续的MDP。我们将用两章来讨论时间为连续变量的最优控制问题,分别讲解基于价值的方法与基于策略的方法。 需要提前声明的是,接下来的两章H-J-B方程与变分原理,由于考虑的是连续时间的问题,分别需要用到偏微分方程与变分法(常微分方程),需要一定的数学基础。如果没有学过有关的课程,会学起来非常吃力。事实上,这两章的内容能为强化学习提供一些思路,但是和后面强化学习的具体算法关系并不大(因为强化学习研究时间是离散的情况)。因此,这两章我们打上星号,作为补充内容。如果读者看着吃力可以直接跳过,这不会影响后面关于强化学习的学习。 不过另一方面,虽然本章的H-J-B方程并一定需要读者掌握,但是本章一定程度上相当于最优控制中基于价值的算法的一个总结。本章第四节总结了所有和价值有关的方程与公式,读者可以直接前往观看。 下面,让我们先来明确我们要讨论的问题是什么: 1、时间连续的最优控制问题 首先,我们的状态与控制函数不再是序列 与 的形式,而是连续函数 与 的形式。其次, 时刻的损失也不再是 的形式,而应该是 的形式,也可以将其简记为 。为了简单起见,我们考虑损失函数时齐的情况,即损失为 或

爱了!计算机视觉 colab notebook 列表

强颜欢笑 提交于 2020-09-29 20:33:39
这是阿三的第 131 期分享 作者 | 阿三 首发 | 程序员遇见GitHub 大家好,我是阿三,今天给大家带来的是Google colab上非常出名的一些计算机视觉项目的notebook。 一. Google Colab 这些项目都是依托与Google的Python在线编程的免费服务Colab,没有使用过的同学也可以去了解一下这个。 这些notebooks包含计算机视觉的很多方面,像目标检测,分类等等 每个项目都有文字教程与源代码 代码还可以直接在colab中运行,想要了解相关项目的同学不容错过。 网站地址: https://www. qblocks.cloud/creators/ computer-vision-google-colab-notebooks 推荐阅读: 我教你如何读博! 牛逼!轻松高效处理文本数据神器 B站强化学习大结局! 如此神器,得之可得顶会! 兄弟们!神经网络画图,有它不愁啊 太赞了!东北大学朱靖波,肖桐团队开源《机器翻译:统计建模与深度学习方法》 当年毕业答辩!遗憾没有它... 已开源!所有李航老师《统计学习方法》代码实现 这个男人,惊为天人!手推PRML! 它来了!《深度学习》(花书) 数学推导、原理剖析与代码实现 你们心心念念的MIT教授Gilbert Strang线性代数彩板笔记!强烈推荐! GitHub超过9800star!学习Pytorch

Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

跟風遠走 提交于 2020-09-29 05:40:28
作者 | 刘早起 来源 | 早起Python 导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。 本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本与数据集完整复现一遍,如果你正处于机器学习入门阶段相信一定会有所收获。 项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。这一耸人听闻的悲剧震惊了国际社会。 沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存,例如妇女,儿童和上层阶级。 在这个项目中,我们被要求完成对可能生存的人群的分析。并且需要使用机器学习工具来预测哪些乘客可以幸免于悲剧。 数据读取与检查 首先导入与数据处理相关的库,并检查版本与数据文件夹 #导入相关库 import sys

如何提高强化学习效果?内在奖励和辅助任务

随声附和 提交于 2020-09-27 16:53:24
     文字整理:智源社区 吴继芳   如何能够提高强化学习效果?   这是美国密西根大学教授Satinder Singh长期以来致力于解决的问题。在2020北京智源大会上,Satinder Singh教授对这个问题进行了深度阐释,他通过Meta-Gradient方法来学习发现以往强化学习智能体中需要手动设置的参数:内在奖励和辅助任务问题。   Satinder Singh从近期关于强化学习的两个研究工作出发,针对如何通过数据驱动的方式学习到内在奖励函数,他提出了一个学习跨多生命周期(Lifetime)内部奖励函数的Meta-Gradient框架,同时设计了相关实验证明学习到的内在奖励函数能够捕获有用的规律,这些规律有助于强化学习过程中的Exploration和Exploitation,并且可以迁移到到不同的学习智能体和环境中。   针对于如何在数据中发现问题作为辅助任务,他扩展通用辅助任务架构,参数化表示General Value Functions,并通过Meta-Gradient方法学习更新参数发现问题。实验证明这个方法可以快速发现问题来提高强化学习效果。   Satinder Singh,美国密西根大学教授,Deep Mind科学家,AAAI Fellow。主要研究兴趣是人工智能(AI)的传统目标,即构建能够学习在复杂、动态和不确定环境中具有广泛能力的自主智能体

强化学习(九)Deep Q-Learning进阶之Nature DQN

淺唱寂寞╮ 提交于 2020-09-26 17:36:57
    在 强化学习(八)价值函数的近似表示与Deep Q-Learning 中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。     本章内容主要参考了ICML 2016的 deep RL tutorial 和Nature DQN的论文。 1. DQN(NIPS 2013)的问题     在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现,虽然它可以训练像CartPole这样的简单游戏,但是有很多问题。这里我们先讨论第一个问题。     注意到DQN(NIPS 2013)里面,我们使用的目标Q值的计算方式:$$y_j= \begin{cases} R_j& {is\_end_j\; is \;true}\\ R_j + \gamma\max_{a'}Q(\phi(S'_j),A'_j,w) & {is\_end_j \;is\; false} \end{cases}$$     这里目标Q值的计算使用到了当前要训练的Q网络参数来计算$Q(\phi(S'_j),A'_j,w)$,而实际上,我们又希望通过$y_j$来后续更新Q网络参数。这样两者循环依赖

Python机器学习教程

帅比萌擦擦* 提交于 2020-09-24 07:30:30
本机器学习教程提供了机器学习的基本和中间概念。它是为完全入门的学生和专业工作人员而设计的。在本教程的最后,您不会成为机器学习方面的专家,但是您将能够制作能够执行复杂任务(例如,预测房屋价格或从尺寸识别虹膜的种类)的机器学习模型。花瓣和萼片的长度。如果您还不是一个完整的初学者,并且对机器学习有所了解,那么我建议您从子主题八开始,即机器学习类型。 在进入本教程之前,您应该熟悉Pandas和NumPy。这对于理解实现部分很重要。以下是我们将在本教程中讨论的子主题: 什么是机器学习? 它与传统编程有何不同? 为什么我们需要机器学习? 机器学习的历史 目前的机器学习 机器学习的特点 机器学习的最佳语言是什么? 机器学习的类型 监督学习 无监督学习 强化学习 机器学习算法 机器学习步骤 机器学习的优势 未来的机器学习 什么是机器学习? 亚瑟·塞缪尔(Arthur Samuel)在1959年创造了“机器学习”一词。他是人工智能和计算机游戏的先驱,并将机器学习定义为“使计算机无需明确编程即可学习的能力的研究领域”。 简而言之,机器学习是人工智能(AI)的一种应用程序,它使程序(软件)可以从经验中学习并提高自己在完成一项任务时的自我,而无需进行明确的编程。例如,您将如何编写一个程序来根据水果的各种属性(例如颜色,形状,大小或任何其他属性)识别水果? 一种方法是对所有内容进行硬编码

机器人懂点「常识」后,找东西方便多了:CMU打造新型语义导航AI机器人

拥有回忆 提交于 2020-08-19 23:03:13
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 想让机器人像人一样思考,似乎一直是个难题。 例如,让智(zhi)能(zhang)机器人去客厅拿个遥控器,结果看到机器人在厨房翻箱倒柜… 好消息是,这个问题现在被CMU解决了。 CMU研究团队打造出了一款拥有人类「常识」的导航机器人,让找东西变得更方便。 这款机器人能利用AI判断家中最可能找到目标物体的地点,从而尽快找到它。 例如,让机器人去拿放在「植物」旁边的遥控器,机器人几乎立即检测出了「植物」盆栽所在的位置,从而检测到遥控器的存在。 项目已被ECCV 2020收录,并获得了居住地目标导航挑战赛的第一名。 一起来看看实现的过程。 让机器人「学点常识」 事实上,以往大部分采用机器学习训练的语义导航机器人,找东西的效果都不太好。 相比于人类潜意识中形成的常识,机器人往往有点“死脑筋”,它们更倾向于去记住目标物体的位置。 但物体所处的场景往往非常复杂,而且彼此间差异很大(正所谓每个人的家,乱得各有章法),如果单纯以大量不同场景对系统进行训练,模型泛化能力都不太好。 于是,相比于用更多的样本对系统进行训练,这次研究者们换了一种思路: 采用半监督学习的方式,使用一种名为semantic curiosity(语义好奇心)的奖励机制对系统进行训练。 训练的核心目的,是让系统基于对语义的

调查:人工智能技术的应用现状

孤者浪人 提交于 2020-08-19 17:30:54
本文最初发表在 Towards Data Science 博客上,经原作者 Luke Posey 授权,InfoQ 中文站翻译并分享。 作者 | Luke Posey 译者 | Sambodhi 策划 & 编辑 | 刘燕 随着工具和基础设施的成熟,应用人工智能不断加速发展。将这些基础设施与强大的人才库和热情、随时可获得的资本以及客户采用人工智能 / 机器学习的高度意愿结合起来,你就有了一些特别的东西。我们正在迈向一个新的十年,在这个十年里,人工智能 / 机器学习将以更快的速度为消费者和企业创造真正的价值。 定义术语 应用人工智能 : 任何与将人工智能研究从实验室带到用例,以及两者之间的一切有关的事情。从基础设施和工具,到硬件,到工业中的部署面,再到模型本身,从人工智能研究的前沿到用例,都需要共同努力才能取得尖端进展。在我们这个领域中,成熟度的一个很好的检验标准,就是看一个新的进步从纸上到生产所需的时间。就在几年前,你还可以浏览该领域的一些主要进展,并努力寻找真正的用例;这种情况正迅速开始改变。 一些选择例子: 神经网络研究实现自动驾驶汽车(Tesla、Cruise、Waymo 等)。 像 BERT 和 GPT-2/3 这样的自然语言处理改进了搜索和助理(Google Search、Siri、Google Assistant、SoundHound、Clinc)。

不会做菜?你需要能理解菜谱的烹饪机器人

和自甴很熟 提交于 2020-08-18 11:54:24
   作者:张雨嘉    编辑:Joni    本文主要介绍与用户和厨房交互的烹饪机器人:多模态的烹饪辅助、自学习菜谱的系统以及以人为反馈的优化烹饪方法。   在人们对未来生活的幻想中,「自动化」占据非常大的比重。除了已经有的家居自动化、办公自动化外,烹饪自动化可以说是 90 后、00 后的一个福音。   烹饪机器人的研究,多数以日本的研究者为主,比如日本的 Ogura 等人 [1] 开发了一个机器人系统,可以用多种方式切菜。Kormushev 等人 [2] 在 2010 年 IEEE 上的 Robot Motor Skill Coordination with EM-based Reinforcement Learning 论文中提出了一种向机器人传授翻转煎饼的方法,并通过强化学习来改善动作准确率。   作为一个整合的系统,Yamaguchi 总结了烹饪机器人在不同部分的难点和挑战:一是如何正确操作可形变物体(如敲鸡蛋、剥香蕉等),这需要对物体建立具有鲁棒性的动力学模型;二是为了使用多种烹饪技能,机器人必须具备一个灵巧的机械手并会像人类学习;最后我们的目的是制作美味的食物,所以机器人也得具备强大的触觉、味觉或特殊用途传感器,以优化烹饪过程。   但该文没有提到的是,通过我们的日常经验可以知道,烹饪不同于利用机械臂装配,它并不是一种标准化的过程。不同的人有不同的烹饪技巧和烹饪风格

Hinton等6位图灵奖得主、百余位顶级学者邀你加入群聊,共话人工智能下一个十年

邮差的信 提交于 2020-08-18 07:41:05
  自2009年深度学习崛起以来,第三波人工智能浪潮席卷全球,推动了新一波技术革命。   在这波澜壮阔的11年,我们见证了技术突破、应用创新与产业变革。   技术上,深度学习首先带来计算机视觉、语音识别等领域的突破,让机器识别的准确率一步步突破人类水平;在应用上,深度学习、强化学习、联邦学习等学习范式在安防、游戏、金融等不同场景带来新的创新。人工智能技术,在这些领域由点到面的落地应用,逐步推动着整个产业的变革。   技术变革,需要不断的推陈出新。在这11年中,如果说前半期是深度学习的时代,那么近年来我们能够看到更多不同的概念继续推动这人工智能的发展:符号主义、因果关系、联邦学习,等等。   2020年,是一个十年的结束,也是下一个十年的开始。   在未来的十年,人工智能技术将如何发展?如何推动AI技术在医疗、交通等领域的落地应用?如何构建AI基础设置、规范AI伦理,都是当前人工智能领域亟待解决的问题。   依托北京在人工智能领域的科研和人才优势,第二届北京智源大会将于6月21-24日线上开幕。   此届大会围绕技术、应用、基础设施等话题,广泛邀请国内外人工智能领域的顶级专家学者,探索人工智能前沿科技发展趋势,对人工智能基础研究发展现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题展开分享与讨论。本届大会主席由智源研究院理事长、源码资本投资合伙人 张宏江