强化学习

资源|5本深度学习和10本机器学习书籍(免费下载)

旧城冷巷雨未停 提交于 2020-05-04 04:36:45
作者:lily 5本深度学习书籍资源推荐 深度学习(Deep Learning)byIan Goodfellow and Yoshua Bengio and Aaron Courville 中文版下载地址:https://github.com/exacity/deeplearningbook-chinese R语言深度学习实践指南(Deep Learning Made Easy with R)by Dr. N.D. Lewis 下载地址:http://download.csdn.net/detail/oscer2016/9829915 深度学习基础(Fundamentals of Deep Learning)by Nikhil Buduma 下载地址:http://www.taodocs.com/p-32598980.html 神经网络和统计学习(Neural networks and statistical learning) by K.-L. Du and M.N.s. Swamy 下载地址:http://download.csdn.net/detail/oscer2016/9829919 神经网络和深度学习(Neural Networks and Deep Learning) by Michael Niels 下载地址:http://download.csdn.net

强化学习(十三) 策略梯度(Policy Gradient)

风流意气都作罢 提交于 2020-05-02 07:41:52
    在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。     本文参考了Sutton的强化学习书第13章和策略梯度的 论文 。 1. Value Based强化学习方法的不足     DQN系列强化学习算法主要的问题主要有三点。     第一点是对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作。虽然有NAF DQN之类的变通方法,但是并不优雅。比如我们之前提到的经典的冰球世界(PuckWorld) 强化学习问题,具体的动态demo见 这里 。环境由一个正方形区域构成代表着冰球场地,场地内大的圆代表着运动员个体,小圆代表着目标冰球。在这个正方形环境中,小圆会每隔一定的时间随机改变在场地的位置,而代表个体的大圆的任务就是尽可能快的接近冰球目标。大圆可以操作的行为是在水平和竖直共四个方向上施加一个时间乘时长的力,借此来改变大圆的速度。假如此时这个力的大小和方向是可以灵活选择的,那么使用普通的DQN之类的算法就不好做了

人工智能怎么教?清华张钹院士刚刚给我们讲了一堂课

人盡茶涼 提交于 2020-05-01 21:41:09
今天上午,张钹院士畅谈了清华是怎样办人工智能专业的。 机器之心报道,参与:泽南、蛋酱。 在上一个十年里,我们见证了人工智能的「复兴」,见证了人工智能技术对于众多行业的颠覆性变革,也感受到了人工智能对每个人生活的深刻影响。随之而来的,人工智能专业也成为了当前高校中最热门的专业之一。 2020 年 3 月,教育部公布的新增备案本科专业名单中,约 180 所高校通过了新增人工智能专业的审批,其中既包括理工类、综合类高校,也包括语言类、医药类等专业性较强的高校。 有人说,人工智能是当前最好的计算机专业。 但作为新兴专业,如何办好还需要教育者们的大量探索。 4 月 30 日,中国科学院院士、清华大学人工智能研究院院长张钹为分享了关于清华大学计算机系人工智能专业建设的经验与思考。 在著名计算机科学排名「CS Ranking」中,清华大学的人工智能学科在 2010 年至今排名仅次于 CMU,如果时间拉近到 2015 年至今范围内,清华则排名第一。 清华大学计算机系成立于 1958 年,是我国计算机学科领域教学水平最高、科研综合实力最强、影响力最广的计算机系之一。 2018 年 6 月 28 日,清华大学人工智能研究院正式成立。中国科学院院士、清华大学计算机系教授张钹出任首任院长,图灵奖获得者、清华大学交叉信息研究院院长姚期智担纲学术委员会主任。 一年后,清华大学宣布成立「人工智能学堂班」,也就是

(转)知识图谱研究综述: 表示学习、知识获取与应用

ぐ巨炮叔叔 提交于 2020-04-27 18:56:59
摘要 人类知识提供了对世界的认知理解。表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向。在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。知识图谱嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了不同任务的数据集和开源库的集合。最后,我们对几个有前景的研究方向进行了深入的展望。 1. 引言 融合人类知识是人工智能的研究方向之一。知识表示与推理是受人类解决问题方式的启发,为智能系统表示知识以获得解决复杂任务的能力。近年来,知识图谱作为结构化人类知识的一种形式,受到了学术界和产业界的广泛关注。知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关联,实体及其关系的语义描述包含定义良好的类型和属性。属性图或性质图被广泛使用,其中节点和关系具有属性或性质。 知识图谱与知识库是同义的,只是略有不同。当考虑知识图谱的图结构时,知识图谱可以看作是一个图

Model-Agnostic Meta-Learning (MAML)模型介绍及算法详解(转载)

﹥>﹥吖頭↗ 提交于 2020-04-27 14:10:48
转载于: Model-Agnostic Meta-Learning (MAML)模型介绍及算法详解 MAML在学术界已经是非常重要的模型了,论文Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks自2017年发表至今已经收获了400+的引用。由于当前网上关于MAML的中文介绍少之又少,可能很多小伙伴对其还不是特别理解。所以今天我整理了这段时间来的学习心得,与大家分享自己对MAML的认识与理解。MAML可以用于Supervised Regression and Classification以及Reinforcement Learning。由于我对强化学习不是特别了解,因此这篇文章,均是基于MAML在Supervised Regression and Classification中的运用。 一、一些相关概念的介绍 在原论文中,作者直接引用了许多元学习相关的概念,例如 meta-learning, model-agnostic, N-way K-shot, tasks等等,其中有些概念在MAML中还有特殊的含义。在此,我尽量用通俗易懂的方式对这些概念为大家做一个介绍。 (1) meta-learning meta-learning即元学习,也可以称为“learning to learn”。常见的深度学习模型

强化学习(四)用蒙特卡罗法(MC)求解

混江龙づ霸主 提交于 2020-04-27 08:07:34
    在 强化学习(三)用动态规划(DP)求解 中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。     蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。 1. 不基于模型的强化学习问题定义     在动态规划法中,强化学习的两个问题是这样定义的:     预测问题,即给定强化学习的6个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 给定策略$\pi$, 求解该策略的状态价值函数$v(\pi)$     控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 求解最优的状态价值函数$v_{*}$和最优策略$\pi_{*}$      可见, 模型状态转化概率矩阵$P$始终是已知的,即MDP已知,对于这样的强化学习问题

【转】《西瓜书机器学习详细公式推导版》发布

拜拜、爱过 提交于 2020-04-26 05:45:26
转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。 使用说明 南瓜书仅仅是西瓜书的一些细微补充而已,里面的内容都是以西瓜书的内容为前置知识进行表述的,所以南瓜书的最佳使用方法是以西瓜书为主线,遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书。若南瓜书里没有你想要查阅的公式,可以 点击这里 提交你希望补充推导或者解析的公式编号,我们看到后会尽快进行补充。 在线阅读地址 https://datawhalechina.github.io/pumpkin-book/ 目录 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 支持向量机 第7章 贝叶斯分类器 第8章 集成学习 第9章

从云到端,谷歌的AI芯片2.0

ぐ巨炮叔叔 提交于 2020-04-24 12:47:05
来源:脑极体 得芯片者得天下。 我们可以把这句话再延伸一下说,得AI芯片者得未来的天下。 对于智能终端厂商来说,能够自研SoC芯片似乎才是顶级实力的象征。 众所周知,盘踞全球智能手机前三甲的三星、华为、苹果,无一例外都拥有自研的SoC芯片。 (2020智能手机芯片跑分数据TOP10) 现在,经历了多年的辅助AI芯片的经验积累之后,谷歌终于要入场智能终端的核心硬件——SoC处理器芯片了。 据外媒Axois报告,谷歌在自研处理器方面取得了显著进步,最近其自主研发的 SoC 芯片已经成功流片。 据悉,该芯片是谷歌与三星联合开发,采用5nm工艺制造,“2+2+4”三架构设计的8核CPU集群,以及搭载全新ARM公版架构的GPU,同时在ISP和NPU上集成了谷歌Visual Core AI视觉处理器。 这让谷歌的终端芯片能够更好地支持AI技术,比如大幅提升谷歌助手的交互体验。 在上市计划上,谷歌的这一SoC处理器芯片预计将于率先部署在下一代Pixel手机以及谷歌笔记本Chromebook中。 谷歌的这一举动被视为对苹果自研处理器模式的靠拢,从“原生系统+最主流旗舰芯片”变为“原生系统+自研芯片”,谷歌的用意肯定不仅是想摆脱高通芯片的钳制,更重要的是想通过自研芯片实现更好的软硬件结合,使得安卓系统在自家硬件上发挥更大的性能优势。 我们其实知道,自研芯片并不能在硬件利润上带给谷歌更多的价值

用Python写出Gameboy模拟器,还能训练AI模型:丹麦小哥的大学项目火了

99封情书 提交于 2020-04-23 22:22:47
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 感觉用 Atari 游戏研究人工智能有点「不够接地气」?现在我们可以使用 Gameboy 模拟器了。 对于很多 80 后、90 后来说,任天堂 Gameboy 代表了青春的很大一部分。很多我们耳熟能详的游戏都是最初搭载在这款 8 位游戏掌机上的,包括鼎鼎有名的《马里奥》、《塞尔达》系列。对于国内玩家来说,我们玩得最多的则应该是《口袋妖怪》系列了。 这款游戏机距离首次发布已过去了 30 年时间,不过人们对于它的热情却丝毫不减。昨天,一款利用 Python 编写的 Gameboy 模拟器在社交网络上吸引了人们的广泛关注。 爷的青春回来了?作者在 Reddit 上发出的帖子迅速获得了上千点赞。 该项目的作者之一 Mads Ynddal 宣布,PyBoy 的 1.0 版正式发布。 PyBoy 是什么? 简而言之,它是一个完全用 Python 从头开始编写的 Game Boy 模拟器,并且支持通过 API 编写脚本。研究者添加了类型定义,使其可以使用 Cython 编译软件,从而获得与用 C 和 C++编写的模拟器相媲美的性能。 特点 PyBoy 被设计成通过 Python 访问,因此支持并鼓励人们做实验研究,机器人和人工智能在作此尝试。研究者正在构建游戏特定的包装器,目前

OpenRes 0: 从头开始研究Deep Reasoning

帅比萌擦擦* 提交于 2020-04-16 15:49:45
【推荐阅读】微服务还能火多久?>>> 2020真的是不太平的一年,Covid-19全球肆虐,百年一遇,真希望2020能够重新开始。虽然如此,不能停止对通用人工智能AGI的探索呀! 2020年对于通用人工智能的研究来说也是很不一样的一年,需要改变。2019年Deep Reinforcement Learning进一步大爆发,Deepmind和OpenAI在星际,Dota,机器手上都展现了突破性的进展,然而DRL的通用性,泛化性上却仍然是一个很大的难题。 Yoshua Bengio和Yann Lecun在最近的Neurips和AAAI会议上为大家指出了Deep Learning新的研究方向,即从System 1到System 2: System 2 按Bengio的话来说有很多种,我们可以简化的讲就是 去解决人也需要思考一下的任务 。我比较喜欢Reasoning推理这个词,推理是一个非常宽泛的概念,但却是我们日常生活每时每刻都需要的。从某种意义上讲,图像识别也是一种推理过程,只是相对比较直接。这种直接的推理问题现在的Deep Learning已经基本解决了,所以接下来就是要啃硬骨头,去解决复杂的推理问题。并且,AI只有在具备真正的推理能力下,才能实现所谓的ood (out-of-distribution Generalization),也就是更强的泛化能力