强化学习

EAS:基于网络转换的神经网络结构搜索 | AAAI 2018

ぃ、小莉子 提交于 2020-08-13 18:58:44
论文提出经济实惠且高效的神经网络结构搜索算法EAS,使用RL agent作为meta-controller,学习通过网络变换进行结构空间探索。从指定的网络开始,通过function-preserving transformation不断重用其权重,EAS能够重用之前学习到的知识进行高效地探索新的结构,仅需要10 GPU days即可   来源:晓飞的算法工程笔记 公众号 论文: Efficient Architecture Search by Network Transformation 论文地址: https://arxiv.org/abs/1707.04873 Introduction   为了加速神经网络搜索过程,论文提出EAS(Efficient Architecture Search),meta-controller通过网络转化(network transformation)操作进行结构空间探索,操作包含拓宽层,插入层,增加skip-connections等。为了继续使用学习到的权重,基于function-preserving transformation来初始化新的不同参数的网络,再进一步训练来提高性能,能够显著地加速训练过程。对于meta-controller,则结合了最近的强化学习方法 Architecture Search by Net

学术分享丨轮式移动操作机器人研究概览

偶尔善良 提交于 2020-08-13 13:44:31
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《轮式移动操作机器人研究概览》。   2020年初突如其来的新冠疫情给全世界人民带来了沉重的伤害,病毒强大的传染性,时刻威胁着人类生命的安全。具有操作功能的可移动平台可有效协助和替代医务人员在传染病房的部分工作,最大限度的降低病毒的传播和保护健康医务人员。根据当前移动操作机器人的研究,其主要由移动底盘和操作机械臂组成,其中移动底盘又分为轮式、腿式、履带式和轮腿复合式,而轮式移动底盘以其结构简单,容易控制,可扩展性强、移动灵活等特点,得到广泛应用。随着定位导航、深度学习的深入研究,使搭载机械臂的移动机器人完成类人的操作成为可能,全球的研究人员对此进行了广泛研究并在室内室外坏境中进行了大量实验验证,下面就近几年的基于轮式移动底盘的移动操作机器人研究概览如下。   Cosero[1]是德国波恩大学的Sven Behnke团队根据家庭环境中的日常操作任务而研制的一款仿人操作机器人(如图1(a)(b))。机器人底部配备了四轮独立转向行走机构,以便在灵活的通过狭窄通道,上部配备了两个7自由度机械臂已完成拟人的操作

干货!3 个重要因素,带你看透 AI 技术架构方案的可行性

一笑奈何 提交于 2020-08-13 13:30:13
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 人工智能这几年发展的如火如荼,不仅在计算机视觉和自然语言处理领域发生了翻天覆地的变革,在其他领域也掀起了技术革新的浪潮。无论是在新业务上的尝试,还是对旧有业务对改造升级,AI这个奔涌了60多年的“后浪”,正潜移默化的影响着我们传统的技术架构观念。 AI架构(尤其是以机器学习和深度学习为代表的架构方案)已经成为我们技术架构选型中的一个新的选项。 你是否需要AI架构的解决方案?AI架构选型的主要依据是什么?这是我们今天主要讨论的问题。 我们先来看一个典型的AI架构: 1、首先需要采集训练模型所需要的数据,这些数据有可能来自业务系统本身,如CTR预估任务中的用户点击数据、用户下单数据等;也有可能来系统外部,公开购买或自主爬取,如图片分类任务中的图片、NLP任务中的语料等。 2、这些数据被收集起来后,经过清洗、加工,被存储起来,因为毕竟不是只用一次。一般是存储在分布式存储设备(如HDFS)或云端,多数公司还会建立自己的数据平台,保存在数据仓库中,长期积累下来。 3、需要使用的时候,先进行数据筛选,选择合适的特征数据,然后经过数据预处理,送入到算法模型中。模型的搭建可选的技术框架很多,可以是基于spark mllib,也可以是sklearn、tensorflow、pytorch等

人工智能真的有那么神秘么,推荐一份机器学习入门书单搞定它!

﹥>﹥吖頭↗ 提交于 2020-08-13 11:50:30
​ 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径。 2020年,似乎没有哪一个方向能比机器学习还要火热了,即使我们不打算从事算法方向,了解一点机器学习的基础知识也不是什么坏事,这一份书单,将带你入门基础的机器学习知识。 机器学习系列书单 ​ 图解机器学习   《图解机器学习》用丰富的图示,从ZUI小二乘法出发,对基于ZUI小二乘法实现的各种机器学习算法进行了详细的介绍。第Ⅰ部分介绍了机器学习领域的概况;第Ⅱ部分和第Ⅲ部分分别介绍了各种有监督的回归算法和分类算法;第Ⅳ部分介绍了各种监督学习算法;第Ⅴ部分介绍了机器学习领域中的新兴算法。书中大部分算法都有相应的MATLAB程序源代码,可以用来进行简单的测试。 作者简介   杉山将,1974年生于大阪。东京工业大学计算机工程学博士毕业,现为东京大学教授、日本国立信息学研究所客座教授。主要从事机器学习的理论研究和算法开发,以及在信号和图像处理等方面的应用。2011年获日本信息处理学会长尾真纪念特别奖。著有《统计机器学习》、DensityRatioEstimationinMachineLearning等

Github上有趣的项目,用机器学习训练AI下五子棋

泄露秘密 提交于 2020-08-13 11:37:34
谷歌旗下人工智能公司 DeepMind 发布了一篇新论文,它讲述了团队如何利用 AlphaGo 的机器学习系统,构建了新的项目 AlphaZero。AlphaZero 使用了名为「强化学习」(reinforcement learning)的 AI 技术,它只使用了基本规则,没有人的经验,从零开始训练,横扫了棋类游戏 AI。 今天,我们就给大家介绍一个GitHub上的有趣项目——用机器学习训练AI下五子棋。 这是一个将 AlphaZero 算法应用在五子棋的实现,由于五子棋相比围棋或国际象棋简单得多,所以只需几个小时就可以训练出一个不错的 AI 模型。 从上面的对局样例可以看到,AI 已经学会了怎么下五子棋,知道什么时候要去堵,怎么样才能赢,按我自己对阵 AI 的感受来说,要赢 AI 已经不容易了,经常会打平,有时候稍不留神就会输掉。 有兴趣的朋友可以移步项目地址:https://github.com/junxiaosong/AlphaZero_Gomoku 如此强的AI,你不来一局吗? 来源: oschina 链接: https://my.oschina.net/u/4329429/blog/4325018

人工智能、机器学习和深度学习之间的差异

霸气de小男生 提交于 2020-08-13 08:42:01
随着人工智能的巨大进步 – 从无人驾驶汽车领域的进步,到掌握扑克和围棋等游戏,以及自动化客户服务交互 – 这项先进技术将为企业带来革命性的变化。但是,AI,机器学习和深度学习这两个术语经常被随意使用,并且可以互换使用,因为每种技术之间存在重大差异。以下是这三种工具之间差异的指南,可帮助您掌握机器智能。 人工智能(AI) 人工智能是思考先进计算机智能的最广泛途径。1956年在达特茅斯人工智能会议上,该技术被描述为:“学习的每一个方面或智能的任何其他特征原则上都可以被精确地描述,以便机器可以被模拟。” 人工智能可以指任何从玩象棋游戏的计算机程序到亚马逊Alexa解释和响应语音的语音识别系统。该技术大致可以分为三类:狭义人工智能,人工智能(AGI)和超智能人工智能。 IBM的Deep Blue在1996年的比赛中击败国际象棋大师Garry Kasparov,或者在2016年击败了Lee Sedol的Google DeepMind的AlphaGo,它们都是狭义AI-AI的例子,它们擅长于一项特定任务。这与人工智能(AGI)不同,后者是人工智能,可以执行一系列任务。 超级智能AI让事情更进一步。正如尼克·博斯特罗姆所描述的那样,这是“在几乎所有领域都比人类最优秀的智慧更聪明的智慧,包括科学创造力,一般智慧和社交技巧。” 换句话说,就是机器超过了我们。 机器学习(ML)

强化学习的基本迭代方法

北城以北 提交于 2020-08-13 07:12:21
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 研究价值迭代和策略迭代。 本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,它直接导致Q-Learning。 你可以阅读我之前的一些文章(有意独立): 什么是马尔可夫决策过程?( https://towardsdatascience.com/what-is-a-markov-decision-process-anyways-bdab65fd310c ) 强化学习的线性代数( https://towardsdatascience.com/the-hidden-linear-algebra-of-reinforcement-learning-406efdf066a ) Q-Learning开启了我们所处的深度强化学习的浪潮,是强化学习学生学习策略的重要一环。 回顾马尔可夫决策过程 马尔可夫决策过程(MDPs)是支持强化学习(RL)的随机模型。如果你熟悉,你可以跳过这一部分,不过我增加了一些相关的解释。 定义 状态集$s\in S,动作集$a\in A$。状态和动作是代理程序所有可能的位置和动作的集合。在 高级强化学习 中,状态和动作是连续,所以这需要重新考虑我们的算法。 转换函数T

人工智能真的有那么神秘么,推荐一份机器学习入门书单搞定它!

江枫思渺然 提交于 2020-08-13 07:07:05
​ 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径。 2020年,似乎没有哪一个方向能比机器学习还要火热了,即使我们不打算从事算法方向,了解一点机器学习的基础知识也不是什么坏事,这一份书单,将带你入门基础的机器学习知识。 机器学习系列书单 ​ 图解机器学习   《图解机器学习》用丰富的图示,从ZUI小二乘法出发,对基于ZUI小二乘法实现的各种机器学习算法进行了详细的介绍。第Ⅰ部分介绍了机器学习领域的概况;第Ⅱ部分和第Ⅲ部分分别介绍了各种有监督的回归算法和分类算法;第Ⅳ部分介绍了各种监督学习算法;第Ⅴ部分介绍了机器学习领域中的新兴算法。书中大部分算法都有相应的MATLAB程序源代码,可以用来进行简单的测试。 作者简介   杉山将,1974年生于大阪。东京工业大学计算机工程学博士毕业,现为东京大学教授、日本国立信息学研究所客座教授。主要从事机器学习的理论研究和算法开发,以及在信号和图像处理等方面的应用。2011年获日本信息处理学会长尾真纪念特别奖。著有《统计机器学习》、DensityRatioEstimationinMachineLearning等

【2万字干货】利用深度学习最新前沿预测股价走势

∥☆過路亽.° 提交于 2020-08-13 06:45:07
https://zhuanlan.zhihu.com/p/56509499 正文 在本篇文章中,我们将创建一个完整的程序来预测股票价格的变动。为此,我们将使用生成对抗性网络(GAN),其中LSTM是一种递归神经网络,它是生成器,而卷积神经网络CNN是鉴别器。我们使用LSTM的原因很明显,我们试图预测时间序列数据。为什么我们使用GAN,特别是CNN作为鉴别器?这是一个好问题,后面会有专门的部分介绍。 当然,我们将对每个步骤会进行详细的介绍,但最难的部分是GAN:成功训练GAN非常棘手的部分是获得正确的超参数集。因此,我们将使用贝叶斯优化(以及高斯过程)和深度强化学习(DRL)来决定何时以及如何改变GAN的超参数(探索与开发的两难境地)。在创建强化学习时,我们将使用该领域的最新进展,如Rainbow和PPO。 我们将使用许多不同类型的输入数据。随着股票的历史交易数据和技术指标,我们将使用NLP最新的进展(使用Bidirectional Embedding Representations from Transformers,BERT,一种传输学习NLP)创建情绪分析(作为基本分析的来源),傅里叶变换提取总体趋势方向,stacked autoencoders识别其他高级特征,寻找相关资产的特征组合,ARIMA用于股票函数的近似度等等,以便尽可能多地获取关于股票的信息、模式、相关性等