BERT

【2万字干货】利用深度学习最新前沿预测股价走势

∥☆過路亽.° 提交于 2020-08-13 06:45:07
https://zhuanlan.zhihu.com/p/56509499 正文 在本篇文章中,我们将创建一个完整的程序来预测股票价格的变动。为此,我们将使用生成对抗性网络(GAN),其中LSTM是一种递归神经网络,它是生成器,而卷积神经网络CNN是鉴别器。我们使用LSTM的原因很明显,我们试图预测时间序列数据。为什么我们使用GAN,特别是CNN作为鉴别器?这是一个好问题,后面会有专门的部分介绍。 当然,我们将对每个步骤会进行详细的介绍,但最难的部分是GAN:成功训练GAN非常棘手的部分是获得正确的超参数集。因此,我们将使用贝叶斯优化(以及高斯过程)和深度强化学习(DRL)来决定何时以及如何改变GAN的超参数(探索与开发的两难境地)。在创建强化学习时,我们将使用该领域的最新进展,如Rainbow和PPO。 我们将使用许多不同类型的输入数据。随着股票的历史交易数据和技术指标,我们将使用NLP最新的进展(使用Bidirectional Embedding Representations from Transformers,BERT,一种传输学习NLP)创建情绪分析(作为基本分析的来源),傅里叶变换提取总体趋势方向,stacked autoencoders识别其他高级特征,寻找相关资产的特征组合,ARIMA用于股票函数的近似度等等,以便尽可能多地获取关于股票的信息、模式、相关性等

一周AI最火论文|移动端的3D实时CNN正在成为现实,加速框架起底

我是研究僧i 提交于 2020-08-13 06:06:29
      大数据文摘出品    作者:Christopher Dossman    编译:李雷、Luna、云舟   呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!   AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。   每周更新,做AI科研,每周从这一篇开始就够啦!    本周关键词 :推荐系统、3D建模、BERT    本周最佳学术研究    新一代推荐系统实验工具   如果你关注推荐系统,那么python版的LensKit推荐系统引擎库(LKPY)可能会引起你的兴趣。这是一个开源工具包,可用于构建、研究及学习推荐系统。   2010年LensKit 的Java版本首次发布,目前该工具已经应用于各种研究的发表、小规模生产部署以及线上(MOOC)和线下(传统教室)教育中。   在本文中,美国博伊西州立大学的研究人员提出了LensKit for Python项目,将原始工具重新构建为灵活易用的Python插件,用于推荐系统研发。   Python版的LensKit(LKPY)使研究人员和学生能够利用强大且不断发展的PyData和Python科学生态圈(包括scikit-learn,TensorFlow和PyTorch),构建健壮、灵活且可重复的实验系统。

美团搜索中NER技术的探索与实践

烈酒焚心 提交于 2020-08-13 03:22:26
1. 背景 命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。在美团搜索场景下,NER是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号,主要应用于搜索召回、用户意图识别、实体链接等环节,NER信号的质量,直接影响到用户的搜索体验。 下面将简述一下实体识别在搜索召回中的应用。在O2O搜索中,对商家POI的描述是商家名称、地址、品类等多个互相之间相关性并不高的文本域。如果对O2O搜索引擎也采用全部文本域命中求交的方式,就可能会产生大量的误召回。我们的解决方法如下图1所示,让特定的查询只在特定的文本域做倒排检索,我们称之为“结构化召回”,可保证召回商家的强相关性。举例来说,对于“海底捞”这样的请求,有些商家地址会描述为“海底捞附近几百米”,若采用全文本域检索这些商家就会被召回,显然这并不是用户想要的。而结构化召回基于NER将“海底捞”识别为商家,然后只在商家名相关文本域检索,从而只召回海底捞品牌商家,精准地满足了用户需求。 有别于其他应用场景

73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习

£可爱£侵袭症+ 提交于 2020-08-13 01:47:05
  机器之心报道    编辑:魔王、杜伟       在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。   Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。   自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。   那么,30 多年过去,神经网络的未来发展方向在哪里呢?   Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习 。   Hinton 的报告主要内容如下:    人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。   目前,无监督学习主要有两类方法。   第一类的典型代表是 BERT 和变分自编码器(VAE

模型跨界成潮流?OpenAI用GPT-2做图像分类,实现SOTA性能

孤人 提交于 2020-08-13 00:02:18
图像领域的 GPT 模型终于来了!OpenAI 推出了用于图像分类的模型 iGPT,该模型生成的特征在多个分类数据集上实现了当前 SOTA 性能,并且实现了良好的图像补全效果。 机器之心报道,参与:魔王、杜伟、小舟。 无监督和自监督学习,或者无人工标注数据的学习,这些都是机器学习领域长期存在的挑战。近期,BERT、GPT-2、RBERTa、T5 等 Transformer 模型以及其他变体在一系列语言任务上实现了最佳性能。然而,在生成用于图像分类的强特征方面却始终没有出现性能强大的模型。 这是因为,与 GPT-2 和 BERT 这类依赖于词预测的无监督学习算法相比,像素序列无法清楚地包含它们所属图像的标签。 近日,OpenAI 发布了一项新研究,旨在探索在图像上训练 GPT-2 的性能以及无监督准确率表现。研究者表示,BERT 和 GPT-2 等 Transformer 模型是域不可知的,这意味着它们可以直接应用于任何形式的 1D 序列。 OpenAI 研究者在图像上训练 GPT-2(这些图像被分解为长像素序列),他们称该模型称为 iGPT。结果发现这种模型似乎能够理解物体外观和类别等 2D 图像特征。iGPT 生成的各种一致性图像样本可以证明这一点,即使没有人为标签的指导。 论文地址: https:// cdn.openai.com/papers/G enerative

符号主义对深度学习的意义浅谈

南楼画角 提交于 2020-08-12 11:52:36
符号主义人工智能经历过古典时期的专家系统阶段, 中期的知识图谱阶段, 和近期深度学习和符号主义的再次联姻。 那么一个很重要的问题是符号主义为什么会复兴,它对当下的机器学习又有何意义? 参考阅读: Reconciling deep learning with symbolic artificial intelligence: representing objects and relations ​ www.sciencedirect.com 首先, 当下的深度学习有三个最主要的问题,很低的数据使用效率, 泛化能力, 可解释性,都可以从符号主义得到极大帮助。 这一点也不难理解, 所谓符号,多数指我们语言中那些经常被使用的抽象概念,这些概念再不同的任务和环境中被广泛使用组成新的概念,比如红色,圆形等,如果能够在不同任务中学习到这些最基本的元素, 那么无疑将极大的改善数据使用效率和泛化能力。同时, 从视频,声音等信息中提取出的这种符号,几乎一定是和我们的自然语言有所对应,和我们的认知概念有所对应,因此,提取这些符号将极大助力模型的可解释性。从这两个角度看, 符号的确可以解决深度学习的几个根本问题。 更加重要的是,符号的使用和我们的推理认知能力极为相关,这也是为什么在第一代的人工智能时代人们如此重视符号, 因为它是逻辑思维的载体,有了符号我们可以在符号基础上罗列各种运算,进行关系预测和推理等

万字长文带你一览ICLR2020最新Transformers进展(上)

拈花ヽ惹草 提交于 2020-08-12 09:04:41
原文链接: http:// gsarti.com/post/iclr202 0-transformers/ 作者:Gabriele Sarti 编译:朴素人工智能 Transformer体系结构最初是在 Attention is All You Need 中提出的,它是顺序语言建模方法(如 LSTM )的有效替代方法,此后在自然语言处理领域变得无处不在,从而推动了大多数下游语言的发展相关任务。 今年的国际学习表示法会议( ICLR )中有许多文章对原始的Transformer及其最新的 BERT 和 Transformer-XL 进行了改进。这些改进措施解决了Transformer众所周知的弱点: 优化自我注意力计算。 在模型架构中注入出于语言动机的归纳偏差。 使模型更具参数和数据效率。 这篇文章希望总结并提供这些贡献的高层概述,重点介绍更好和更快的自然语言处理模型的当前趋势。所有图像版权归其各自的论文作者。 1. Self-atention的变体 可缩放的点积自注意力是标准Transformer层中的主要组件之一,无论依赖关系在输入中的距离如何,都可以对其进行建模。自注意力机制大家都已经很熟悉,其公式为: 进一步,多头自注意力机制的公式为: 本节介绍了自我注意组件的一些变体,使其在上下文处理中更加有效。 Long-Short Range Attention Introduced

刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型

允我心安 提交于 2020-08-12 06:20:49
  机器之心发布    机器之心编辑部       全球计算机视觉顶会 CVPR 2020 上,百度共计有 22 篇论文被接收。这篇 Oral 论文中,百度提出了 ActBERT,该模型可以学习叙述性视频进行无监督视频文本关系,并提出纠缠编码器对局部区域、全局动作与语言文字进行编码。最终在 5 项相关测评任务上取得了 SOTA 结果。   ActBERT 在下游视频和语言任务上,即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术,展示了其在视频文本表示方面的学习能力。      论文:《ActBERT: Learning Global-Local Video-Text Representations》   论文链接: http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf   现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式,通过聚类离散化将视觉特征转化为视觉单词。但是,详细的局部信息,例如,互动对象,在聚类过程中可能会丢失,防止模型进一步发现细粒度的视频和文字对应关系。本文提出 ActBERT

超级计算实现自然语言训练

狂风中的少年 提交于 2020-08-12 03:44:17
云栖号最佳实践:【 点击查看更多上云最佳实践 】 这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 本实践适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS 进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙 GPU 云服务器搭建 NLP 训练环境 使用 SCC 的 RDMA 网络 使用 CPFS 存储训练数据 使用飞天 AI 加速训练工具加速训练 产品列表 神龙云服务器 GPU (SCCGN6) 超级计算集群 SCC 共享存储 CPFS 直达最佳实践 》》 来源: oschina 链接: https://my.oschina.net/u/4295062/blog/4332200

长篇大论中抓取精华,语音实时生成知识图谱,这个系统可谓是首个

徘徊边缘 提交于 2020-08-11 23:35:23
基于文本生成知识图谱的研究很常见,但是基于语音生成知识图谱,这算是第一家。 机器之心报道,机器之心编辑部。 在这个信息飞速发展的时代,数据呈爆炸式增长。而互联网信息的多元性、异构性、结构松散等特点,给人们有效获取信息和知识带来了挑战。 知识图谱(Knowledge Graph) 凭借强大的语义处理能力,为互联网时代的知识化组织和智能应用奠定了基础,并被广泛应用于智能搜索、知识问答、舆情分析等领域。 然而在现有的技术中,大部分研究集中在从文本转化到图谱的过程,却忽略了从语音实时转换到图谱的研究。 本文将介绍一篇关于从语音到图谱构建的论文,可以说是该领域的首个相关研究。这篇来自明略科学院知识工程实验室的论文已被人工智能国际顶会 IJCAI 2020 Demonstrations Track 接收。 论文链接: https://www. ijcai.org/Proceedings/2 020/0777.pdf 论文简介 近年来语音接口受到极大欢迎。以智能音箱为例,截至 2019 年,估计有 35%的美国家庭至少配备了一个智能音箱。目前尽管存在成熟的语音识别工具包和商业语音转录系统,但面对长篇大论的交谈中,人们仍难以集中精力抓取其中的关键所在。而知识图谱可以追溯到早期的专家系统研究和语义网络,它提供了一种方法,这种方法可以可视化演讲者的关键思想。 对于知识图谱的概念有不同的定义