BERT

【挑战】文本分类的挑战与机遇

旧城冷巷雨未停 提交于 2020-12-23 11:06:10
在深度学习的帮助下,文本分类在过去几年中取得了许多重大的进步。并且已经提出了几种新颖的思想(例如 neural embedding,注意力机制,self attention,Transformer,BERT 和 XLNet),这些思想在过去十年中取得了飞速发展。尽管取得了不错的进展,但仍然有许多挑战需要解决。本文介绍了其中一些挑战,并讨论我们认为将有助于推动该领域发展的研究方向。 更具挑战性的新数据集 尽管近年来已经公布了许多用于 常见文本分类任务 的大规模数据集,但是仍然需要 更具挑战性的新数据集,例如具有 多步推理的QA(QA with multi-step reasoning) 和 针对多语言文档(multi-lingual documents) 的文本分类。推出满足这些挑战性任务的 大规模标记数据集, 有助于推动这些领域的研究。 为常识建模 将 常识 整合到深度学习模型中,一定程度上能够提高 模型性能 和 泛化能力,这样的模式和人类 利用常识执行不同任务 的方式相同。例如,配备常识性知识库的问答系统 可以回答有关现实世界的问题。 常识 还有助于解决信息不完整情况下的问题。利用广泛存在的 常见对象或概念 的知识,人工智能系统可以像人们那样 对未知事物 基于“默认”假设 进行推理。尽管已经有工作利用该思想进行了情感分类研究,但仍需要进行更多研究以

用Siamese和Dual BERT来做多源文本分类

丶灬走出姿态 提交于 2020-12-19 06:56:49
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Marco Cerliani 编译:ronghuaiyang 正文共:2062 字 10 图 预计阅读时间:6 分钟 导读 使用不同的方式来使用BERT模型 。 在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为 transformers 的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。 作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。 我们使用了siamese结构,这是一个双路BERT ,用于多文本输入的分类。 数据 我们从Kaggle上收集数据集。新闻类别数据集:https://www.kaggle.com/rmisra/news-category-dataset包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介。我们总共有40多种不同类型的新闻。为了简单起见

AI助力短视频创作

为君一笑 提交于 2020-12-18 07:37:58
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。 文末了解《人工智能Mix》 AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。 - 大数据分析电影 这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。 实验结果: - 视频理解 主要是场景检测、自动切割、景深等任务。 - pyscenedetect 开源库 可以用来做视频摘要,自动剪辑之类的。 项目地址: https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io - AutoFlip 开源库 谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切

RoBERTa模型总结

巧了我就是萌 提交于 2020-12-18 04:14:53
<center> RoBERTa模型总结<center> 前言 ​ RoBERTa是在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中被提出的。此方法属于BERT的强化版本,也是BERT模型更为精细的调优版本。RoBERTa主要在 三方面 对之前提出的BERT做了该进, 其一 是模型的具体细节层面,改进了优化函数; 其二 是训练策略层面,改用了动态掩码的方式训练模型,证明了NSP(Next Sentence Prediction)训练策略的不足,采用了更大的batch size; 其三 是数据层面,一方面使用了更大的数据集,另一方面是使用BPE(Byte-Pair Encoding )来处理文本数据。 1. RoBERTa对一般BERT的模型细节进行了优化 Optimization ​ 原始BERT优化函数采用的是Adam默认的参数,其中$\beta_1=0.9, \beta_2 = 0.999$,在RoBERTa模型中考虑采用了更大的batches,所以将$\beta_2$改为了0.98。 2. RoBARTa对一般BERT的训练策略进行了优化 (1)动态掩码与静态掩码 原始静态mask : BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复)

清华大学教授:唐杰——深度分析:人工智能的下个十年

℡╲_俬逩灬. 提交于 2020-12-16 16:05:25
来源:图灵人工智能 唐杰教授从人工智能发展的历史开始,深入分析 人工智能近十年的发展 ,阐述了 人工智能在感知方面取得的重要成果 ,尤其提到 算法 是这个 感知时代 最重要、最具代表性的内容。 重点讲解了 BERT、ALBERT、MoCo2 等取得 快速进展的算法 。最后说到 下一波人工智能浪潮的兴起 ,就是实现 具有推理、可解释性、认知的人工智能 。 作者:唐杰教授 人工智能对社会和经济影响的日益凸显,各国政府也先后出台了对人工智能发展的政策,并将其上升到国家战略的高度。截至目前,包括美国、中国和欧盟在内的多国和地区颁布了国家层面的人工智能发展政策。 在这个时代背景下, 我们需要考虑人工智能未来十年会怎样发展。 首先,我们需要从人工智能的发展历史中找到灵感。 我们再深入分析 AI 近十年的发展,会看到一个重要的标志:人工智能在感知方面取得重要成果。人工智能在语音识别、文本识别、视频识别等方面已经超越了人类,我们可以说 AI 在感知方面已经逐渐接近人类的水平。从未来的趋势来看,人工智能将会有一个从感知到认知逐步发展的基本趋势,如下图所示: 首先,我们来看看 AI 在感知方面做了哪些事情。在感知方面,AlphaGo、无人驾驶、文本和图片之间的跨媒体计算等取得了快速发展。从宏观来看,算法是这个感知时代最重要、最具代表性的内容。如果把最近十年的重要算法进行归类,以深度学习为例进行展示的话

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

谁说我不能喝 提交于 2020-12-12 18:44:35
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 01 全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

详解Transformer (Attention Is All You Need)

蓝咒 提交于 2020-12-05 10:15:19
点击上方“ 迈微电子研发社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 前言 注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。 正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。 作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题: 时间片 的计算依赖

2020腾讯广告算法大赛方案分享(亚军)

非 Y 不嫁゛ 提交于 2020-12-05 03:38:16
写在前面 亚军团队:山有木兮 林有夕介绍到团队成员宁缺是竞赛圈最具实力冠军选手 ,唐静是竞赛圈最漂亮的女生。 赛题介绍 本届算法大赛的题目来源于一个重要且有趣的问题。众所周知,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。 我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学习领域的各种技术来实现更准确的预估。 赛题理解 1.数据 在比赛期间,主办方将为参赛者提供一组用户在长度为 91 天(3 个月)的时间窗口内的广告点击历史记录作为训练数据集。每条记录中包含了日期(从 1 到 91)、用户信息(年龄,性别),被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id

知乎热议:科研有很水的idea应该发表出来吗?

生来就可爱ヽ(ⅴ<●) 提交于 2020-12-01 08:47:16
科研有很水的idea应该发表出来吗? - 来源:https://www.zhihu.com/question/372648294 小伙伴们,对于只能发EI,水会,OA SCI期刊那种,自己看到都觉得很垃圾的idea,你认为有发表的价值吗? 作者: Jeremy Zhou https://www.zhihu.com/question/372648294/answer/1030507968 我认为这个水的idea该不该发要看自身的情况。 情况1. 假如,马上毕业就缺那么一篇OA SCI或者EI之类的,那就发。 火烧眉毛了还不发那不是认不清形势么。 只要这个水的idea也是idea,而不是靠弄虚作假编造一片文章,我认为就无伤大雅。 情况2. 假如,不是那么着急毕业(可能刚博士第一年),那我认为完全没有必要。 你自己都认为idea水,为什么要发呢? 总发水文,很可能就形成路径依赖了,后期很可能只能发水文,idea质量也都不行。 “仓廪实而知礼节,衣食足而知荣辱”,私以为科研很多时候也是这样。 刚入门的研究生发一点水的idea也算是一种入门的过程。 但是如果发了好几篇,还在那只发水idea,那就没什么意思了。 再说说题主说的OA SCI期刊: 以我最近审稿的情况举例。 之前帮IEEE Access审过一篇文章,发现太水了。 后来再找我审稿,扫了一下abstract也都觉得太没意思

微软亚研院副院长周明:从语言智能到代码智能

强颜欢笑 提交于 2020-11-29 15:22:48
来源:智源社区、AI科技评论 本文 约4700字 ,建议阅读 10 分钟 周明副院长在“语言与智能高峰论坛”讲解从语言智能到代码智能。 11月6日上午,在中国中文信息学会和中国计算机学会联合创办的“ 语言与智能高峰论坛” 上,微软亚洲研究院副院长周明,以 《从语言智能到代码智能》 为题,介绍了智能代码理解和生成代码的机理、预训练模型(CodeBERT/CodeGPT)、基准数据集(CodeXGLUE)以及融合了编程语言句法和语义信息的新的评价指标(CodeBLEU),分享了微软在编程语言知识和上下文进行推理,支持代码检索、补全、翻译、纠错、问答等场景的应用。 周明,微软亚洲研究院副院长、中国计算机学会副理事长、国际计算语言学会(ACL)前任会长。 1、NLP预训练模型到代码智能预训练模型 自然语言处理在深度学习的支撑下取得了迅猛发展,把自然语言发展的技术迁移到智能代码研究领域,以提升代码能力成为近年来新的研究热点。 代码智能能够让计算机具备理解和生成代码的能力,利用编程的语言知识和上下文进行推理,支持代码检索、代码翻译等场景应用。 图1:基于神经网络的NLP研究(NN-NLP) 图为清华大学唐杰团队总结的过去5年ACL文章中自然语言发展的主要工作,包括 Word embeddings、LSTM、Encode decoder、RNN、Pre-trainedmodel 等