Glue

从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史

隐身守侯 提交于 2021-01-29 15:49:26
20世纪以来,自然语言处理(NLP)领域的发展涌现了许多创新和突破。NLP中许多之前机器不可能完成的任务,如阅读理解、人机对话、自动写新闻稿等,正逐渐成为现实,甚至超越了人类的表现。 如果总结过去20年里,无数先辈辛劳付出带来的璀璨成果,以下3个代表性工作列入NLP名人堂,应该实至名归: 1)2003年Bengio提出神经网络语言模型NNLM, 从此统一了NLP的特征形式——Embedding; 2)2013年Mikolov提出词向量Word2vec ,延续NNLM又引入了大规模预训练(Pretrain)的思路; 3)2017年Vaswani提出Transformer模型, 实现用一个模型处理多种NLP任务。 基于Transformer架构,2018年底开始出现一大批预训练语言模型,刷新众多NLP任务,形成新的里程碑事件。本文将跨越2018-2020,着眼于3个预训练代表性模型BERT、XLNet和MPNet,从以下4个章节介绍NLP预训练语言模型的发展变迁史: 1.BERT 原理及 MLM 简述 2.XLNet 原理及 PLM 简述 3.MPNet 原理及创新点简述 4.NLP预训练模型趋势跟踪 附录:快速上手BERT的4大工具包 1.BERT 原理及 MLM 简述 自谷歌2018年底开源BERT,NLP界的游戏规则某种程度上被“颠覆”了;一时间,这个芝麻街的可爱小黄人形象

[NLP自然语言处理]谷歌BERT模型深度解析

故事扮演 提交于 2021-01-08 07:25:22
我的机器学习教程 「美团」算法工程师带你入门机器学习 已经开始更新了,欢迎大家订阅~ 任何关于 算法、编程、AI行业知识 或博客内容的问题,可以随时扫码关注 公众号「图灵的猫」 ,加入”学习小组“,沙雕博主在线答疑~此外,公众号内还有更多AI、算法、编程和大数据知识分享,以及免费的SSR节点和学习资料。其他平台(知乎/B站)也是同名「图灵的猫」,不要迷路哦 ​ ​ ​ ​ BERT模型代码已经发布,可以在我的github: NLP-BERT--Python3.6-pytorch 中下载,请记得start哦 目录 一、前言 二、如何理解BERT模型 三、BERT模型解析 论文的核心:详解BERT模型架构 关键创新:预训练任务 实验结果 四、BERT模型的影响 对BERT模型的观点 参考文献 一、前言 最近谷歌搞了个大新闻,公司AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩 ,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。可以预见的是,BERT将为NLP带来里程碑式的改变,也是NLP领域近期最重要的进展。 ​ 谷歌团队的Thang Luong直接定义: BERT模型开启了NLP的新时代! ​

分布式任务调度框架xxljob2.2.0详细安装使用教程

心已入冬 提交于 2021-01-01 18:02:08
分布式任务调度框架xxljob2.2.0详细安装使用教程 简介 概述 特性 总体设计 源码目录介绍 “调度数据库”配置 架构设计 设计思想 系统组成 架构图 安装 环境 创建目录 下载 解压 初始化调度数据库 调度数据库表说明 配置部署"调度中心"(xxl-job-admin) 修改application.properties配置文件 修改logback.xml(指定xxl-job的日志路径) 配置部署"执行器项目" 修改执行器配置文件 修改logback.xml(指定xxl-job的日志路径) 打包部署项目 启动 启动调度中心 启动执行器 加入systemctl管理并设置开机自启动 创建启动调度中心的启动脚本 将调度中心加入systemctl管理 创建xxl-job-admin.service服务文件 重新加载服务列表 启动服务 将调度中心设置为开机自启动 创建启动执行器的启动脚本 将执行器加入systemctl管理 创建xxl-job-executor.service服务文件 重新加载服务列表 启动服务 将执行器设置为开机自启动 开发第一个任务“Hello World” Gule模式 BEAN模式 BEAN模式(类形式) 第一步:执行器项目中,开发Job类 第二步:调度中心,新建调度任务 BEAN模式(方法形式) 第一步:执行器项目中,开发Job方法 第二步:调度中心

无情!「自然语言处理(NLP)」统一预训练UniLM模型(NLU+NLG)

五迷三道 提交于 2020-12-25 18:12:50
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 本文主要参考: https://zhuanlan.zhihu.com/p/96020318 引言 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解(NLU),还可以用于生成任务( (NLG ) )。 该模型使用三种类型的语言建模(单向模型、双向模型、序列到序列预测模型)进行预训练。 通过使用一个共享的Transform网络,利用特定的自注意掩模来控制预测条件的上下文,从而实现了统一的建模。 本文概要 1 First Blood 2 Aced 3 Attention 正文开始 1 First Blood TILE: ( NeurIPS-19 )Unified Language Model Pre-training for Natural Language Understanding and Generation. Contributor : 微软研究院 Paper: https://arxiv.org/pdf/1905.03197.pdf Code: https://github.com/microsoft/unilm 文章摘要 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解,还可以用于生成任务。该模型使用三种类型的语言建模(单向模型、双向模型

一文速览EMNLP 2020中的Transformer量化论文

怎甘沉沦 提交于 2020-11-27 09:02:37
花了几天看了三篇EMNLP 2020中关于Transformer模型量化的相关论文,快速记一下要点。 Fully Quantized Transformer for Machine Translation 这篇是华为诺亚方舟实验室和蒙特利尔大学合作的,发表在findings上面。 「论文地址:」 https://www. aclweb.org/anthology/20 20.findings-emnlp.1.pdf 方法 针对Transformer结构的计算密集型算子进行了activation量化,除了bias以外的所有weight进行了量化,这一点其实我们组也都做过了。 采用的是量化感知训练(QAT),反向传播采用的是straight-through estimator。 考虑到每个channel的分布有差异,因此针对每个channel单独学习量化的scale参数。 零值的处理:padding无需考虑,反正会被mask掉。ReLU和attention softmax之后的量化强制定义量化下界为0。量化全部加在dropout之前。 剪枝采用结构化剪枝,因为稀疏性剪枝需要硬件或库支持,比较麻烦。这里只对FFN参数进行剪枝,而且不是采用传统的百分比阈值,而是根据ReLU之后值计算出第一层FFN输出的每一列的max值,根据max值是否超过一定阈值来剪枝

【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

大兔子大兔子 提交于 2020-11-22 04:32:12
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文 《 BERT :语言理解的深度双向变换器预训练》 ,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语言表征模型,BERT基于所有层的左、右语境来预训练深度双向表征量。BERT是首个大批句子层面和词块层面任务中取得当前最优性能的表征模型,性能超越许多使用任务特定架构的系统,刷新 11 项 NLP 任务 当前最优性能记录,堪称最强NLP预训练模型!未来可能成为新行业基础。本文参考网上各大文章,整理翻译了 BERT 论文,在自己学习的同时也分享给大家,欢迎交流指教。 论文地址 : https://arxiv.org/pdf/1810.04805.pdf 摘要   本文介绍一种称之为 BERT 的新 语言表征模型 ,意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的 语言表征模型 (Peters等,2018; Radford等,2018) ,BERT旨在基于所有层的左、右语境来预训练 深度双向表征 。因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如

大佬云集!百度NLP-ERNIE团队招聘算法小伙伴啦!

戏子无情 提交于 2020-11-19 02:52:16
来百度NLP-文心(ERNIE)团队做 最强 的预训练,发 最好 的 paper,支持 最核心 的业务(搜索、广告),做三项全能的 NLP 弄潮儿。 我们是负责百度NLP语义理解技术与平台文心(ERNIE) 研发团队。 ERNIE 致力于预训练语义理解技术研发与应用,提升NLP任务效果,深度支持百度核心业务线。 近一年来,文心( ERNIE )取得多项荣誉: 2019年12月,我们首次突破 90 分大关登顶通用语言理解评估基准GLUE; 2020年1月,我们提出的预训练语言生成技术 ERNIE -GEN 在多个语言生成任务取得 SOTA; 2020年3月,我们在 SemEval-2020 上取得了5项世界冠军; 2020年7月,我们提出的多模态语义理解技术 ERNIE -ViL登顶视觉常识推理权威榜单VCR; 2020年7月9日,我们荣获2020世界人工智能大会最高奖。 在这里,你可以利用中国自主研发的 飞桨 ( PaddlePaddle )深度学习平台,进行高效的多机多卡训练,千亿级别的数据等待你的挖掘。这里有良好的团队氛围和资深、耐心的指导人带你探索新一代NLP技术。在这里,我们在使用业界领先的预训练语言理解技术提升真实工业场景的应用效果。 现在,我们在招人。 欢迎应届毕业 1~2 年的同学(社招)投递简历 (校招同学也可以转简历喔), base 北京 。 工作职责

【Meta learning in NLP】Text Classification

[亡魂溺海] 提交于 2020-11-17 09:03:06
元学习meta learning研究在CV方向占据大部分比例,论文总结比比皆是。本文主要汇总下近些年元学习在NLP文本分类方向 Text Classification 的研究论文,供相关研究人员参考。 同时欢迎大家关注小样本学习方法专栏~,持续更新小样本学习领域最新研究内容以及个人思考总结。 小样本学习方法(FSL) ​ www.zhihu.com 【1】 Meta-learning for Few-shot Natural Language Processing: A Survey 摘要: 少样本自然语言处理(NLP)指的是NLP任务只附带少量的标记样本。这是一个人工智能系统必须学会应对的现实挑战。通常我们依赖于收集更多的辅助信息或开发更有效的学习算法。然而,高容量模型中基于梯度的一般优化,如果从头开始训练,则需要在大量标记样本上执行许多参数更新步骤,以获得良好的性能。如果目标任务本身不能提供更多的信息,那么收集更多具有丰富注释的任务来帮助模型学习如何?元学习的目标是训练具有丰富注释的各种任务的模型,这样它就可以只使用几个标记样本来解决一个新任务。其核心思想是训练模型的初始参数,使模型在经过零步或几个梯度步更新后,对新任务具有最大的性能。已经有一些关于元学习的调查。然而,本文主要研究NLP领域,尤其是少镜头应用。我们试图提供更清晰的定义

LimeSDR官方系列教程(一):LimeSDR简介

时光总嘲笑我的痴心妄想 提交于 2020-10-30 16:06:11
本文内容、开发板及配件仅限用于学校或科研院所开展科研实验! 温馨提示:“开源SDR实验室 ”是北京的。 本文主要对软件无线电(SDR)以及软件无线电平台LimeSDR进行简单地介绍。 目录 一、什么是软件无线电? 二、软件无线电应用领域 三、LimeSDR简介 四、LimeSDR射频部分 五、LimeSDR其他连接部分 六、LimeSDR USB控制 七、LimeSDR FPGA 八、如何开始学习 九、配套软件 十、有用链接和联系方式 一、什么是软件无线电? 维基百科对软件无线电的定义为:软件无线电(SDR)是一种无线电通信系统,通常在硬件(例如混频器、滤波器、放大器、调制器/解调器、检测器等)中实现的典型组件的功能由软件来实现。 事实上,SDR的含义远比一句话所能表达的要多,由于这项技术相对较新,世界各地的科学家仍在探索中。这项技术的关键内容点是软件和硬件均是灵活的,例如,硬件上可以是CPLD、FPGA或者ASIC,而功能上我们可以在基于这些硬件的情况下用软件来具体实现。 二、软件无线电应用领域 您可能会有疑问? SDR是下一代的通信解决方案,但是到目前为止却从未听说过,已经有人在使用它了吗?答案是肯定的,全世界有数百万个软件无线电设备正在使用中,说不定您的客厅现就有一个! 比如,家里的机顶盒就已经有其使用的背景了。机顶盒行业已经有这样的一个趋势了,即机顶盒中的调制解调器有被

Bert: 双向预训练+微调

五迷三道 提交于 2020-09-30 15:02:23
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。 以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert与模型蒸馏:PKD和DistillBert ALBert: 轻量级Bert TinyBert: 模型蒸馏的全方位应用 MobileBert: Pixel4上只需40ms 更多待续 Transformer + AutoML: 进化的Transformer Bert变种 Roberta: Bert调优 Electra: 判别还是生成,这是一个选择 Bart: Seq2Seq预训练模型 Transformer优化之自适应宽度注意力 Transformer优化之稀疏注意力 Reformer: 局部敏感哈希和可逆残差带来的高效 Longformer: 局部attentoin和全局attention的混搭 - Linformer: 线性复杂度的Attention XLM: 跨语言的Bert T5 (待续) 更多待续 GPT-3 更多待续 背景 Bert,全称是Bidirectional Encoder Representation from