BERT

自然语言处理动手学Bert文本分类

坚强是说给别人听的谎言 提交于 2020-10-20 16:51:01
自然语言处理动手学Bert文本分类 Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 章节1:课程简介 章节2:Seq2Seq相关理论 章节3:Attention机制 章节4:Bert理论系列基础 章节5:基于Bert的文本分类实战 章节6:基于Bert+CNN的文本分类实战 章节7:基于Bert+RNN的文本分类实战 章节8:基于Bert+RCNN的文本分类实战 章节9:基于Bert+DPCNN的文本分类实战 章节10:基于ERNIE的文本分类实战 来源: oschina 链接: https://my.oschina.net/u/4323266/blog/4681101

融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

一个人想着一个人 提交于 2020-10-17 16:58:57
     原创作者:王少磊   文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。   目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。   本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。   作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。   论文名称:   《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》      论文作者:王少磊,王重元,车万翔,刘挺   论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf   以下是论文一作王少磊对本文的亲自解读。   1   任务简介及动机   自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。  

BERT and RoBERTa 知识点整理

十年热恋 提交于 2020-10-15 09:16:38
往期文章链接目录 文章目录 往期文章链接目录 BERT Recap Overview BERT Specifics There are two steps to the BERT framework: pre-training and fine-tuning Input Output Representations Tasks results Ablation studies Effect of Pre-training Tasks Effect of Model Sizes Replication study of BERT pre training that includes the specific Modifications Training Procedure Analysis RoBERTA tests and results Results 往期文章链接目录 BERT Recap Overview Bert (Bidirectional Encoder Representations from Transformers) uses a “masked language model” to randomly mask some tokens from the input and predict the original vocabulary id of the

Soft-Masked BERT:文本纠错与BERT的最新结合

孤街浪徒 提交于 2020-10-14 19:54:00
文本纠错 ,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下语音识别(ASR)不准确的问题。 本文将通过以下几个章节简要介绍文本纠错相关知识。 1. 文本纠错示例与难点 2. 文本纠错常用技术 3. 如何将 BERT 应用于文本纠错 4. 文本纠错最优模型 : Soft - Masked BERT ( 2020 - ACL ) 5. 立马上手的纠错工具推荐 一.文本纠错示例与难点 生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。错别字往往来自于如下的“相似字典”。 相似发音中文字典 相似字形中文字典 其他错误还包括方言、口语化、重复输入导致的错误,在ASR中较为常见。 现有的NLP技术已经能解决多数文本拼写错误。剩余的 纠错难点 主要在于,部分文本拼写错误需要 常识背景(world-knowledge) 才能识别。例如: Wrong : "我想去埃及金子塔旅游。" Right : "我想去埃及金字塔旅游。" 将其中的“金子塔”纠正为“金字塔”需要一定的背景知识。 同时,一些错误需要模型像人一样具备 一定的推理和分析能力 才能识破。例如: Wrong : "他的求胜欲很强,为了越狱在挖洞。" Right :

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

旧街凉风 提交于 2020-10-14 00:36:09
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

独自空忆成欢 提交于 2020-10-12 16:30:30
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

Mxnet (39): 上下文敏感的nlp模型:BERT

99封情书 提交于 2020-10-12 01:43:58
word2vec和GloVe之类的词嵌入模型是与上下文无关。他们将相同的预训练向量分配给相同的单词,而不管该单词的上下文(如果有)。他们很难用自然语言处理好多义性或复杂的语义。这种上下文无关的很有局限性,因此出现了很多上下文敏感的模型,ELMo为其中之一。 ELMo将来自预训练的双向LSTM的所有中间层表示形式组合为输出表示形式,然后ELMo表示将作为附加功能添加到下游任务的现有模型中。虽然这解决了上下文无感的问题,但是解决的方案取决与特定的任务体系。但是,为每个自然语言任务设计特定的体系比价困难。为此GPT模型设计为用于上下文相关且非任务确定的通用模型。GPT建立在Transformer解码器上,可以预训练将用于表示文本序列的语言模型。当将GPT应用于下游任务时,语言模型的输出将被馈送到添加的线性输出层中,以预测任务的标签。但是由于模型具有自回归特征,只能向前看(从左到右),在“我去银行存钱”和“我去银行坐下”的情况下,由于“银行”对左侧的上下文很敏感,因此GPT将为“银行”返回相同的表示形式有不同的含义。 ELMo双向编码上下文,GPT与任务无关。BERT吸取了二者的有点,可以双向编码上下文,使用预训练的Transformer编码器,BERT可以基于其双向上下文表示任何token。下图展示了三者的差异: 用于下游任务的监督学习时: BERT表示将被输入到一个附加的输出层中

谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」

好久不见. 提交于 2020-10-11 03:59:15
深度学习模型的训练就像是「黑箱操作」,知道输入是什么、输出是什么,但中间过程就像个黑匣子,这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具,能够帮助研究人员更好地理解模型行为,这应该是件非常棒的事。 近日,Google 研究人员发布了一款语言可解释性工具 (Language Interpretability Tool, LIT),这是一个开源平台,用于可视化和理解自然语言处理模型。 论文地址:https://arxiv.org/pdf/2008.05122.pdf 项目地址:https://github.com/PAIR-code/lit LIT 重点关注模型行为的核心问题,包括:为什么模型做出这样的预测?什么时候性能不佳?在输入变化可控的情况下会发生什么?LIT 将局部解释、聚合分析和反事实生成集成到一个流线型的、基于浏览器的界面中,以实现快速探索和错误分析。 该研究支持多种自然语言处理任务,包括探索情感分析的反事实、度量共指系统中的性别偏见,以及探索文本生成中的局部行为。 此外 LIT 还支持多种模型,包括分类、seq2seq 和结构化预测模型。并且它具备高度可扩展性,可通过声明式、框架无关的 API 进行扩展。 相关 demo,参见视频: 00:00/00:00倍速 可以针对新颖的工作流程进行重新配置,并且这些组件是独立的,可移植的,且易于实现。

周明:预训练模型在多语言、多模态任务的进展

旧街凉风 提交于 2020-10-10 14:31:54
     作者 | 周明   编辑 | 陈彩娴   8月29日至30日,由中国科学技术协会、中国科学院、南京市人民政府为指导单位,中国人工智能学会、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在江苏南京新加坡·南京生态科技岛举办。在大会上,微软亚洲研究院副院长、国际计算语言学会(ACL)前任主席周明做了主题为《预训练模型在多语言、多模态任务的进展》的特邀报告。   以下是周明老师的演讲实录:    1    预训练模型助力NLP   自然语言处理(NLP),目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策,并支持客服、诊断、法律、教学等场景。自然语言理解,被认为是AI皇冠上的明珠。一旦有突破,则会大幅度推动AI在很多重要场景落地。   过去这五年,对自然语言是一个难忘的五年,它的一个标志就是神经网络全面引入到了自然语言理解。从大规模的语言数据到强有力的算力,加上深度学习,把整个自然语言带到一个新的阶段。   今天我要讲的预训练模型,它使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以大规模、可复制的大工业施展的阶段,令我们这个领域的人感到非常振奋。而且预训练模型从单语言、扩展到多语言、多模态任务。一路锐气正盛,所向披靡。   那么

模型跨界成潮流?OpenAI用GPT-2做图像分类,实现SOTA性能

半城伤御伤魂 提交于 2020-10-10 02:06:30
   图像领域的 GPT 模型终于来了!OpenAI 推出了用于图像分类的模型 iGPT,该模型生成的特征在多个分类数据集上实现了当前 SOTA 性能,并且实现了良好的图像补全效果。      无监督和自监督学习,或者无人工标注数据的学习,这些都是机器学习领域长期存在的挑战。近期,BERT、GPT-2、RBERTa、T5 等 Transformer 模型以及其他变体在一系列语言任务上实现了最佳性能。然而,在生成用于图像分类的强特征方面却始终没有出现性能强大的模型。   这是因为,与 GPT-2 和 BERT 这类依赖于词预测的无监督学习算法相比,像素序列无法清楚地包含它们所属图像的标签。   近日,OpenAI 发布了一项新研究,旨在探索在图像上训练 GPT-2 的性能以及无监督准确率表现。研究者表示,BERT 和 GPT-2 等 Transformer 模型是域不可知的,这意味着它们可以直接应用于任何形式的 1D 序列。   OpenAI 研究者在图像上训练 GPT-2(这些图像被分解为长像素序列),他们称该模型称为 iGPT。结果发现这种模型似乎能够理解物体外观和类别等 2D 图像特征。iGPT 生成的各种一致性图像样本可以证明这一点,即使没有人为标签的指导。      论文地址: https://cdn.openai.com/papers/Generative