BERT

Transformer优化之稀疏注意力

孤人 提交于 2020-10-02 12:50:36
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。 以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert与模型蒸馏:PKD和DistillBert ALBert: 轻量级Bert TinyBert: 模型蒸馏的全方位应用 MobileBert: Pixel4上只需40ms 更多待续 Transformer + AutoML: 进化的Transformer Bert变种 Roberta: Bert调优 Electra: 判别还是生成,这是一个选择 Bart: Seq2Seq预训练模型 Transformer优化之自适应宽度注意力 Transformer优化之稀疏注意力 Reformer: 局部敏感哈希和可逆残差带来的高效 Longformer: 局部attentoin和全局attention的混搭 - Linformer: 线性复杂度的Attention XLM: 跨语言的Bert T5 (待续) 更多待续 GPT-3 更多待续 Overall 和Linformer,Longformer类似,Sparse

推特上的中国形象,越来越坏了吗?清华研究团队揭晓内幕

浪尽此生 提交于 2020-10-02 07:38:31
     作者 | 蒋宝尚   编辑 | 陈大鑫   自今年年初疫情爆发以来,中国话题一直成为国际媒体领域的热门话题,有好有坏;这些话题内容也让我们见识到了国外媒体的无底线、无节操。   那么,自然而来一个问题:如何用数据来理解国际社会中的“中国形象”?   清华大学计算机系自然语言处理与社会人物计算实验室与新闻与传播学院金兼斌教授课题组,近期合作完成了一篇相关研究: “以中国为例的COVID-19疫情期间国家形象” (Country Image in COVID-19 Pandemic: A Case Study of China)。   这篇文章收集了Twitter平台上关于中国的相关文本,并对之进行了属性级别的情感分析,进而探索了疫情期间英文推特上不同群体视角下的中国形象。除此之外,他们还进一步阐释了这些现象背后的机理以及发展趋势。    1   所谓国家形象,即公众对一个国家的看法,涉及政治、经济、外交、文化等多个方面。   正如个人形象影响个人前途,国家形象对一个国家的国际关系和经济发展也有着十分重要的影响。   近些年来,随着中国的快速发展及其在全球影响力的不断提升,中国的国家形象不断发生改变,而2020年的新型冠状肺炎疫情爆发进一步在全球范围内改变了中国形象。   因此,深入了解疫情期间中国形象的特点与变化,对于应对后疫情时代我国对外传播的新形势具有至关重要的作用。

基于transformers库的bert情感分析数据处理

梦想的初衷 提交于 2020-10-02 04:04:30
数据类型:csv格式 ['content']: 文本评论 ['score']: 星级(1-5)5星为最好 处理方法: 将1-5星级改成三级, 1-2星为1级 'negative', 3星-2级'neutral', 4-5星为3级 'positive' 。 import torch from torch.utils.data import DataLoader, Dataset from transformers import BertModel, BertTokenizer from collections import defaultdict import seaborn as sns import matplotlib.pyplot as plt import pandas as pd from sklearn.model_selection import train_test_split import torch.nn as nn BATCH_SIZE = 16 MAX_LEN = 160 class_names = ['negative', 'neutral', 'positive'] device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') tokenizer = BertTokenizer

###好好好##BERT新转变:面向视觉基础进行预训练| NeurIPS 2019论文解读

£可爱£侵袭症+ 提交于 2020-10-01 23:47:14
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作者: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee(佐治亚理工学院、俄勒冈州立大学、Facebook AI Research) 点此进入 “论文地址” 摘要 本文提出ViLBERT(Vision-and-Language BERT),该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型,在各自的流中处理图像和文本输入,这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练,再将其迁移应用到多个视觉-语言任务:视觉问答,视觉常识推理,指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。 ViLBERT代表了一种转向:从将学习视觉和语言之间的基础知识仅作为任务训练的一部分,转向将视觉基础知识作为一种可预训练和可迁移的能力。 介绍 视觉理解任务包括通过在图像

区别于传统低效标注,两种基于自然语言解释的数据增强方法

本秂侑毒 提交于 2020-10-01 23:16:45
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 秦禹嘉,清华大学电子工程系本科生,大二开始在清华大学自然语言处理实验室学习。导师刘知远副教授。主要研究方向为义原知识体系的完善与应用。 尽管深度学习模型已经在许多自然语言处理任务上取得了非常好的效果,它们通常依赖于大量的训练数据;然而在实际应用场景下,标注能力、训练数据并不充足的情况经常出现,因此如何让标注者高效率地标注是一个十分有意义的问题。 传统给出标签的标注方式在一定程度上限制了标注者能够提供的信息量,很多情况下我们不仅关注标注者打出的标签,更加关注于其打出该标签的理由。因此一种更加高效的做法是让标注者在给出标签的同时给出相应的自然语言解释来解释其做出该决定的原因。 本文将分享应用自然语言解释的一些挑战,并介绍目前应对这些挑战做出的探索和最新工作。 自然语言解释的概念与背景 如开篇所讲,深度学习的技术已经在许多自然语言处理的任务上取得了很好的效果,但是仍然还有两个问题没有解决。第一个是模型通常需要大量的数据。第二个是模型缺乏可解释性。 先看 data hungry 的问题,很多情况下我们并没有那么多的数据能够喂给模型

###好好好####多模态中的BERT

百般思念 提交于 2020-10-01 22:33:42
image BERT自问世以来,几乎刷新了各种NLP的任务榜,基于BERT的变种也层出不穷,在很多任务里都可以看到其身影。大浪淘沙,沉者为金,回想第一次看到BERT的论文时,确实不曾想其也能对工业界产生极大的影响。 本文尝试梳理今年BERT在多模态任务(主要涉及视觉和文本模态)上的一些工作,尝试比较各工作的主要思路以及做法上的区别,因此不会过多的涉及细节。总的来看,众多工作的主体模型大同小异,均使用Transformer,从表1(引用自VL-BERT论文)可以对各工作之间的相似和不同之处有个整体的认识。 image 可以看到,各方案之间的差异基本在于模态融合方式、预训练任务、以及下游任务微调,下文也将主要从这几个维度展开介绍和对比(排名不分先后)。 VideoBert image VideoBert主体采用单Transformer同时对文本token和视频片段进行模态表示和融合。与BERT区别在于把原来的句子对是否匹配(是否为下一句),换成了句子视频是否匹配任务。同时对于视频片段帧进行随机的MASK,预测对应的特征向量,文中叫visual words(通过预训练的视觉模型抽取得来,如S3D,然后聚类得到相应特征向量的id),对应于BERT的masked语言模型。 CBT image 和VideoBert不同在于,视频输入和文本输入分成了两支。视频输入经过S3D网络得到视觉特征序列

新闻文本分类之旅 BERT

女生的网名这么多〃 提交于 2020-10-01 14:59:32
🎯代码全部放在 GitHub 预训练BERT以及相关代码下载地址: 链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5 🍥我们知道BERT模型的输入有三部分: token embedding , segment embedding 以及 position embedding 。 词向量的后续处理 先生成Segment Embeddings 和 Position Embeddings, 再相加,即Input = Token Embeddings + Segment Embeddings + Position Embeddings BERT源码分析 transformers库 Self-Attention与Transformer 🍤模型创建 class BERTClass ( torch . nn . Module ) : def __init__ ( self ) : super ( BERTClass , self ) . __init__ ( ) self . config = BertConfig . from_pretrained ( '../emb/bert-mini/bert_config.json' , output_hidden_states = True ) self . l1 =

WWW 2020 | 信息检索中的对话式问题建议

♀尐吖头ヾ 提交于 2020-10-01 05:24:12
©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 论文标题: Leading Conversational Search by Suggesting Useful Questions 论文来源: WWW 2020 论文链接: https://www.microsoft.com/en-us/research/uploads/prod/2020/01/webconf-2020-camera-rosset-et-al.pdf 简介 本文由微软 AI 研究院发表于 WWW 2020,当前对话式搜索引擎主要存在两个挑战:1. 用户仍然习惯使用查询词而并非自然语言进行搜索;2. 搜索引擎的能力需要超出仅解决当前查询的问题。 本文提出了 对话式问题建议(Conversatioal question suggestion) 这一新的方式,帮助用户通过更接近于对话式检索的方式,获得更好的搜索体验。 本文首先提出了更加合理的评价指标 usefulness 替代 relevance,以衡量建议问题的性能;然后提出了基于 BERT 的排序模型和基于 GPT-2 的生成模型,从而针对当前的查询生成问题,这些模型在离线的 usefulness 评价和在线的 A/B test 中相比于原来 Bing 上线的系统都有显著提升。 从相关性到有用性

GPT-1 & 2: 预训练+微调带来的奇迹

倾然丶 夕夏残阳落幕 提交于 2020-10-01 03:50:49
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。 以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert与模型蒸馏:PKD和DistillBert ALBert: 轻量级Bert TinyBert: 模型蒸馏的全方位应用 MobileBert: Pixel4上只需40ms 更多待续 Transformer + AutoML: 进化的Transformer Bert变种 Roberta: Bert调优 Electra: 判别还是生成,这是一个选择 Bart: Seq2Seq预训练模型 Transformer优化之自适应宽度注意力 Transformer优化之稀疏注意力 Reformer: 局部敏感哈希和可逆残差带来的高效 Longformer: 局部attentoin和全局attention的混搭 - Linformer: 线性复杂度的Attention XLM: 跨语言的Bert T5 (待续) 更多待续 GPT-3 更多待续 背景 GPT,全称是Generative Pre-training,顾名思义,就是预训练模型。

Bert: 双向预训练+微调

五迷三道 提交于 2020-09-30 15:02:23
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。 以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert与模型蒸馏:PKD和DistillBert ALBert: 轻量级Bert TinyBert: 模型蒸馏的全方位应用 MobileBert: Pixel4上只需40ms 更多待续 Transformer + AutoML: 进化的Transformer Bert变种 Roberta: Bert调优 Electra: 判别还是生成,这是一个选择 Bart: Seq2Seq预训练模型 Transformer优化之自适应宽度注意力 Transformer优化之稀疏注意力 Reformer: 局部敏感哈希和可逆残差带来的高效 Longformer: 局部attentoin和全局attention的混搭 - Linformer: 线性复杂度的Attention XLM: 跨语言的Bert T5 (待续) 更多待续 GPT-3 更多待续 背景 Bert,全称是Bidirectional Encoder Representation from