BERT

切分也重要:基于多粒度语言单元切分的BERT模型

杀马特。学长 韩版系。学妹 提交于 2020-09-30 01:56:29
论文标题: AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION 论文作者: Xinsong Zhang, Hang Li 论文链接: https://arxiv.org/pdf/2008.11869.pdf 不同粒度语言单元的切分 在深度学习时代,将语言单元切分为怎样的粒度是一个很重要的问题,它首先影响了词典的大小,比如英语,如果切分为字符,那词典最多也不会超过100,但是如果切分为词,那词典就会成千上万。 词典大小直接影响了数据的分布,即词典中的有些词是高频词,有些是低频词,甚至可能出现很多未登录词(OOV),这些都对模型最终的效果有影响。 当前主流预训练模型的切分方式大致是:对英语来说,默认采用子词(Subword)的形式,一种介于字和词之间的语言单元粒度,比如BERT采用的是字词。 对中文来说,一般采用字级别的粒度。采用这种粒度的切分方式,相比其他粒度而言表现更好。 但是,这些模型都是基于“单粒度”的切分,也就是说,要么只采用字词,要么只采用字,而单粒度的切分可能会产生一些问题。 比如下图是采用字级别切分粒度的中文BERT模型的注意力图示。可以看到,“拍”关注了“卖”,“北”关注了“京”,“长”和“市”组合了。 但是在这些例子中,它们都错误地关注了字,这是因为对于字级别的模型而言,“北京

爱了!计算机视觉 colab notebook 列表

强颜欢笑 提交于 2020-09-29 20:33:39
这是阿三的第 131 期分享 作者 | 阿三 首发 | 程序员遇见GitHub 大家好,我是阿三,今天给大家带来的是Google colab上非常出名的一些计算机视觉项目的notebook。 一. Google Colab 这些项目都是依托与Google的Python在线编程的免费服务Colab,没有使用过的同学也可以去了解一下这个。 这些notebooks包含计算机视觉的很多方面,像目标检测,分类等等 每个项目都有文字教程与源代码 代码还可以直接在colab中运行,想要了解相关项目的同学不容错过。 网站地址: https://www. qblocks.cloud/creators/ computer-vision-google-colab-notebooks 推荐阅读: 我教你如何读博! 牛逼!轻松高效处理文本数据神器 B站强化学习大结局! 如此神器,得之可得顶会! 兄弟们!神经网络画图,有它不愁啊 太赞了!东北大学朱靖波,肖桐团队开源《机器翻译:统计建模与深度学习方法》 当年毕业答辩!遗憾没有它... 已开源!所有李航老师《统计学习方法》代码实现 这个男人,惊为天人!手推PRML! 它来了!《深度学习》(花书) 数学推导、原理剖析与代码实现 你们心心念念的MIT教授Gilbert Strang线性代数彩板笔记!强烈推荐! GitHub超过9800star!学习Pytorch

KDD Cup 2020多模态召回比赛亚军方案与搜索业务应用

岁酱吖の 提交于 2020-09-28 09:50:04
1. 背景 ACM SIGKDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议。KDD Cup比赛由ACM SIGKDD举办,从1997年开始每年举办一次,也是数据挖掘领域最有影响力的赛事之一。该比赛同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,通过竞赛,为数据挖掘从业者们提供了一个学术交流和研究成果展示的理想场所。今年,KDD Cup共设置四个赛道共五道赛题,涉及数据偏差问题(Debiasing)、多模态召回(Multimodalities Recall)、自动化图学习(AutoGraph)、对抗学习问题和强化学习问题。 美团搜索广告算法团队最终在 Debiasing 赛道中获得冠军(1/1895),在 AutoGraph 赛道中也获得了冠军(1/149)。在 Multimodalities Recall 赛道中,亚军被美团搜索与NLP团队摘得(2/1433),美团搜索广告算法团队获得了第三名(3/1433)。 跟其它电商公司一样,美团业务场景中除了文本,还存在图片、动图、视频等多种模态信息。同时,美团搜索是典型的多模态搜索引擎,召回和排序列表中存在POI、图片、文本、视频等多种模态结果

程序员欢乐送(第10期)

非 Y 不嫁゛ 提交于 2020-09-27 13:10:32
程序员欢乐送(第10期) 收录于话题 #程序员欢乐送 59个 对于我来说,我一直保持的追求有三点:技术、快乐、财富。因此,从此三点出发,记录过去一周,我所看到的,值得分享的内容,每周五把欢乐送达。 由于微信不允许外部链接,你需要点击页尾左下角的“阅读原文”,才能访问文章的链接,文中的所有链接已使用蓝色字体标记。 「 技术 Technology 」 1、AI肖像生成 一位来自 Uber 的软件工程师Philip Wang利用英伟达去年发布的StyleGAN研究成果创作了源源不断的假人物头像。每次你刷新这个网站,网络就会从头开始生成新的人脸图像。 以下这些异常逼真的肖像都是算法生成的,并不是真实的人。 体验地址:点击查看 StyleGAN项目地址在《程序员欢乐送(第9期)》中推送过,可以去上篇推送中查看。 2、Remove.bg一键抠图 现在,抠图已经不再是专业设计师才会的技能,其应用的技术图像分割也不是一个新课题了,很早之前就有很多研究成果出现,按照是否使用深度学习的方法可分成传统方法(Blue Screen Matting、Poisson Matting、Bayes Matting、Closed form Matting 与 KNN Matting 等)和基于深度学习的方法(CNN、FCN 和 UNet)等,而深度学习方法的发展也大大提高了抠图的精度。

想要学习NLP情感分析,你竟然没看过这篇文章!

≯℡__Kan透↙ 提交于 2020-09-27 03:00:20
目前,情感分析在中文自然语言处理(Natural Language Processing)中比较火热,很多场景下,我们都需要用到情感分析。比如,做 金融产品量化交易 ,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度; 电商交易 ,根据买家的评论数据,来分析商品的预售率等。 情感倾向分析的方法主要分为两类: 基于情感词典的方法; 基于机器学习的方法, 如基于大规模语料库的机器学习。 前者需要用到标注好的情感词典;后者则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。 做情感分析离不开情感词, 情感词是承载情感信息最基本的单元 ,基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。 情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果。 那么, 如何掌握基于情感词典分析方法?情感分析中的GPT 系列和 BERT 类模型又是如何使用? 别急,今天,给大家推荐一份由 开课吧 提供赞助的 《NLP情感分析学习资料大礼包》 资料。包含了情感分析、词向量、文本挖掘、Pipeline、Word2Vec、Transformer、BERT、 GPT等核心知识 。 满足你在学习NLP情感分析的各种需求,

阿里天池文本分类竞赛task1: 赛题理解

纵饮孤独 提交于 2020-08-20 08:20:04
一.比赛背景 在本次Datawhale的竞赛当中,我们有一个具有20w条训练集,5w条测试集的数据集。整个数据集里面包含了各种分类不同的文本,每一个文本在训练集里都进行了标注label,这个label能够让我们知道训练集里面的句子是属于哪一个类别的数据。本次竞赛的文本分类一共有14个类别的数据,分别是:财经,彩票,房产,家居,教育,科技,社会,时尚,时政,体育,星座,游戏和娱乐。那么我们来看看数据集长啥样: 其中,在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}。这个数据集我们打开只会看到我们text的数据,而不会看到每一条text所对应的label,这是因为在csv文件当中标注的label是不会显示出来的,我们需要将其使用pandas进行读入,然后再通过dataframe来查看这个文件,就可以看到训练集数据的label了! 二.测评指标 在本次比赛当中我们使用了f1_score的测评指标,什么是f1_scrore呢?我们来看看它的定义: 相当于f1_score就是精确率和召回率的一个调和均值,这个算法和物理当中求解电阻的方法非常相似

超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成

僤鯓⒐⒋嵵緔 提交于 2020-08-20 07:45:21
  机器之心报道    机器之心编辑部   在本文中,来自哈佛大学、Facebook AI 研究院的研究者提出了一种基于残差能量模型的文本生成方法,效果超过 state-of-the-art 的 transformer 语言模型。这是能量模型在大规模文本生成中的首次成功应用,论文已入选 ICLR 2020。      论文链接:https://openreview.net/pdf?id=B1l4SgHKDH   近年来,随着 GPT-2、GPT-3 模型的出现,我们似乎已经可以使用语言模型生成以假乱真的文本。然而事实上,模型生成的文本存在明显的质量问题。   比如我们可以训练一个分类器去区分真实文本和语言模型生成的文本,而且可以达到非常高的准确率 [1,2]。那么,一个自然的问题是,我们能否使用这个分类器去提高文本生成的质量,以期达到更加以假乱真的水平呢?这就是本文的研究问题。   同时,本文还解答了另一个问题:由于传统的文本生成解码器只能使用单向模型,如何使用预训练的双向模型 BERT 改进文本生成解码器?   为了便于讨论,作者定义一段有 T 个词的文本为 x=x_1 x_2…x_T。它有可能是真实文本,也可能是一个语言模型 P_LM (x)生成的文本。他们训练了一个分类器 E_θ (x)去区分 x 是真实的(real)还是生成的:      这里的 σ 是 sigmoid

《BERT 的优秀变体:ALBERT 论文图解介绍》2020-05,作者:amitness,译者:ronghuaiyang

断了今生、忘了曾经 提交于 2020-08-20 05:10:12
ALBERT论文: https://arxiv.org/pdf/1909.11942.pdf 英文原文: https://amitness.com/2020/02/albert-visual-summary/ 译文链接: https://www.6aiq.com/article/1589833968655 NLP 最新发展的基本前提是赋予机器学习这些表示的能力。 BERT 1. 掩码语言建模 传统的语言建模 BERT使用的掩码语言建模 2. 下一个句子预测 “下一个句子预测”的目的是检测两个句子是否连贯。 3. Transformer结构 将输入转换成大小为768的向量。关于Transformer和BERT非常好的文章: https://jalammar.github.io/illustrated-transformer/ http://jalammar.github.io/illustrated-bert/ ALBERT总结的BERT的两类问题 1. 内存限制和通信开销 BERT模型非常大,BERT-large有24个隐含层,约3.4亿参数,若想改进需要大量计算资源。 2. 模型退化 更大的模型,更好的性能? Albert作者将BERT-large的隐含层单元从1024增加到2048,在语言建模任务和阅读理解测试中,都有所下降。在阅读理解测试中从73.9%下降到54.3%。

基于Bert和通用句子编码的Spark-NLP文本分类

南笙酒味 提交于 2020-08-19 22:59:36
作者|Veysel Kocaman 编译|VK 来源|Towards Data Science 自然语言处理(NLP)是许多数据科学系统中必须理解或推理文本的关键组成部分。常见的用例包括文本分类、问答、释义或总结、情感分析、自然语言BI、语言建模和消歧。 NLP在越来越多的人工智能应用中是越来越重要。如果你正在构建聊天机器人、搜索专利数据库、将患者与临床试验相匹配、对客户服务或销售电话进行分级、从财务报告中提取摘要,你必须从文本中提取准确的信息。 文本分类 是现代自然语言处理的主要任务之一,它是为句子或文档指定一个合适的类别的任务。类别取决于所选的数据集,并且可以从主题开始。 每一个文本分类问题都遵循相似的步骤,并用不同的算法来解决。更不用说经典和流行的机器学习分类器,如随机森林或Logistic回归,有150多个深度学习框架提出了各种文本分类问题。 文本分类问题中使用了几个基准数据集,可以在nlpprogress.com上跟踪最新的基准。以下是关于这些数据集的基本统计数据。 简单的文本分类应用程序通常遵循以下步骤: 文本预处理和清理 特征工程(手动从文本创建特征) 特征向量化(TfIDF、频数、编码)或嵌入(word2vec、doc2vec、Bert、Elmo、句子嵌入等) 用ML和DL算法训练模型。 Spark-NLP中的文本分类 在本文中,我们将使用通用句子嵌入

73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习

断了今生、忘了曾经 提交于 2020-08-18 20:51:56
在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。 机器之心报道,编辑:魔王、杜伟。 Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。 自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。 那么,30 多年过去,神经网络的未来发展方向在哪里呢? Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习 。 https://v.qq.com/x/page/l3124haqfg8.html ​ v.qq.com Hinton 的报告主要内容如下: 人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。 目前,无监督学习主要有两类方法。