自然语言处理

谈谈实现小样本学习的两条路径

半世苍凉 提交于 2020-11-24 09:53:03
来源:混沌巡洋舰 小样本学习是当下机器学习界的一个核心课题。大数据是当下深度学习的咽喉,面临收集成本昂贵,甚至根本无法采集的弊端, 小样本学习的实践价值不言而喻。对于众多产业来说, 真正能够收集到大量样本的是极少数情况,比如人脸识别,互联网上的文本等。而更广大的行业, 数据本身收集就很难,一些隐私伦理等障碍难以跨越,比收集数据更难的还有标注,大数据支撑的机器学习基本使用无望。 所谓小样本学习,就是使用远小于深度学习所需要的数据样本量, 达到接近甚至超越大数据深度学习的效果,也即是小样本学习的本质就是学习的效果与数据比值的提升, 或者说单位数据产生的模型收益增大了 。 与之高度相关的课题其实是迁移学习, 元学习, 提高模型泛化性能, 这些方法, 本质是在不对数据使用量进行限定的情况下, 如何让同一模型用到更广泛的数据分布和更多的任务, 因此它们是一颗硬币的两面。多一分泛化能力,就少一点数据成本。 那么, 小样本学习究竟有没有可能?这个问题其实是细思恐极。因为这个命题就像永动机一样, 似乎违反了能量守恒。不应该是有多少数据, 有多少模型效果吗?这里事实上一被忽略的盲点是先验知识, 二被忽略的是盲点是数据利用效率。 如果没有任何先验知识, 当然是有多少数据有多少模型。然而, 如果先验知识是充足的, 那么其实可以数据不足, 知识来凑。另一条路则是提高单位数据的使用效率,

深度学习“垄断”!分析17万篇AI顶会论文,他们首次揭示了计算资源贫富分化的证据

☆樱花仙子☆ 提交于 2020-11-24 08:30:27
大数据文摘出品 作者:龙葳、mickey “权力、专家、数据,正在向少数几家巨头公司汇集。” 2019年,当图灵奖得主Yoshua Bengio说出这句话的时候,所有人其实都早有感知。 的确, 深度学习时代,学术界计算能力的不平等正在进一步加剧不平等。 但最近,第一次有学者将“人工智能资源的垄断”作为研究对象进行了详细的分析,并且将结果用论文呈现了出来。 这一研究来自弗吉尼亚理工大学和西方大学的人工智能研究人员。作为“非精英大学”的代表,他们分析了60场全球顶级人工智能峰会(包括ACL, ICML, and NeurIPS )的171394篇论文后得出结论,学术界算理的不平等正在加剧,特别是排名中下的大学,学术资源每年都在被蚕食。 论文给出了几个有意思的结论: 自2012年深度学习的意外增长以来,公司,尤其是大型技术公司和精英大学增加了对主要AI会议的参与;这里的精英大学指的是在QS世界大学排名中排名1-50的大学; 此外,研究人员发现了两种策略,可以通过这些策略来提高公司在人工智能研究领域中的影响力:首先,公司为单独发表人的论文研究发布数量在逐年增多;其次,公司主要与精英大学合作进行论文研究。因此,公司和精英大学在人工智能研究中的不断增长,挤占了排名中等(QS排名201-300)和排名靠后(QS排名301-500)大学的资源。 此外,研究还发现,大批研究人员正离开大学

每天调用达80亿次的小米MiNLP平台,近期又开源了中文分词功能

强颜欢笑 提交于 2020-11-24 07:59:04
近日,小米开源了其自然语言处理平台 MiNLP 的中文分词功能,具备分词效果好、轻量级、词典可定制、多粒度切分以及调用更便捷等特点。 机器之心报道,作者:陈萍。 在自然语言处理任务中,除了模型之外,底层的数据处理也是非常重要的。在语料预处理阶段,分词作为其中一个环节,其作用也是非常重要,但也受不同语言的限制,因而采取的方法有所不同,如中文和英文。 中文分词是将一个汉字序列进行切分,得到一个个单独的词,如「我住在朝阳区」,分词后的结果为「我 / 住在 / 朝阳区」。如果分词效果不好的话,可能会出现其他情况,比较极端的结果是全部分错「我住 / 在朝 / 阳区」。分词效果好不好对信息检索、实验结果影响很大,同时分词的背后涉及各种各样的算法实现。 就中、英文而言,中文分词与英文分词有很大的不同,对英文而言,词与词之间都有空格隔开,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。 现阶段也出现了很多分词算法:如基于规则的、基于统计的等,也有一些比较好的分词工具如 jieba、Hanlp、THULAC 等。此外还存在着一些在线分词工具,其分词效果也不错。 国内一些科技大厂也早早投入到自然语言处理相关领域,如百度 NLP、阿里云 NLP 等。就在近日,小米 AI 实验室 NLP 团队开发的小米自然语言处理平台 MiNLP 现已开源了中文分词功能。

2020年20个大的SEO优化趋势

扶醉桌前 提交于 2020-11-23 21:40:54
来源 | https://www.geeksforgeeks.org/top-20-seo-trends-in-2020/?ref=rp 翻译 | web前开发(ID:web_qdkf) 你是否曾经想过掌握SEO的艺术?如果是,那么你必须完成一项艰巨的任务,即寻找最新的Google搜索趋势,以更好的提升你的网站排名。由于SEO是一个非常动态变化的字段,因此你需要了解最新的SEO趋势,以保持你在搜索引擎结果中的位置。在这里,我们提供了哪些SEO策略和策略将起作用,并帮助你在2020年的SERP中占主导地位。 每个人都喜欢访问具有较高排名的网站,对于你网站的较高排名,你必须了解随着搜索者行为的改变和新技术的进步而迅速发展的最新SEO趋势和技术。以下是你需要在2020年了解的20个大SEO趋势。 1、 BERT BERT(来自变压器的双向编码器表示)是Google基于神经网络的自然语言处理(NLP)技术。根据Google的说法,BERT有助于理解搜索中单词的细微差别和上下文,并能够更好地将这些查询与更相关的结果进行匹配。 2、语音搜索 语音搜索现在变得越来越庞大。在当今世界,我们正在见证语音搜索革命,几乎每一代人都对此感到满意。 好吧,让我们考虑一下你的情况,你会喜欢那个操作? 是打字还是激动地在智能手机上说出来?。显然是在智能手机上说出来这个操作更令你喜欢

如何兼容自训练与预训练:更高效的半监督文本分类模型

瘦欲@ 提交于 2020-11-23 20:45:24
论文标题: Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining 论文作者: Zijun Sun, Chun Fan, Xiaofei Sun, Yuxian Meng, Fei Wu, Jiwei Li 论文链接: https://arxiv.org/pdf/2011.08626.pdf 代码链接: https://github.com/ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 概述 半监督学习是综合利用标注数据与未标注数据的学习方法。近日,香侬科技研究了如何 更有效地结合半监督自训练和预训练, 即如何在大规模通用领域预训练的前提下,更好地利用大规模 领域内 无标注语料 与标注语料 ,从而最大限度地提升模型效果。 这涉及到一系列问题: 在大规模通用语料下训练的模型是否仍然需要在 上训练? 如何利用 ?是像BERT一样预训练,还是用伪标签的自训练方法? 在不同的 和 条件下,不同的训练方式会有怎样的结果差异? 通过在文本分类任务上的实验,我们发现: 如果有领域内语料 ,那么模型就不需要再在通用领域语料上预训练; 无论是采用预训练的方式还是自训练的方式,都可以显著提升模型效果;

自然语言处理(NLP)的一般处理流程!

不想你离开。 提交于 2020-11-23 09:02:00
1. 什么是NLP 自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子 领域 。**自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。**为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。 2. NLP主要研究方向 信息抽取 :从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。 文本生成 :机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。 问答系统 :对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。 对话系统 :系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。 文本挖掘

「自然语言处理(NLP)」一文带你了解交叉熵(CrossEntropyLoss)

淺唱寂寞╮ 提交于 2020-11-23 06:13:19
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 明天要学习工作了,早点休息~ 引言 在使用pytorch深度学习框架,计算损失函数的时候经常会遇到这么一个函数:nn.CrossEntropyLoss()。该损失函数结合了nn.LogSoftmax()和nn.NLLLoss()两个函数。它在做分类(具体几类)训练的时候是非常有用的。在训练过程中,对于每个类分配权值,可选的参数权值应该是一个1D张量。当你有一个不平衡的训练集时,这是是非常有用的。那么针对这个函数,下面将做详细的介绍。 本文概要 1 什么是交叉熵? 2 交叉熵原理 3 Pytorch中CrossEntropyLoss()函数 4 参考文献 正文开始 1 什么是交叉熵? 交叉熵主要是用来判定实际的输出与期望的输出的接近程度 。 为什么这么说呢,举个例子: 在做分类的训练的时候,如果一个样本属于第K类,那么这个类别所对应的的输出节点的输出值应该为1,而其他节点的输出都为0,即[0,0,1,0,….0,0],这个数组也就是样本的Label,是神经网络最期望的输出结果。 也就是说用它来衡量网络的输出与标签的差异,利用这种差异经过反向传播去更新网络参数。 2 交叉熵原理? 在说交叉熵之前,先说一下 信息量 与 熵 。 信息量: 它是用来衡量一个事件的不确定性的;一个事件发生的概率越大,不确定性越小

「自然语言处理(NLP)」一文带你了解TF-IDF

允我心安 提交于 2020-11-23 06:12:56
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 今天周五了,一周过的好快,准备迎接周末吧,晚安~~ 引言 今天看了一下网上关于TF-IDF的文章,但是相关文章的知识点比较分散,所以作者对这些分散的知识进行了梳理整合,希望本文能够让你很快了解TF-IDF到底是什么,为什么会存在,以及其优缺点? 最后,还是帮作者点个 在 看 吧,谢谢~~ 正文开始 1 First Blood 1、从向量化特征缺失说起 在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计: corpus=[ "I come to China to travel" , "This is a car polupar in China" , "I love tea and Apple " , "The work is to write some papers in science" ] 不考虑停用词,处理后得到的词向量如下: [[ 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0 ] [ 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 ] [ 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 ] [ 0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1

「自然语言处理(NLP)」一文带你了解激活函数

你说的曾经没有我的故事 提交于 2020-11-23 05:40:58
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 引言 在深度学习网络中,我们经常可以看到对于某一个隐藏层节点的激活值计算一般分为两步,如下图: 第一步,输入该节点的值为 , 时,在进入这个隐藏节点后,会先进行一个线性变换,计算出值 ,上标 1 表示第 1 层隐藏层。 第二步,再进行一个非线性变换,也就是经过非线性激活函数,计算出该节点的输出值(激活值) ,其中 g(z)为非线性函数。 那么问题来了,这个激活函数到底有什么用呢,可不可以不加激活函数呢? 本文概要 1 什么是激活函数? 2 如果没有激活函数会怎样? 3 常见的激活函数 4 参考文献 正文开始 1 什么是激活函数? 激活函数是神经网络中极其重要的概念。 它们决定了某个神经元是否被激活,这个神经元接受到的信息是否是有用的,是否该留下或者是该抛弃。 激活函数的形式如下: 激活函数是我们对输入做的一种非线性的转换。 转换的结果输出,并当作下一个隐藏层的输入。 2 如果没有激活函数会怎样? 1、首先对于y=ax+b 这样的函数,当x的输入很大时,y的输出也是无限大/小的,经过多层网络叠加后,值更加膨胀的没边了,这显然不符合我们的预期,很多情况下我们希望的输出是一个概率。 2、线性变换太简单(只是加权偏移),限制了对复杂任务的处理能力。 没有激活函数的神经网络就是一个线性回归模型。

通过金融文档结构化实践,挖掘海量非结构化数据的应用落地潜力

微笑、不失礼 提交于 2020-11-23 05:19:30
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 杨慧宇,现达观数据高级技术专家,负责 NLP,RPA 等技术在金融行业的实践应用。 随着技术的发展和社会的变革,金融行业在近些年逐渐暴露了各种危机。 第一点,金融行业虽然在大众印象中是暴利行业,但实际上行业年均复合增长率已经呈现出下降的趋势,并且面临着诸如即将上市的蚂蚁集团、微信支付以及像陆金所等互联网金融公司所带来的影响和竞争。 第二点是人力成本,中国的人口红利在逐渐消失,劳动力成本也在不断上升,尤其像新时代的 90 后员工不愿意天天进行重复性的工作,希望能够在工作中体现出自己独一无二的价值,这一点实际上也是很大的痛点。 第三点,金融行业领域监管越来越严格。证监会、交易所都在不断地发布新的监管规则,而金融企业内部的合规、风控这些机构就要随之进行更新,这些都离不开信息技术的支持。随着监管的越来越严格,企业内部所造成的文书工作的增加也会带来很多工作上的负担,比如要进行很多信息上的披露,上市公司要发布各种各样事件的曝光,这些都会给大家带来工作上的负担。但是因为文件越来越多,人工处理文本的能力,却无法得到相应的提升,这样就会造成工作上的疏忽