自然语言处理

2018-文本分类文献阅读总结

南楼画角 提交于 2020-11-19 12:03:41
文章 1 Generative and Discriminative Text Classification with Recurrent Neural Networks 时间: 2017 机构:Google DeepMind 生成模型: generative 判别模型: discrimination 作者支持生成模型比判别模型具有更加优异的性能,经过生成模型和判别模型的建模给出结论。 判别模型使用 LSTM 的变体(增加了 peephole 到每一个门上,则每一个门都会受到上一节点的 cell 的影响),当给定了文本类别标签后最大化条件概率: P ( y|x;W,V ) 生成模型是基于类的语言模型,命名为共享 LSTM ,通过类别 class 来共享参数,包括:词向量矩阵 V , LSTM 参数 W , softmax 参数 U 。新颖之处,这样会产生一个条件模型,这个模型可以通过给定标签的词向量来共享参数;而在传统的生成模型中,每一个标签都有一个独立的 LM 。 文中的生成模型和判别模型具有很多相似性,不同的是体现在训练的过程中,生成模型要最大化联合概率: 实验: 数据集:来源:http://goo.gl/JyCnZq ,资源包括: 新闻分类,情感分析, Wikipedia 文章分类,问答文本 数据列表: 基线 model : Na¨ıve Bayes classifier

人工智能工程师一般需要学什么?

余生长醉 提交于 2020-11-19 08:49:00
  随着AI技术的第三次崛起,我们迎来了人工智能的时代。在深度学习不断突破和发展的形势下,人工智能在许多领域都有了不同程度的应用随之而来的是人工智能相关人才的紧缺。如今,人工智能工程师已然成为了人人追捧的香饽饽。那么,人工智能工程师一般需要学什么呢? Python基础、数据科学库、机器学习、深度学习、自然语言处理、数据挖掘以及图像处理这些知识点一个都不能少。   1、编程语言   众所周知,Python是人工智能的首选语言,因此人工智能工程师一定要掌握 Python基础。比如说Python环境配置、数值运算、字符串操作、数据结构、判断结构、循环结构以及模块与包等等基础语言,而且必须熟练掌握。当然熟练掌握的意思不是看过一遍理论基础就行,还要懂得实践和应用。因此,在学习 Python基础语法的时候就要多敲敲代码,做做相应的练习。   2、数据科学库   科学计算库的学习内容包括Numpy概述、Array数组、数组结构、数组类型、数值运算、排序操作、数组形状操作、数组生成函数、常用生成函数等等。除此之外,数据科学库还涉及数据分析处理库、可视化库Matplotlib和可视化库Seaborn。   3、人工智能核心技术   说到人工智能,就不得不提机器学习、深度学习、自然语言处理等核心技术和实现原理。机器学习有各种算法需要学习,比如线性回归算法、逻辑回归算法、决策树贝叶斯算法

大佬云集!百度NLP-ERNIE团队招聘算法小伙伴啦!

戏子无情 提交于 2020-11-19 02:52:16
来百度NLP-文心(ERNIE)团队做 最强 的预训练,发 最好 的 paper,支持 最核心 的业务(搜索、广告),做三项全能的 NLP 弄潮儿。 我们是负责百度NLP语义理解技术与平台文心(ERNIE) 研发团队。 ERNIE 致力于预训练语义理解技术研发与应用,提升NLP任务效果,深度支持百度核心业务线。 近一年来,文心( ERNIE )取得多项荣誉: 2019年12月,我们首次突破 90 分大关登顶通用语言理解评估基准GLUE; 2020年1月,我们提出的预训练语言生成技术 ERNIE -GEN 在多个语言生成任务取得 SOTA; 2020年3月,我们在 SemEval-2020 上取得了5项世界冠军; 2020年7月,我们提出的多模态语义理解技术 ERNIE -ViL登顶视觉常识推理权威榜单VCR; 2020年7月9日,我们荣获2020世界人工智能大会最高奖。 在这里,你可以利用中国自主研发的 飞桨 ( PaddlePaddle )深度学习平台,进行高效的多机多卡训练,千亿级别的数据等待你的挖掘。这里有良好的团队氛围和资深、耐心的指导人带你探索新一代NLP技术。在这里,我们在使用业界领先的预训练语言理解技术提升真实工业场景的应用效果。 现在,我们在招人。 欢迎应届毕业 1~2 年的同学(社招)投递简历 (校招同学也可以转简历喔), base 北京 。 工作职责

自然语言处理(NLP)

不羁的心 提交于 2020-11-18 23:57:34
正如我在< 自然语言处理(NLP) - 数学基础(1) - 总述 >一文中所提到的NLP所关联的概率论(Probability Theory)知识点是如此的多, 饭只能一口一口地吃了, 我们先开始最为大家熟知和最基础的知识点吧, 排列组合. 虽然排列组合这个知识点大家是相当地熟知, 也是相当地基础, 但是却是十分十分十分地重要. NLP届掌门人斯坦福大学的Daniel Jurafsky(D. 朱夫斯凯)和科罗拉多大学James H. Martin(J. H. 马丁)在其NLP巨作《 自然语言处理综论 》一书第二版第5页中提到:“几乎所有的语音处理和语言处理问题都可以这样来表述: 对于某个歧义的输入给出N个可能性, 选择其中概率最高的一个.” 现在让我们来看看排列组合概念的定义吧: 所谓排列,就是指从给定个数的元素中取出指定个数的元素进行排序。所谓组合则是指从给定个数的元素中仅仅取出指定个数的元素,不考虑排序。 See, 与掌门人上面这句话相比, 是如此的相似! 排列组合有两条基本原理组成: 加法原理(分类计数法)- 做一件事,完成它可以有n类办法,在第一类办法中有m1种不同的方法,在第二类办法中有m2种不同的方法,……,在第n类办法中有mn种不同的方法,那么完成这件事共有N=m1+m2+m3+…+mn种不同方法。每一种方法都能够直接达成目标。 乘法原理(分步计数法). 做一件事

6位图灵奖得主,10多位院士,19个分论坛:北京智源大会邀你共同探索AI下一个十年

房东的猫 提交于 2020-11-18 03:53:56
编者按: 届时也请大家关注我们的“AI科技女性专题”,还有精彩的AI TIME论道,6月智源大会见! 长按上图或点击「阅读原文」免费注册参会 2020年,是一个十年的结束,也是下一个十年的开始。 过去十年,人工智能在深度学习算法、大规模算力和新型芯片、互联网收集的海量数据等因素的共同驱动下,经历了波澜壮阔的迅速发展,开始深刻改变我们生活、学习和工作的方方面面。 未来十年,人工智能将如何发展,如何影响整个社会?这将是一项复杂的系统工程——如何构建多学科开放协同的创新体系,如何推进人工智能与经济社会发展深度融合,如何建立人工智能安全可控的治理体系,如何与各国携手开展重大共性挑战的研究与合作?这些问题都亟须全球学术和产业界有识之士共同探索。 2020年6月21-24日 , 第二届 北京智源大会 ( 官网:https://2020.baai.ac.cn )将邀请 包括6位图灵奖获得者、10多院士在内的上百位人工智能领袖 ,回顾过去,展望未来,深入系统探讨“ 人工智能的下一个十年 ”。 01 口碑盛会,内行人的视角 2019年,首届北京智源大会定位 “真正内行的AI盛会”,向世界展示了北京人工智能开放、活跃、重视可持续发展的面貌。 2020北京智源大会继续关注国际性、权威性和专业性,以营造学术氛围,促进国际交流与合作,打造世界人工智能学术高地

【Meta learning in NLP】Text Classification

[亡魂溺海] 提交于 2020-11-17 09:03:06
元学习meta learning研究在CV方向占据大部分比例,论文总结比比皆是。本文主要汇总下近些年元学习在NLP文本分类方向 Text Classification 的研究论文,供相关研究人员参考。 同时欢迎大家关注小样本学习方法专栏~,持续更新小样本学习领域最新研究内容以及个人思考总结。 小样本学习方法(FSL) ​ www.zhihu.com 【1】 Meta-learning for Few-shot Natural Language Processing: A Survey 摘要: 少样本自然语言处理(NLP)指的是NLP任务只附带少量的标记样本。这是一个人工智能系统必须学会应对的现实挑战。通常我们依赖于收集更多的辅助信息或开发更有效的学习算法。然而,高容量模型中基于梯度的一般优化,如果从头开始训练,则需要在大量标记样本上执行许多参数更新步骤,以获得良好的性能。如果目标任务本身不能提供更多的信息,那么收集更多具有丰富注释的任务来帮助模型学习如何?元学习的目标是训练具有丰富注释的各种任务的模型,这样它就可以只使用几个标记样本来解决一个新任务。其核心思想是训练模型的初始参数,使模型在经过零步或几个梯度步更新后,对新任务具有最大的性能。已经有一些关于元学习的调查。然而,本文主要研究NLP领域,尤其是少镜头应用。我们试图提供更清晰的定义

双十一,站在巨人的肩膀上囤最优秀的编程书

耗尽温柔 提交于 2020-11-17 07:56:25
双十一,囤点什么书呢?小编想了想,新书?经典书?畅销书?感觉似乎每一类都值得推荐 。每一年出版社的专业新书上百本,如何在适宜的时间选您需要的好书?双十一就是一个很好的时间选择。让小编带你浏览本年度最值得推荐的双十一好书。 经典书必备(思维修炼必备) 1、编程珠玑(第2版) 本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者Jon Bentley 以其独有的洞察力和创造力,引导读者理解这些问题并学会解决方法,而这些正是程序员实际编程生涯中至关重要的。本书的特色是通过一些精心设计的有趣而又颇具指导意义的程序,对实用程序设计技巧及基本设计原则进行了透彻而睿智的描述,为复杂的编程问题提供了清晰而完备的解决思路。本书对各个层次的程序员都具有很高的阅读价值。 2、数学之美 第三版 这是一本备受推崇的经典科普作品,被众多机构推荐为数学学科的敲门砖,是信息领域大学生的必读好书。 数学既是对于自然界事实的总结和归纳,又是抽象思考的结果。在《数学之美》里,吴军博士集中阐述了他对数学和信息处理这些专业学科的理解,把数学在IT领域,特别是语音识别、自然语言处理和信息搜索等方面的美丽之处予以了精彩表达,这些都是智能时代的热门技术话题。 本书还用了大量篇幅介绍各个领域的典故,是文科生也可以看懂的科普读物。成为一个领域的大师有其偶然性,但更有其必然性

论文浅尝

[亡魂溺海] 提交于 2020-11-17 03:55:17
论文笔记整理:谭亦鸣,东南大学博士生。 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。 作者提出的方法大致可以描述为: 1.基于实体的上下文关系,将分布于文本中的实体融合为一个实体图; 2.通过证据关系及类型,从实体图中抽取子图,构成推理链(同时也获得对应的局部文本信息); 3.基于推理链,构建了一个整合的“生成-评价”网络模型,实现多跳问题的生成。 其中,作者将生成过程(生成器)设计为一个强化了问题句法和语义合理性的seq2seq模型; 在评价方面,作者通过建立一个混合监督学习与强化学习的评价机制,同时用于生成模型的优化。 本工作使用的数据集为:HotpotQA 问题生成方法的主要作用是构建伪训练标注集用于弥补数据集不足的问题。 背景与动机 本工作主要关联的一个NLP是:多跳机器阅读理解:即使机器完全理解文本语义,并回答一般的问题(尤其是需要学习推理)。因此这里的问题生成主要基于包含多实体/关系的文本数据。 从现有的问题生成方法上看: 1. 基于模板的方法受限于手写模板对于问题类型的覆盖能力; 2. 目前的 seq2seq 问题生成方法无法捕获和合成多个句子之间的证据(evidence,本质上,连续的relation)。

我们需要一个NGS创新开发者大会吗

南笙酒味 提交于 2020-11-15 06:11:26
前些天我们生信技能树公告了 会议日程发布|第七届N·GS创新开发者大会 ,作为会议的重要组织者,算起来我已经是第四次参加NGS创新开发者大会了。每次都有不一样的收获,把以前素未谋面的圈内好友都给见一遍。其中一个参会者真情流露为NGS创新开发者大会打call的“ 告白 ”火爆了我们组织者交流群,非常有必要转发一波,支持一下! “告白”正文 华大智造在数日前完成了一笔高达10亿美金的大额融资,同样就在几天前,牛津纳米孔测序仪公司对外宣布再次获得数千万英镑的投资, 除了表明资本和资源向头部集中之外,也传达了基因行业前景一片美好的信息 ;同时还有不久前罗氏收购基因测序技术公司一事儿除了表明它千年不死的测序仪执念以及要和自己同样是收购而来的伴随诊断公司Foundation medicine形成闭环外,同样也意味着巨头们持续看好基因行业。 然而正如大家所见,尽管有大额资本和巨头们用真金白银给基因行业加持,但就在过去数年内基因行业确实快速经历了喧嚣热炒以及冷静退潮,如今基于NGS之上的主要应用包括医疗、科研、农畜牧渔业、大健康等几个领域,就拿大家熟悉的临床应用来说,有NIPT、肿瘤NGS伴随诊断、病原微生物检测(mNGS)、遗传疾病筛查与诊断、辅助生殖、药物研发等等,相信大家对这些应用都已经耳熟能详了,那么除了这些应用之外能否再为基因测序技术找到新的大型应用场景呢?

用数据分析理论解读双十一背后的技术

走远了吗. 提交于 2020-11-14 02:51:29
全民狂欢购物的双十一背后,有很多技术在支撑,利用正确的技术手段可以在双十一为我所用。我们以化妆品电商为例,解析一下如何通过数据分析的方式让电商的双十一准备更高效充分。 基于历史数据进行分析建模对今年的销售情况进行预测,能够帮助商家做出更科学的营销方案。通常我们所能够收集到的历史数据包含了时间、名称、价格、销量、评论数量、商户等数据。 在已有数据中(数据量有限,仅用作构建分析模型之用,不作为参考),我们发现“title”这一列里面的信息量很大,但由于都是杂乱无章的文本数据,不能直接做分析,所以首先需要通过自然语言处理技术对数据进行处理。处理之后,会清清晰的得到产品大类、小类、产品功效之类等变量。 根据数据变量的特征,分别用线性回归、决策树、随机森林、XgBoost 等算法建模并比较,得到一个最佳的预测模型。起初,这些特征和销售量的关系单从数字上看并不直观,但是,通过使用七牛云 Pandora 可以将这些数据可视化,更直观看到结果。 从散点图展示,销量的预测值和实际值很接近,几乎完美地服从 y=x 的直线分布,所以能够判断出,这个模型能够帮助我们有效进行分析。 “变量重要性”是我们在分析中所需要关注到的一个重点。针对电商,通常评论数量、价格和产品功效是影响销量的三大关键因素。评论数量越多,销量就越高;价格正好相反,价格越低,销量就越高;针对化妆品这一品类