BERT

利用关系抽取构建知识图谱的一次尝试

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-27 16:20:44
关系抽取   信息抽取(Information Extraction, IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取(Relation Extraction, RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系,是自然语言处理(NLP)中的一项基本任务。比如,我们可以从下面的一段话中, 鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」,是他给加上的。网易科技报导,郭台铭在2018深圳IT领袖峰会谈到工业互联网时表示,眼睛看的、脑筋想的、嘴巴吃的、耳朵听的,都在随着互联网的发展而蓬勃发展,当然互联网不是万能的,比如说刚才李小加要水喝,在手机上一按就能出一瓶水吗?当然做不到,还是得有实体经济。 可以抽取出如下三元组,用来表示实体之间的关系: ['鸿海集团', '董事长', '郭台铭'] ['阿里巴巴集团', '主席', '马云'] 并且能够形成如下的简单的知识图谱(Knowledge Graph)。   关于知识图谱,笔者已经在文章 SPARQL入门(一)SPARQL简介与简单使用 中给出了一些介绍,而利用关系抽取,我们可以从一些非结构化数据中,提取出实体之间的关系,形成知识图谱,这在很大程度上可以帮助我们减轻构建知识图谱的成本。非结构化数据越多,关系抽取效果越好

229页CMU博士张昊毕业论文公布,探索机器学习并行化的奥秘

本小妞迷上赌 提交于 2020-10-27 09:53:46
  机器之心报道    机器之心编辑部    CMU 机器人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机器学习并行化的自适应、可组合与自动化问题展开。   随着近年来,机器学习领域的创新不断加速,SysML 的研究者已经创建了在多个设备或计算节点上并行机器学习训练的算法和系统。机器学习模型在结构上变得越来越复杂,许多系统都试图提供全面的性能。尤其是,机器学习扩展通常会低估从一个适当的分布策略映射到模型所需要的知识与时间。此外,将并行训练系统应用于复杂模型更是增加了非常规的开发成本,且性能通常低于预期。   近日,CMU 机器人研究所博士张昊公布了自己的博士学位论文《机器学习并行化的自适应、可组合与自动化》, 旨在找出并解决并行 ML 技术和系统实现在可用性和性能方面的研究挑战 。   具体而言,该论文 从可编程性、并行化表示、性能优化、系统架构和自动并行化技术等几方面对分布式并行 ML 展开了研究,并认为分布式并行机器学习可以同时实现简洁性和高效性 。此外,该论文表明,并行 ML 的性能可以通过生成自适应 ML 模型结构和集群资源范式的策略实现大幅度提升,同时通过将「如何并行化」这一核心问题形式化为端到端优化目标以及构建可组合分布式 ML 系统来自动优化这类自适应、自定义策略,进而可以解决可用性挑战。   论文链接:https://www.cs.cmu.edu/

用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案

爷,独闯天下 提交于 2020-10-27 07:28:30
  机器之心报道    编辑:小舟、蛋酱    这三位程序员,用 BERT 捧走了 50 万人民币的高额奖金。   8 月 3 日,一年一度的腾讯广告算法大赛在深圳腾讯滨海大厦举办。   一直以来,腾讯广告都在不断寻找更为优秀的数据挖掘和机器学习算法。这场备受瞩目的算法盛事,今年已经是第四届。每一年的比赛都会吸引上万人参加,还催生出一个小型算法社区。   最终,由三位年轻程序员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额大奖。从初赛冠军、复赛冠军,再到最佳答辩,这三位程序员究竟靠的是什么?   DYG 团队由来自武汉大学计算机科学硕士、算法工程师王贺,中山大学 - 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强组成。值得一提的是,前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主。      左起:腾讯广告副总裁蒋杰,「DYG」战队王贺、郭达雅、梁少强。    比赛题目   今年腾讯广告算法大赛的题目是「广告受众基础属性预估」,和以往比赛分析广告转化率、预估曝光效率的传统思路不同,这次的赛题是一种逆向思考。   通常认为人们对于广告的偏好会因年龄和性别的不同而有所区别,许多行业的实践者已经验证了这一假设。但大多数采用的方法是在已有这些属性之后进行区分推荐,随后对比推荐效果。   而今年的赛题

业界首个!阿里云开源面向NLP场景深度迁移学习框架EasyTransfer

荒凉一梦 提交于 2020-10-27 04:49:43
     近日,阿里云正式开源了深度迁移学习框架 EasyTransfer ,这是 业界首个 面向NLP场景的深度迁移学习框架。    开源链接:https://github.com/alibaba/EasyTransfer   该框架由阿里云机器学习PAI团队研发,让自然语言处理场景的模型预训练和迁移学习开发与部署更加简单和高效。   面向自然语言处理场景的深度迁移学习在现实场景里有巨大的需求,因为大量新的领域不断涌现,传统的机器学习需要对每个领域都积累大量训练数据,这将会耗费大量标注的人力与物力。深度迁移学习技术可以将源领域学到的知识迁移到新的领域的任务,进而大大减少标注的资源。   尽管面向自然语言场景的深度迁移学习有很多的需求,目前开源社区还没有一个完善的框架,而且构建一个简单易用且高性能的框架有巨大挑战。   首先,预训练模型加知识迁移现在是主流的NLP应用模式,通常预训练模型尺寸越大学习到的知识表征越有效,然而超大的模型给框架的分布式架构带来了巨大挑战。如何提供一个高性能的分布式架构,从而有效支持超大规模的模型训练。   其次,用户应用场景的多样性很高,单一的迁移学习算法无法适用,如何提供一个完备的迁移学习工具来提升下游场景的效果。   第三,从算法开发到业务落地通常需要很长的链路,如何提供一个简单易用的从模型训练到部署的一站式服务。   面对这三大挑战

最全总结!聊聊 Python 操作PDF的几种方法

爷,独闯天下 提交于 2020-10-25 06:47:11
作者 | 陈熹 来源 | 早起Python 前言 本文主要涉及: os 模块综合应用 glob 模块综合应用 PyPDF2 模块操作 基本操作 PyPDF2 导入模块的代码常常是: from PyPDF2 import PdfFileReader, PdfFileWriter 这里导入了两个方法: PdfFileReader 可以理解为读取器 PdfFileWriter可以理解为写入器 接下来通过几个案例进一步认识这两个工具的奇妙之处,用到的示例文件是5个发票的pdf 每个发票的PDF都由两页组成: 合并 第一个工作是将5个发票pdf合并成10页。这里读取器和写入器应该怎么配合呢? 逻辑如下: 读取器将所有pdf读取一遍 读取器将读取的内容交给写入器 写入器统一输出到一个新pdf 这里还有一个重要的知识点:读取器只能将读取的内容一页一页交给写入器。 因此,逻辑中第1步和第2步实际上不是彼此独立的步骤,而是读取器读取完一个pdf后,就将这个pdf全部页循环一遍,挨页交给写入器。最后等读取工作全部结束后再输出。 看一下代码可以让思路更清楚: from PyPDF2 import PdfFileReader, PdfFileWriterpath = r'C:\Users\xxxxxx'pdf_writer = PdfFileWriter()for i in range(1, 6):

内容推荐算法:异构行为序列建模探索

徘徊边缘 提交于 2020-10-24 06:27:19
很多秃头小可爱沉迷熬夜逛淘宝,以下是 来自宇宙洪荒之力的最新线报: 男生比女生多 天蝎座多 夜间小裙子搜索量位居第一 ...... 尤其,每晚有1700万人在淘宝只逛不买,他们到底在干什么? 看完视频和下方文章,你就知道为什么上头了。 前言 来洋淘, 更有young! 洋淘轻应用的内容均是手淘用户的真实购后分享, 在这里,你可以个性化地浏览他人的美好生活, 并鼓励自我表达与分享。 图1. 洋淘轻应用截图, 左) 为双列流, 右) 为详情页 在推荐任务上,同导购产品相比,洋淘场景有着自身的特性: 新用户冷启严峻,六成以上的用户无洋淘场景内的历史内容点击; 老 用户内容兴趣也稀少,历史内容点击数不超过10,反观商品点击数却高达数倍; 用户在电商与内容两个 domain 的兴趣差异较大。 统计日志发现,电商兴趣对洋淘场景下内容点击样本的覆盖度仅为 30% 。 于是,如何把跨域的异构行为用好,提升用户的浏览深度就显得弥足珍贵。我们从 召回 , ctr预估 两大关键环节均作了探索与创新, 大幅提升了推荐效果, 取得了显著的业务收益。 向量召回模型In_Match 前文提到内容兴趣不够用,我们首先基于i2i尝试了商品与内容的混合协同,取得了一定的收益。然后基于电商兴趣的标题作相关内容的严格相似召回,却收益为负,这说明跨域的兴趣不可生搬硬套,也与前文的兴趣差异统计相吻合。

自然语言处理动手学Bert文本分类

泪湿孤枕 提交于 2020-10-23 08:31:33
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 来源: oschina 链接: https://my.oschina.net/u/4324861/blog/4685262

ERNIE时延降低81.3%,飞桨原生推理库Paddle Inference再升级

一个人想着一个人 提交于 2020-10-23 03:37:31
随着深度学习技术的成熟和人工智能的发展,机器开始变得越来越“聪明”,越来越了解用户的喜好和习惯。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 近年来对于NLP的研究也在日新月异的变化,有趣的任务和算法更是层出不穷,百度提出知识增强的语义表示模型 ERNIE 就是其中的佼佼者。 ERNIE 在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等各类NLP中文任务上的模型效果 全面超越 Bert ,成为NLP中文任务中的主流模型, ERNIE 2.0的论文(https://arxiv.org/abs/1907.12412)也被国际人工智能顶级学术会议AAAI-2020收录。 然而在模型效果大幅度提升的同时,模型的计算复杂性也大大增加,这使得 ERNIE 在推理部署时出现延时高,推理速度不理想 的情况,给产业实践带来了极大的挑战。 ​ 飞桨 开源框架1.8版本中, Paddle Inference在算子融合、TensorRT子图集成和半精度浮点数(Float 16)加速

是不是有一天想象着让代码自动补全,今天他来了!!!

僤鯓⒐⒋嵵緔 提交于 2020-10-22 18:12:55
作者:熊唯,黄飞 ,腾讯 PCG/QQ研发中心/CV应用研究组 AI 如果真的可以写代码了,程序员将何去何从?近几年,NLP 领域的生成式任务有明显的提升,那通过 AI 我们可以让代码自动完成后续补全吗?本文主要介绍了如何使用 GPT2 框架实现代码自动补全的功能。 如果 AI 真的可以自己写代码了,程序员将何去何从? 我去年做过一个代码补全的小功能,打包为 androidStudio 插件,使用效果如下: 代码补全模型预测出的结果有时的确会惊吓到我,这也能学到~? 那如果给它见识了全世界的优秀代码,再给足够量级参数和优秀的模型框架,真的可以实现需求作为输入,直接输出代码吗? "我的需求讲完了,你的代码呢?" 希望可以看到这一天。 代码补齐功能有其他优秀插件也已实现,比如 tabnine,Kite 和国产的 aixcoder。本文主要介绍下代码补全功能需要实现的整套流程。主要包括数据,算法和工程。 数据 众所周知,算法工程师大部分时间都在处理数据。 深度学习是使用大数据训练模型的一个过程,数据是很重要的一个模块。人是会累的,休息不好还导致记忆不好。AI 是你给多少数据它就能存储接收多少数据,学不到信息那是人的错,给的数据不好或者算法设计不好。所以我们先尽可能多的准备好训练数据。 1、数据采集 本文的目的是代码补全,训练数据就是代码段。考虑到每种语言风格和语法都不一致

###haohaohao####揭秘认知图谱!从多跳阅读理解问答开始

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-22 01:42:59
【ACL 2019】揭秘认知图谱!从多跳阅读理解问答开始 Phoenix Cat 劝退人工智能新天坑 “机器的阅读理解与问答”一直以来被认为是“自然语言理解(NLU)”的核心问题之一,随着BERT等模型的兴起,单段落的简单阅读理解任务取得了重大突破;研究者将目光转向更能体现机器智能的“多跳”“复杂”情形。本篇论文介绍了基于认知中“双过程理论(dual process theory)”的CogQA模型,文章提出一种新颖的迭代框架:算法模拟认知学中人类的两个认知系统,并维护一张认知图谱(Cognitive Graph),系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。文章在HotpotQA全维基百科数据集上持续占据第一近三个月之久,直到文章在被ACL高分接收后公开。 假设你手边有一个维基百科的搜索引擎,可以用来获取实体对应的文本段落,那么如何来回答下面这个复杂的问题呢? “谁是某部在2003年取景于洛杉矶Quality cafe的电影的导演?” 很自然地,我们将会从例如Quality cafe这样的“相关实体”入手,通过维基百科查询相关介绍,并在其中讲到好莱坞电影的时候迅速定位到“Old School”“Gone in 60 Seconds”这两部电影,通过继续查询两部电影相关的介绍,我们找到他们的导演