数据抽取

zhwiki语料预处理

ε祈祈猫儿з 提交于 2020-02-08 04:18:33
一、zhwiki语料的下载: https://dumps.wikimedia.org/zhwiki/ https://dumps.wikimedia.org/zhwiki/20200201/ 下载的是红色圈中的文件:zhwiki-20200201-pages-articles.xml.bz2 二、gensim.corporaz 中的 WikiCorpus 类 WikiCorpus 类可以处理,但是抽取出来的数据都去除了标点符号,估计也可以设置参数保留这些标点符号,但是在BERT的Git主页上推荐了wikiextractor 工具,所以索性试试这个工具,展示放一放gensim。 三、Wikiextractor: 主页: https://github.com/attardi/wikiextractor 使用参考:主页有详细的使用指导 中文使用参考 http://www.52nlp.cn/tag/wikiextractor 1、下载:直接从上面主页下载下来后,无需任何安装,直接可以用。 2、目前使用的抽取命令: python3 WikiExtractor.py -o ./zhwiki-20200201 -b 10M --json --processes 4 ../zhwiki-20200201-pages-articles.xml.bz2 -o ./zhwiki-20200201

知识图谱是什么?

独自空忆成欢 提交于 2020-02-06 18:28:49
知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。 1. 定义 官方定义:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。 实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。 由上图,可以看到实体有地名和人;大理属于云南、小明住在大理、小明和小秦是朋友,这些都是实体与实体之间的关系。 通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。 2. 可视化表现 如果我们在百度搜索“周杰伦的老婆”的时候,搜索结果不是周杰伦,而是直接返回了昆凌的信息卡片,为什么呢? 因为底层知识图谱已经有了周杰伦和昆凌是夫妻关系,所以可以理解到你要找的是昆凌,而不是周杰伦,这也说明了知识图谱有理解用户意图的能力。 02 知识图谱构建的关键技术 知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为

网络爬虫技术总结

两盒软妹~` 提交于 2020-01-23 11:47:45
网络爬虫技术总结 http://mp.weixin.qq.com/s?__biz=MzI3MTI2NzkxMA==&mid=2247484132&idx=1&sn=8db587fabc3c630decf0419b6130770e&scene=23&srcid=0720ZByjAlOM9YC5c76N9uKU#rd   对于大数据行业,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,对于中小微公司,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择,本文主要从爬虫原理、架构、分类以及反爬虫技术来对爬虫技术进行了总结。 1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL

实时数据同步方案

那年仲夏 提交于 2020-01-20 18:30:54
一.Flume收集各数据库日志,准实时抽取到HDFS 安装HDP,包含Flume 方案优点: 1.配置简单,不用编程:只要在flume.conf文件中配置source、channel及sink的相关属性 2.采用普通SQL轮询的方式实现,具有通用性,适用于所有关系库数据源 方案缺点: 1.在源库上执行了查询,具有入侵性 2.通过轮询的方式实现增量,只能做到准实时,而且轮询间隔越短,对源库的影响越大 3.只能识别新增数据,检测不到删除与更新 4.要求源库必须有用于表示增量的字段 二.canal 原理: canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议 mysql master收到dump请求,开始推送( slave拉取,不是master主动push给slaves )binary log给slave(也就是canal) canal解析binary log对象(原始为byte流) mysql中需要配置一个用户,专门提供给canal用 canal开源代码中发送端仅仅支持mysql,不支持oracle,接收端由于采用jdbc,mysql、oracle等可以通吃。 三.maxwell 优点: 支持bootstrap启动,同步历史数据 集成kafka,直接将数据落地到kafka

知识图谱构建过程

喜夏-厌秋 提交于 2020-01-20 04:16:57
知识图谱构建技术体系 知识获取:从不同来源、不同结构的数据中进行知识的提取,形成结构化的知识,当前知识的获取主要针对文本数据进行 实体抽取 众包:百度百科、维基百科,存储机器可读的、具有一定结构的数据 爬虫:通过定义网页中的实体、属性、关系的 pattern,实现对网页数据的获取,例如 Google、Baidu 的搜索引擎 机器学习:将数据变成考研理解的知识,例如通过文本分类、主题模型等,可以获取文本的特征,这些特征可以理解为知识 专家:垂直领域的专家经验 NER:命名实体识别 关系抽取 将文本的关系映射到实体关系三元组上 分开研究实体和关系抽取,容易造成错误的累计,可以考虑同时研究 事件抽取 事件是发生在某个特定时间、地点,由角色参与的行为序列 现有的知识库描述的是实体之间的静态关系,事件描述粒度更大的、动态的、结构化的知识 属性抽取 属性主要针对实体而言,实现对实体的完整性描述 可以将属性抽取任务转变为关系抽取任务:实体——属性之间的名词性关系 挑战 缺乏大规模标注数据:主要采用监督的方法 开放域上知识抽取的局限性:数据规模的扩展;数据主题的鲁棒性 跨语言抽取 跨媒体抽取 视觉实体和关系的抽取 视觉事件的自然语言描述 跨媒体信息融合 知识表示:将现实世界的知识转变为计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的一种描述和约定 基于符号的知识表示

知识图谱研究进展

 ̄綄美尐妖づ 提交于 2020-01-12 20:27:09
在原文 《知识图谱研究进展》 基础上上做了相应的调整和补充 本文首先简要回顾知识图谱的历史,探讨知识图谱研究的意义。其次,介绍知识图谱构建的关键技术,包括实体关系识别技术、知识融合技术、实体链接技术和知识推理技术等。然后,给出现有开放的知识图谱数据集的介绍。最后,给出知识图谱在情报分析中的应用案例。 — 漆桂林、高桓、吴天星 东南大学计算机科学与工程学院 本文节选自《情报工程》2017 年第 1 期,知识图谱专题稿件。 1 知识图谱构建技术   本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。 1.1 知识图谱技术地图   构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天,知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。为了阐述如何构建知识图谱,本文给出了构建知识图谱的技术地图,该技术地图如图1所示。   整个技术图主要分为三个部分,第一个部分是知识获取,主要阐述如何从非结构化、半结构化、以及结构化数据中获取知识。第二部是数据融合,主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联。第三部分是知识计算及应用,这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用。 1.1.1 知识获取   在处理非结构化数据方面

实体关系抽取的现状与未来

ε祈祈猫儿з 提交于 2020-01-09 01:06:38
文章目录 Abstract 语法分析和语义分析 SemEval-2010 Task-8 更大规模的训练数据 Reference Abstract 来到 2019 年的今天,深度学习的诸多 局限性 也慢慢得到广泛认知。对于自然语言处理而言,要做到 精细深度的语义理解 ,单纯依靠 数据标注 与 算力投入 无法解决本质问题。如果没有 先验知识 的支持,「中国的乒乓球谁都打不过」与「中国的足球谁都打不过」,在计算机看来语义上并没有巨大差异,而实际上两句中的「打不过」意思正好相反。因此, 融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路 。然而,这些知识又从哪里来呢?这就涉及到人工智能的一个关键研究问题—— 知识获取 。 实体关系抽取是一个经典任务,在过去的 20 多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。 语法分析和语义分析 语法分析在词法分析输出单词流基础上,根据语言的语法规则注意分析这些单词流怎么组成句子,并说明句子是怎样组成程序,并能进行 语法检查 ,而语义分析是根据语法结构分析其含义。 能理解成语法分析是从词中找出句子,而语义分析是在句子的基础上进行理解,并断句。 语法 分析的任务是判断源程序在结构上是否正确,是上下文无关的; 语义

windows10使用Oracle GlodenGate 配置Oracle数据库同步

只谈情不闲聊 提交于 2020-01-08 10:01:31
参考学习博客地址: https://www.cnblogs.com/lanston/p/ogg_instrAndInstall.html# label3 软件下载地址: http://www.oracle.com/technetwork/middleware/goldengate/downloads/index.html 我这里下载的是 Oracle GoldenGate 18.1.0.0.0 for Oracle on Windows (64 bit) 因为下载其他版本在配置的时候报错,有些Orcale的内置包找不到。 GoldenGate由COLLECTOR后台进程、MGR进程、EXTRACT进程、DATA PUMP EXTRACT进程、Replicat等一系列进程组成;COLLECTOR后台进程负责接收和保存源端数据到trail;MGR进程管理启动Oracle GoldenGate进程、分配端口、管理trail file、创建事件,错误和诊断报告工作;EXTRACT进程负责抽取捕获变更数据信息并记录到trail;DATA PUMP EXTRACT是第二种GoldenGate extract 进程配置,它加强了源端和目标端抽取捕获数据的可用性,避免网络错误和目标端失败导致的数据丢失并提供了更复杂的数据过滤和转换功能,以及多源对单目标和单源对多目标的数据同步方式

【文智背后的奥秘】系列篇——海量数据抓取

六月ゝ 毕业季﹏ 提交于 2019-12-22 19:40:16
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/138 来源:腾云阁 https://www.qcloud.com/community 大数据已经是个非常热门的话题,文智平台正是基于大数据的背景,利用并行计算系统和分布式爬虫系统,结合独特的语义分析技术, 一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。现有的研究、工程应用方向基本上都是围绕着大数据的存储、计算等方面展开,但是对于一个基础环节——数据获取却很少有相关的介绍。本文重点围绕如何获取垂直海量数据展开讨论。 一.引言 数据的作用不言而喻,在各行各业中,分门别类的数据为用户的在线生活体验提供了基本的素材,附近的餐馆、即将上映的电影、最近热门新闻等等能够涵盖我们生活的方方面面。同时所有的这一切也成就了今天在各个垂直领域诸如大众点评、豆瓣、今日头条等专业的公司。具体到搜索业务来说,无论是多么优秀的架构、精准的算法,最终也是需要依赖完备、准确、及时的数据作为落地基础。 从搜索业务来看,数据的价值主要体现在如下几个方面: 直接提供搜索数据源。海量的数据为检索提供了必不可少的素材。为此数据工作的一个基本目标是数据完备性

【文智背后的奥秘】系列篇——结构化抽取平台

孤者浪人 提交于 2019-12-22 18:39:17
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/91 来源:腾云阁 https://www.qcloud.com/community 随着大数据时代的到来,一个大规模生成、分享、处理以及应用数据的时代正在开启。如果能将互联网上异源异构的非结构化或半结构化数据转换为更易处理的结构化数据,可以极大的降低获取数据的门槛,为信息检索和数据挖掘提供基础,更好的挖掘数据中蕴藏的价值。 单纯考虑网页这种半结构化数据的抽取:对于搜索引擎一般需要抽取出页面的标题、实际标题、时间、正文等关键信息;而对于去哪儿、携程这种酒店预定网站则需要进行更精细化的信息抽取,需要抽取出酒店名称、地址、电话、价格、评分、简介等具体属性。 可以看到,大量互联网产品都依赖抽取功能,因此迫切需要一个方便、便捷、高效且准确的网页抽取平台。 一.常用抽取方法 目前针对html这种半结构化的页面,业界比较流行的抽取方法大致就两类:dom树分块以及模版抽取。 1.dom树分块 该方法的基本思想就是对html页面建dom树后,对dom树进行遍历,同时根据事先训练好的分类模型判断遍历到的容器节点的语义块类别,本质上就是分类问题。比如对新闻网页,一般定义的语义块类别有标题