语义分析

文本关键词提取算法

…衆ロ難τιáo~ 提交于 2020-03-01 02:08:10
文本关键词提取算法 转自: http://www.cnblogs.com/a198720/p/3990666.html 1.TF-IDF 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 3.TF-IWF文档关键词自动提取算法 针对现有TF-IWF的领域文档关键词快速提取算法.该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典 分词等方法提高了关键词提取的速度及准确度.对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在 O(n)时间内完成. 4.基于分离模型的中文关键词提取算法研究 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关 键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该 算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明

语义SLAM综述

*爱你&永不变心* 提交于 2020-02-28 03:49:28
语义SLAM综述 摘要 SLAM技术在计算机视觉和机器人领域中占有重要地位。传统的SLAM框架采用了较强的静态世界假设,便于分析。大多基于小区域静态环境。在大规模的动态环境下,它们大多难以获得较好的性能,系统的准确性、快速性仍需加强。如何应对动态环境是一个非常重要而又备受关注的问题。现有的面向动态场景的SLAM系统要么只利用语义信息,要么只利用几何信息,要么以松散耦合的方式天真地组合它们的结果。近年来,一些研究集中在语义信息与视觉SLAM的结合上。 当前现状 视觉 SLAM(visual SLAM)是以图像作为主要环境感知信息源的SLAM系统,可应用于无人驾驶、增强现实等应用领域,是近年来的热门研究方向。典型视觉SLAM算法以估计摄像机位姿为主要目标,通过多视几何理论来重构3D地图。为提高数据处理速度,部分视觉 SLAM算法是首先提取稀疏的图像特征,通过特征点之间的匹配实现帧间估计和闭环检测,如基于SIFT(scaleinvariant feature transform)特征的视觉 SLAM和 基于ORB(oriented FAST and rotated BRIEF)特征的视觉。SIFT 和 ORB 特征凭借其较好的鲁棒性和较优的区分能力以及快速的处理速度,在视觉 SLAM 领域受到广泛应用。 但是,人工设计的稀疏图像特征当前有很多局限性

深度学习、机器学习与NLP的前世今生

十年热恋 提交于 2020-02-26 02:43:00
随着深度学习的发展,自然语言处理领域的难题也得到了不断突破,AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)”。目前深度学习在自然语言处理上主要有哪些应用?在工程实践中是否会有哪些瓶颈?以下内容是根据达观数据联合创始人高翔在《深度学习与文本智能处理》直播的总结。 一、为什么做文本挖掘 什么是NLP?简单来说: NLP的目的是让机器能够理解人类的语言,是人和机器进行交流的技术 。它应用在我们生活中,像:智能问答、机器翻译、文本分类、文本摘要,这项技术在慢慢影响我们的生活。 NLP的发展历史非常之久,计算机发明之后,就有以机器翻译为开端做早期的NLP尝试,但早期做得不是很成功。直到上个世纪八十年代,大部分自然语言处理系统还是基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。 第一次突破是上个世纪九十年代,有了统计机器学习的技术,并且建设了很多优质的语料库之后,统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术。从2006年深度学习开始,包括现在图像上取得非常成功的进步之后,已经对NLP领域领域影响非常大。 达观划分的NLP技术层次 当年上小学时有一本书叫《字词句篇与达标训练》,里面讲了字、词、句、篇,我们开始学写字,词是最基础的一级

转 Web 语义化

眉间皱痕 提交于 2020-02-22 15:20:05
单词语义化表示了它的意义。 事物的语义化意味着事物。 Web 语义化 = Web的意义。 什么是 Web 语义化? 什么是语义化?其实简单说来就是让机器可以读懂内容。 甲壳虫乐队是一个来自利物浦受欢迎的乐队。 约翰列侬是披头士乐队的成员。 "Hey Jude"是由披头士的代表作。 我们可以很容易理解上面的句子的意义。但这些语句怎么 被计算机理解呢? 语句由语法规则创建。语言的语法定义了创建语言语句的规则。但是如何让语法变为语义呢? 语义网是让机器可以理解数据。语义网技术,它包括一套描述语言和推理逻辑。它包通过一些格式对本体(Ontology)进行描述。 语义网并不是网页之间的链接。 语义网描述了事物之间的关联((如 A 是 B的一部分,Y 是 Z 的成员)及事物的属性(如大小,高度,年龄,价格等)。 语义网的实现是基于XML(可扩展标记语言eXtensible Markup Langauge)语言和资源描述框架(RDF)来完成的。XML是一种用于定义标记语言的工具,其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。 资源描述框架 RDF(Resource Description Framework),即资源描述框架

潜在语义分析(LSA)的原理讲解以及python实现

独自空忆成欢 提交于 2020-02-21 11:27:46
在传统的文本信息处理中,以单词向量表示文本的语义内容,以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。 潜在语义分析试图从大量的文本数据中发现潜在的话题,以话题向量来表示文本的语义内容,以话题向量的空间度量更准确地表示文本之间的语义相似度。 潜在语义分析使用的是非概率的话题分析模型,具体来说,就是将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。可采用的矩阵分解方法有: 奇异值分解、非负矩阵分解。 给定一个含有 n n n 个文本的集合 D = { d 1 , d 2 , ⋯   , d n } D=\{d_1,d_2,\cdots,d_n\} D = { d 1 ​ , d 2 ​ , ⋯ , d n ​ } ,以及在所有文本中出现的 m m m 个单词 W = { w 1 , w 2 , ⋯   , w m } W=\{w_1,w_2,\cdots,w_m\} W = { w 1 ​ , w 2 ​ , ⋯ , w m ​ } ,则将单词在文本中出现的数据用一个单词-文本表示,记作 X X X 。 X = [ x i j ] m × n X = [x_{ij}]_{m\times n} X = [ x i j ​ ] m × n ​ 其中,元素 x i j x_{ij} x i j ​

MySQL 5.7默认ONLY_FULL_GROUP_BY语义介绍

*爱你&永不变心* 提交于 2020-02-13 02:19:15
MySQL 5.7默认ONLY_FULL_GROUP_BY语义介绍 ONLY_FULL_GROUP_BY是MySQL提供的一个sql_mode,通过这个sql_mode来提供SQL语句GROUP BY合法性的检查,在MySQL的sql_mode是非ONLY_FULL_GROUP_BY语义时。一条select语句,MySQL允许target list中输出的表达式是除聚集函数或group by column以外的表达式,这个表达式的值可能在经过group by操作后变成undefined,例如: 1 2 3 4 5 6 7 8 9 10 11 12 mysql > create database test charset utf8mb4 ; mysql > use test ; mysql > create table tt ( id int , count int ) ; mysql > insert into tt values ( 1 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) , ( 2 , 4 ) ; mysql > select * from tt group by id ; + -- -- -- + -- -- -- - + | id | count | + -- -- -- + -- -- -- - + | 1 | 1 | | 2 | 3 | + --

【深度学习】更大规模的完整视频理解

僤鯓⒐⒋嵵緔 提交于 2020-02-06 10:36:00
译者:蓝燕子 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 摘要 近年来,视频识别技术在具有丰富注释的基准中得到了发展。然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的。视频理解任务,从而在描述视频的整体内容方面留下了很大的差距。我们通过展示一个大规模的“整体视频理解数据集”(HV)来填补这一空白U).在语义分类中,HVU是分层组织的,它侧重于多标签和多任务视频理解,作为一个综合问题,包括对多个符号的识别动态场景中的IC方面。HVU包含大约。总共有572k个视频,900万个注释用于培训、验证和测试集,跨越3457个标签。HVU包含语义方面定义在场景、对象、动作、事件、属性和概念的类别上,这些类别自然地捕捉到了现实世界的场景。 此外,我们还引入了一种新的时空深层神经网络体系结构,称为“整体外观与时间网络”(HATNet),它通过组合将2D和3D体系结构融合到一起。宁的外观和时间线索的中间表示。HATNet的重点是多标签和多任务学习问题,并以端到端的方式进行训练。实验表明H在HVU上训练的ATNet在挑战人类行动数据集方面优于目前最先进的方法:HMDB51、UCF101和动力学。数据集和代码将公开提供,地址:https://github.com/holistic-video-understanding 1. 引言 视频理解是一个包含多个语义方面的综合问题

编译原理 -- 语法制导翻译

拜拜、爱过 提交于 2020-02-06 05:58:39
语法制导翻译 语法制导翻译是通过向一个文法的产生式附加一些规则或程序片段而得到的。 语法制导翻译的两个概念 下面是与语法制导翻译相关的两个概念: 属性 (attribute) : 表示与某个程序构造相关的量。这个属性就是我们平常所理解的 属性 ,可以是表达式的数据类型,指定数据类型的字节大小,生成的代码中的指令数目,等等等。 (语法制导的) 翻译方案 :翻译方案是一种将程序片段附加到一个文法的各个产生式上的表示法。这个程序片段就是你用来翻译这个产生式的翻译程序。将这些翻译程序的输出结果(翻译结果)按照一定的顺序组合起来,就成了最终的翻译结果。 综合属性与继承属性 综合属性 即“自底向上”求值的属性,综合属性的值是由属性值所在结点及其子结点确定的。对 (语法分析树的) 某个结点的综合属性的值只需要对 (语法分析树的) 该结点做自底向上遍历就可得到。 相对于“自底向上”求值的综合属性,编译原理里还有一种重要的“自顶向下”求值的属性,叫做 继承属性 ,继承属性的值是由属性所在结点及其父节点、兄弟结点决定的。 语法制导定义 : ① 每个文法符号和一个属性集合相关联。 ② 每个产生式和一组 语义规则 相关联。这些规则用于计算该产生式的相关属性值。 如果将语法分析树的各个结点的属性标记在语法分析树上,那么这棵语法分析树我们称之为 注释语法树 。 我们通过深度优先遍历整棵注释语法树

final语义与工作原理

僤鯓⒐⒋嵵緔 提交于 2020-01-27 00:26:27
1.final语义与使用 final的语义 编译器做的处理 编译器可以跨同步屏障移动对final修饰的字段值进行读取和调用任意或未知的方法 编译器对于final修饰的字段允许保留缓存其在寄存器中,而在必须重新加载非final字段的情况下,将通过使用缓存的方式保留着而不从主内存中加载数据 并发线程下是安全的 对于final修饰的字段在所有线程中是属于不可变(基本类型值不可变,引用类型是引用地址不可变),也就是对于程序员而言,在线程中重新对final修饰的字段赋值将会编译不通过 只有在对象完全初始化之后,线程才能看到对该对象的引用,这样就可以保证看到该对象的final字段的正确初始化值 基于Happen-Before原则,程序任何对象的初始化happen-before于程序中任何其他的动作操作行为 因此能够保证不会被重排序,也就是说final修饰的字段在线程读取已经先在构造器中执行写操作 因而所有线程看到final修饰的变量均为最终最新的版本 final的使用模型 在对象的构造函数中为对象设置final字段;在对象的构造函数完成之前,不允许在其他线程可以看到的地方对正在构造的对象的引用执行写操作 这样可以保证在线程看到该对象的时候,将始终看到该对象final字段的最终正确构造版本 final的基本使用分析 源代码 // FinalClass.java 来源: CSDN 作者: 疾风先生

论文阅读与模型复现——HAN

↘锁芯ラ 提交于 2020-01-25 09:56:25
论文阅读 论文链接: https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接: https://github.com/Jhy1993/HAN 介绍视频: https://www.bilibili.com/video/av53418944/ 参考博客: https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous Graph Attention Network(HAN),可以广泛地应用于异质图分析。注意力机制包括节点级注意力和语义级注意力。节点的注意力主要学习节点及其邻居节点间的权重,语义级的注意力是来学习基于不同meta-path的权重。最后,通过相应地聚合操作得到最终的节点表示。 ABSTRACT 最近,深度学习中最令人兴奋的进步之一是注意机制,它的巨大潜力在各个领域。 本文首先提出了一种基于层次注意的异构图神经网络,包括节点级注意和语义级注意。具体地说: 节点级注意旨在学习节点与其基于元路径的邻居之间的重要性 语义级注意能够学习不同元路径的重要性 通过从节点级和语义级两个层次上学习重要性,可以充分考虑节点和元路径的重要性。该模型通过对基于元路径的邻域特征进行分层聚合,生成节点嵌入。