语义分析

用PaddlePaddle实现图像语义分割模型ICNet

我怕爱的太早我们不能终老 提交于 2020-03-27 18:17:07
3 月,跳不动了?>>> 什么是图像语义分割? 图像语意分割顾名思义是将图像像素按照表达的语义含义的不同进行分组/分割,图像语义是指对图像内容的理解,例如,能够描绘出什么物体在哪里做了什么事情等,分割是指对图片中的每个像素点进行标注,标注属于哪一类别。近年来用在无人车驾驶技术中分割街景来避让行人和车辆、医疗影像分析中辅助诊断等。 今天,我们介绍在图像语义分割任务中,如何基于图像级联网络(Image Cascade Network,ICNet)进行语义分割,相比其他分割算法,ICNet兼顾了准确率和速度。 PaddlePaddle已经将ICNet应用于工业领域,将零件质检工人从高强度、低效率的密集劳动中解放出来,有效提升企业经营效率。 图像语义分割模型ICNet的实现方法 下面向大家介绍ICNet的实现(转自PaddlePaddle Github): 运行程序示例需要使用PaddlePaddle develop最新版本。如果您的PaddlePaddle安装版本低于此要求,请按照PaddlePaddle官方文档更新安装版本。 PaddlePaddle官方文档: http://paddlepaddle.org/documentation/docs/zh/1.2/beginners_guide/index.html 代码结构 ├── network.py # 网络结构定义脚本 ├──

专访卡内基梅隆大学爱德华•霍威教授

狂风中的少年 提交于 2020-03-21 03:27:12
3 月,跳不动了?>>> 来源:《中国计算机学会通讯》2015年第3期《动态》 作者:周明 CCF自然语言处理和中文计算国际学术会议(NLPCC2014,http://tcci.ccf.org.cn/conference/2014/)于2014年12月8~9日在风景如画的深圳麒麟山庄举行。这个时节,北方已经进入寒冷的冬季,而这里却是风和日丽,草色青青。NLPCC 2014国际会议是中国在自然语言处理领域组织的级别最高、规模最大的国际学术会议。会议旨在增进自然语言处理和中文计算研究领域科研人员之间的交流、开拓视野、加强合作,促进相关研究领域的发展和深入。来自中国、美国、加拿大、新加坡、中国台湾、中国香港等国家和地区的近300位自然语言处理和中文计算研究领域的科研人员参加了本次会议,围绕“自然语言深度理解和知识整合”这一主题进行讨论。大会邀请新加坡国立大学黄伟道教授、美国卡内基梅隆大学爱德华•霍威教授、美国伊利诺伊大学厄巴纳-香槟分校刘兵教授做大会特邀报告。此外,来自多个国家的科研人员作了超过60个会议报告,全面介绍了相关研究领域的最新进展和未来趋势。在会议之前,作为本次会议的专题讨论会,还进行了为期三天的以“面向网络文本处理的统计学习方法”为主题的中国计算机学会《学科前沿讲习班》,涵盖了实体链接、统计机器学习、情感计算、信息检索、互联网经济和广告学等诸多热门领域。在会议期间

集合语义空间提高动提取同义词能力

邮差的信 提交于 2020-03-17 01:24:43
集合语义空间提高动提取同义词能力 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。 具体步骤: 运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章 主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。 【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。 具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值

Generative Face Completion

时光毁灭记忆、已成空白 提交于 2020-03-15 12:32:48
文章基本信息 文章来源: CVPR 2017 下载链接: Download paper Download code 摘要 解决问题: 从随机噪声中修复面部缺失的区域。 论文背景: 基于 Patch-based 的图像补全,该类方法主要是从源图像中寻找相似的patch,然后将该 patch 贴到缺失的区域。当源图像中没有类似的区域时,该方法就无法填充看上去合理的洞。 Patch-based 方法的不足:(1) Depend on low-level features; (2) Unable to generate novel objects; 基于 Context Encoder 的图像补全,该方法基于深度学习生成相似的纹理区域,在一定程度上可以补全缺失的区域,而且效果还不错。但是不能够保持局部一致性。Context Encoder方法的不足:(1) Can generate novel objects but fixed low resolution images; (2) Masks region must in the center of image; (3)补全的区域不能保持与周围区域的局部一致性。 论文目的: 传统以复制-粘贴的方式来进行图片补全在背景填充方面效果不错,但在面对填充脸部图片这种目标图片比较独特时却效果不佳。作者于是想用深度生成模型构建一个有效的目标补全算法

中文句子相似度之計算與應用

好久不见. 提交于 2020-03-12 08:48:12
原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用 郑守益 梁婷国立交通大学信息科学系 摘要 近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛。因此如何产生大量且具高质量之辅助教材日益受到许多自然语言处理研究者的重视。有鉴于此,本論文提出以中文句子相似度为基础的研究与应用。相似度的计算乃考虑句子的组合及聚合性。我们实作此一应用,并提出解决未知词的语意计算问题的方法。实验结果显示系统的检索 MRR 值可以提升到 0.89 且每一检索句皆可找到可堪用之例句。1. 绪論句子是可完整表达语意的基本单位[21],也是语法的具体表现。因此,在语言学习中,学童若是学会了各种句型,也就学会了隐含在句型中的语法规则。藉由语言学家的归纳整理[14],我们知道句子的结构并不是词语的随意组合,而是依照一定的「语法规则」。根据[15],语法规则可进一步分为「组合规则」及「聚合规则」。组合规则是指语法单位的横向组合,例如,「我」、「买」、「书」这三个词汇可以组合成「我买书」,但却不能组合成「书买我」。当词组合成结构之后,将具有语法意义,并使得整体结构的意义大于个别词汇的意义总和,例如:「綠」、「葉」这兩个词各自有其意义,但组合之后则形成了「綠」修饰「葉」的语法意义。至于聚合规则是指在句子中

【知识图谱学习笔记】(二)知识图谱基本知识

爱⌒轻易说出口 提交于 2020-03-09 06:25:05
目录 前言 2.1 知识表示和建模 2.2知识表示学习 2.3实体识别与链接 2.4实体关系学习 2.5事件知识学习 2.6 知识图谱查询和推理计算 参考文献 前言 本文介绍了有关知识图谱领域相关的基本知识的定义、意义,以及研究的内容与挑战。 2.1 知识表示和建模 ·Sowa J F. Knowledge representation: logical, philosophical, and computational foundations. 1999. ·Noy N F, McGuinness D L. Ontology Development 101: A Guide to Creating Your First Ontology. another version(找不到) 知识表示 知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。 哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信

语义网研究综述【上】

有些话、适合烂在心里 提交于 2020-03-07 22:21:59
【转】自Tim Berners-Lee于1998年提出了语义网(the Semantic Web)的概念之后,就一直成为人们讨论与研究的热点。当前国际上关于语义网的研究刚刚处于起步阶段,而我国对语义网的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、具体应用方面都相对落后。另人欣慰的是,我国学者已经认识到了语义网及其相关技术对未来互联网发展的影响,并开始着手研究语义网及其相关的关键技术与应用。本文将从以下四个方面对我国语义网研究作综合述评: (1)基本情况,对当前国内语义网的研究情况做一总体介绍;(2)体系结构,即对语义网体系结构研究的情况;(3)关键技术,讨论对RDF(Resource Description Framework,即资源描述框架)和Ontology(本体或本体论)的研究情况;(4)试验与应用,即当前针对语义网或利用其中的关键技术所做的具体试验与应用。最后,在对以上四个方面的情况进行综合述评的基础上总结当前国内语义网研究的特点和存在的主要问题并指出今后主要的研究方向与重点。 1 基本概况 当前对语义网的概念还没有形成统一的定义,对语义网的理解表述不一。如语义网是“第三代Web,其目标是实现机器自动处理信息,它提供诸如信息代理、搜索代理、信息过滤等智能服务”[1];语义网“不同于现存的万维网,其数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据

前端学习之认识HTML

橙三吉。 提交于 2020-03-02 11:09:00
## 本资源由 itjc8.com 收集 --- typora-copy-images-to: media --- > 第01阶段.前端基础.认识HTML ## 学习目标 - 理解 - HTML的概念 - HTML标签的分类 - HTML标签的关系 - HTML标签的语义化 - 应用 - HTML骨架格式 - sublime基本使用 # 1. HTML 初识 - HTML 指的是超文本标记语言 (**H**yper **T**ext **M**arkup **L**anguage)是用来描述网页的一种语言。 - HTML 不是一种编程语言,而是一种标记语言 (markup language) - 标记语言是一套标记标签 (markup tag) **pink老师 一句话说出html作用:** > 网页是由网页元素组成的 , 这些元素是利用html标签描述出来,然后通过浏览器解析,就可以显示给用户了。 **所谓超文本,有2层含义:** 1. 因为它可以加入图片、声音、动画、多媒体等内容(**超越文本限制 **) 2. 不仅如此,它还可以从一个文件跳转到另一个文件,与世界各地主机的文件连接(**超级链接文本 **)。 ```html <img src="timg.jpg" /> ``` **门外汉眼中的效果页面** <img src="media/title1.png" /> *

学习open62541 --- [20] 标准Reference类型

眉间皱痕 提交于 2020-03-02 10:53:46
在OPC UA Server中,所有Node之间都是使用Reference进行连接的。Reference有很多类型,在之前的系列文章中,我们也已经见过几种Reference了,本文就专门讨论所有标准Rference类型。 一 Reference的使用方式 如果看过前面的系列文章,那么就会对Reference的使用方式有一定的理解,如下图, 节点A通过一个Reference指向B,那么对于这个Reference来说A是 Source 节点,B是 Target 节点。 同理,如果B也通过另外一个Reference指向A,那么从这个Reference来说B是 Source 节点,A是 target 节点。 特别要注意,这2个Reference是不同的。 二 标准Reference类型的结构图 图片来自OPC UA文档,图中包含了所有的Reference类型,总共18个 第一次看到这幅图时有点吓人,但是详细分析后就会发现挺简单的。下面是对图片的分析, 整幅图描述的是Reference类型的 继承 关系图 双箭头指向的一边是父类型,另外一边是子类型,子类型继承父类型 属于Abstract的类型只能用来被继承,属于Concrete的类型可以被继承,也可以用来实例化对象 下面是对图中所有Reference类型的全面分析。按照从上到下, 1. References

文本关键词提取算法总结

放肆的年华 提交于 2020-03-01 02:19:11
1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。 原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数 2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值 3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用 基于语义的统计语言模型 ,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 文章关键词提取组件的主要特色在于: 1、 速度快 :可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档; 2、 处理精准 :Top N的分析结果往往能反映出该篇文章的主干特征; 3、 精准排序 :关键词按照影响权重排序,可以输出权重值; 4、 开放式接口