语义网研究综述【上】

有些话、适合烂在心里 提交于 2020-03-07 22:21:59

【转】自Tim Berners-Lee于1998年提出了语义网(the Semantic Web)的概念之后,就一直成为人们讨论与研究的热点。当前国际上关于语义网的研究刚刚处于起步阶段,而我国对语义网的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、具体应用方面都相对落后。另人欣慰的是,我国学者已经认识到了语义网及其相关技术对未来互联网发展的影响,并开始着手研究语义网及其相关的关键技术与应用。本文将从以下四个方面对我国语义网研究作综合述评: (1)基本情况,对当前国内语义网的研究情况做一总体介绍;(2)体系结构,即对语义网体系结构研究的情况;(3)关键技术,讨论对RDF(Resource Description Framework,即资源描述框架)和Ontology(本体或本体论)的研究情况;(4)试验与应用,即当前针对语义网或利用其中的关键技术所做的具体试验与应用。最后,在对以上四个方面的情况进行综合述评的基础上总结当前国内语义网研究的特点和存在的主要问题并指出今后主要的研究方向与重点。

 


1 基本概况
      当前对语义网的概念还没有形成统一的定义,对语义网的理解表述不一。如语义网是“第三代Web,其目标是实现机器自动处理信息,它提供诸如信息代理、搜索代理、信息过滤等智能服务”[1];语义网“不同于现存的万维网,其数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能”[2];语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理”[3]。语义网的创始人Tim Berners-Lee对语义网的定义如下:“语义网是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理”[4]。尽管对语义网的理解与描述不同,但仍能从这些描述与理解中看出语义网的一些基本特征:(1)语义网不同于现在WWW,它是现有WWW的扩展与延伸;(2) 现有的WWW是面向文档而语义网则面向文档所表示的数据;(3) 语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。


语义网的实现依赖于三大关键技术:XML、RDF和Ontology。本文将在第3小节对它们进行讨论。
虽然语义网给我们展示了WWW的美好前景以及由此而带来的互联网的革命,但语义网的实现仍面临着巨大的挑战[2]:(1)内容的可获取性,即基于Ontology而构建的语义网网页目前还很少;(2)本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题;(3)内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等;(4)多语种支持;(5)本体语言的标准化。
虽然与国外相比我国对语义网的研究相对落后,但从1999年至2004年4月发表的论文来看,(1)论文数量逐年递增。2002年发表相关论文22篇,分别是2000年(6篇)和2001年(4篇)年论文数量的3.7倍和5.5倍,2003年发表论文38篇,是2002年的1.7倍,这说明随着时间的推移,对语义网的研究已经引起了我国学者的高度重视;(2)研究内容越来越广泛而深入,大致可分为三个层次:
第一层次,即对语义网及其关键技术的描述与介绍,主要包括语义网的含义[2][5][6][7]、体系结构[8][9]、关键技术(RDF、Ontology) [10][11][12][13][14][15][16][17][18][19]、面临的挑战等[2];
第二层次是关于语义网及其关键技术对相关学科或研究领域的影响与启示,包括信息管理[20][21][22][23]、信息检索[3][20][24][25][26][27][28][29][30][31][32][33][34]、知识库系统[35][36][37][38]、数字图书馆[39][40][41][42]、数据挖掘[43]、电子商务[44][45]、机器翻译[46]、智能代理[47][48][49]、需求分析[50][51]、元数据描述与交换[52][53][54]、网络信息资源和知识的表达[55][56]等;
第三个层次则是针对语义网及其关键技术所做的具体试验与应用,包括RDF的应用与存储[57][58]、基于RDF/XML的搜索引擎的设计与实现[59]、语义网的试探性实现[60][61][62][63][64]、Ontology的构建[65][66][67][68][69][70]、基于Ontology的查询系统设计[71][72]、Ontology在图书服务网络、知识图书馆和数字图书馆中的应用[73][74][75]、Ontology与主题词表相结合实现对元数据的查询[76]等。


2 体系结构


      Berners-Lee于2000年提出了语义网的体系结构(见图一),并对此做了简单的介绍。该体系结构共有七层,自下而上其各层功能逐渐增强。

                        

                                           图一  语义网体系结构

      第一层:Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识[77]。
      第二层:XML+NS+xmlschema。 XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制[21]。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离[55]。
      第三层:RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述[55]。
      第四层:Ontology vocabulary。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识[78],描述各类资源及资源之间的关系[77],实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系[60]。
      第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。
语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个另人满意的严密的逻辑描述与理论体系,我国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。


3 关键技术
      语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。XML(eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。

3.1 RDF
      RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点[79]。值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax[80]。
RDF Data Model提供了一个简单但功能强大的模型,通过资源、属性及其相应值来描述特定资源。模型定义为:
(1)它包含一系列的节点 N;
(2)它包含一系列属性类 P;
(3)每一属性都有一定的取值V;
(4)模型是一个三元组:{节点,属性类,节点或原始值V};
(5)每一个Data Model 可以看成是由节点和弧构成的有向图。
      模型中所有被描述的资源以及用来描述资源的属性值都可以看成是“节点”(Node)。由资源节点、属性类和属性值组成的一个三元组叫做RDF Statement (或RDF陈述)。在模型中,陈述既可以作为资源节点,同时也可以作为值节点出现,所以一个模型中的节点有时不止一个。这时,用来描述资源节点的值节点本身还具有属性类和值,并可以继续细化。
RDF Schema 使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范[80]。RDF Schema的作用是:
      (1)定义资源以及属性的类别;
      (2)定义属性所应用的资源类以及属性值的类型;
      (3)定义上述类别声明的语法;
      (4)申明一些由其它机构或组织定义的元数据标准的属性类。
      RDF Schema 定义了
      三个核心类:rdf:Resource、rdfs: property、rdfs:Class;
      五个核心属性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;
      四个核心约束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。[60]
      RDF Syntax构造了一个完整的语法体系以利于计算机的自动处理,它以XML为其宿主语言,通过XML语法实现对各种元数据的集成。
3.2 Ontology
      Ontology (本体或本体论),原本是一个哲学上的概念,用于研究客观世界本质。目前Ontology已经被广泛应用到包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多领域。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”[25]。
      当前对本体的理解仍没有形成统一的定义,如本体是共享概念模型的形式化规范说明,通过概念之间的关系来描述概念的语义[26];本体是对概念化对象的明确表示和描述[27];本体是关于领域的显式的、形式化的共享概念化规范[82]等等。但斯坦福大学的Gruber给出的定义得到了许多同行的认可,即“本体是概念化的显示规范”[82]。概念化(Conceptualization)被定义为:C = ,其中C表示概念化对象,D表示一个域,W是该领域中相关事物状态的集合,Rc是域空间上的概念关系的集合。规范(Specification)是为了形成对领域内概念、知识及概念间关系的统一的认识与理解,以利于共享与重用。
      本体需要某种语言来对概念化进行描述,按照表示和描述的形式化的程度不同,可以将本体分为完全非形式化本体、半非形式化本体、半形式化本体和严格形式化的本体[27]。有许多语言可用于表示Ontology,其中一些语言是基于XML语法并用于语义网的,如XOL(Xml- based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C组织创建的RDF与RDF Schema(RDFS)。还有建立在RDF与RDFS之上的、较为完善的Ontology语言DAML(DARPA Agent Markup Language)、OIL和DAML+OIL。
XOL是一种基于XML语法和OKBC语义的本体交换语言。它由美国生物信息学术团体设计,用于其领域的一组异构软件系统间本体定义的交换,它以Ontolingua和OML作为基础,融合了OKBC的高层表达方式和OML的语法。当前还没有支持XOL本体开发的工具,但由于它采用XML语法,可以采用XML编辑器来创建XOL文件。SHOE由马里兰大学开发,它将机器可读的语义知识与HTML文档或其他Web文档相结合,允许直接在WWW的基础上设计和应用本体。近来SHOE的语法已转向XML,它使得代理(Agents)能够收集有意义的Web页面和文档的信息,改善搜索机制和知识收集。OML由Washington大学开发,部分基于SHOE。它有四个层次:OML核心层(与语言的逻辑层相关);简单OML(直接映射RDF和RDFS)、简化OML和标准OML[2]。
      RDF是W3C推荐的一种信息描述方式,目的是克服XML的语义限制,提供一种简单的模式来表示各种类型的资源。在RDF的基础上,RDFS建立了一些基本的模型限制。RDF具有较强的表达能力,但仍存在一些不足,如RDF没有定义推理和公理的机制、它没有说明包含特性以及没有版本控制等[10]。
      OIL建立在RDF之上,其主要优势在于以描述逻辑为基础,提供形式化语义的推理。OIL综合了三方面的技术:框架系统、描述逻辑和基于XML与RDF语法的Web语言。框架系统采用了一种类似于面向对象的方法对数据建模,提供建模原语;描述逻辑用规范化的方法表达结构化知识以及查询和推理;基于XML和RDF语法的Web语言为OIL提供语言元素。OIL的数据对象主要包括:类定义、槽定义(slot definition)以及公理定义(axiom)。类定义包括定义类型、类层次关系和槽约束或属性约束;槽定义定义实体间的二元关系,包括有原语slot-def, domain, rang, inverse, subslot-of等;公理定义由定义该本体内的一些附加规则,如类之间外延的关系有不相交、覆盖、相交、等价等[83]。
      DAML由DARPA(美国国防部高级计划研究署)主持开发,力图溶入包括RDF、OIL等的优点,它与OIL一样建立在RDF之上,以描述逻辑为基础。其主要目标是开发一个旨在以机器可读的方式表示语义关系、并与当前及未来技术相容的语言,尤其是开发出一套工具与技术,使得Agent(代理)程序可以识别与理解信息源,并在Agent程序之间实现基于语义的互操作。DAML的最早版本为DAML-ONT,但后来与OIL紧密结合形成了DAML+OIL。DAML+OIL是由美国和欧盟在DAML背景下共同开发的,它与OIL有着相同的目标,是目前应用最广的本体语言。它是RDF(S)基础上的扩展,具备充分的表达能力(如唯一性、传递性、逆反性、等价等),具有一定的推理能力,完全确定了语义网中知识表示语言的整体框架。
      国内关于Ontology的研究比较广泛也比较深入,相关论文也较多。大多是在对Ontology的定义、基本含义以及本体语言进行简要介绍的基础上,就Ontology在相关学科领域的影响、应用及其构造进行探讨与论述。讨论相对较多的主要有本体论与信息检索[3][20][24][25][26][27][28][29]、本体论与数字图书馆[39][40][41][74][75]、本体论与信息管理[20][21],此外还包括知识库系统[35]、数据挖掘[43]、电子商务[44]、机器翻译[46]、需求分析[50][51]等。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!