• 官方微信

    CA800二维码微平台 大视野

  • 工控头条

    CA800二维码工控头条App

当前位置:自动化网>自动化文库>技术指导>基于ontology的语义搜索引擎研究

基于ontology的语义搜索引擎研究

发布时间:2014-05-27 来源:《自动化技术与应用》2013年 第6期 类型:技术指导 人浏览
分享到:
关键字:

搜索引擎;语义Web;Ontology;语义推理

导读:

在分析搜索引擎的基础上,提出了一种基于ontology的语义搜索引擎系统设想。这个搜索设想不仅能实现关键词的检索,还能让机器理解Web页面的内容、进行语义推理、完成更繁杂细致的搜索任务。将对于提高Web的查全率和查准率有一定的参考意义。

李延香,袁 辉
(1.咸阳师范学院 信息工程学院,陕西 咸阳 712000;
2.陕西工业职业技术学院 信息工程学院,陕西 咸阳 712000)


摘  要:在分析搜索引擎的基础上,提出了一种基于ontology的语义搜索引擎系统设想。这个搜索设想不仅能实现关键词的检索,还能让机器理解Web页面的内容、进行语义推理、完成更繁杂细致的搜索任务。将对于提高Web的查全率和查准率有一定的参考意义。
关键词:搜索引擎;语义Web;Ontology;语义推理
中图分类号:TP274+.3    文献标识码:B    文章编号:1003-7241(2013)06-0016-03

1  引言
目前大多数的搜索引擎都是对网页中的文本进行简单的匹配,忽视了关键词本身所含的语义信息,在搜索时不能自动理解与处理信息,不能自动实现判断、推理等智能服务,得到的查全率和查准率很低,其结果很难让人满意。语义Web的搜索引擎是新的资源获取方式,它充分利用语义Web提供的Web资源语义标记、赋值和语法等机制,将传统的对Web按关键字查询转化为按语义查询,从而实现“精细、准确和自动化”[1]的搜索。


2  搜索引擎技术
搜索引擎是帮助用户查询信息的互联网搜索工具。它在www中漫游发现,搜集信息,对信息资源进行理解、提取和处理,为用户提供智能检索服务,起到信息导航的目的[2]。搜索引擎系统主要由信息采集(搜索)、信息处理和查询接口[1]三部分组成。
信息采集就是信息搜索,它是一个日夜运行的计算机程序,用于自动在web各种站点上漫游、搜索数据、下载网页等。尽可能多、尽可能快地搜集各种类型的新信息并且定期更新已经搜集过的旧信息,保证用户及时得到最新信息以避免死链接和无效链接。
信息处理就是索引和排序。对所搜集的信息进行分类整理,提取网页资源的特征信息,以及相关网页的链接,作为元数据信息,建立索引数据库。同时根据相应的索引算法将检索结果排序,并以超文本链接的形式返回到索引数据库。
查询接口即用户接口。用户使用搜索引擎提供的链接,输入查询词,显示查询结果的相关反馈机制。


3  语义Web与Ontology
3.1  语义Web
语义Web是由万维网的创始人Berners-Lee在2001年正式提出的。语义Web是一个网,包含语义信息,以利于机器自动处理信息[3] 。可以看出语义Web的基本特征:(1)语义Web不同于现在WWW,它是现有WWW的扩展与延伸;(2)现有的WWW是面向文档而语义Web则面向文档所表示的数据;(3)语义Web将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。
3.2  Ontology
Ontology(本体) [4]的概念最初起源于哲学领域,用于描述事物的本质。Studer等人给出了本体最完善的定义:本体是共享概念模型的明确的形式化规范说明[5]。它使得概念和关系具有唯一的、共同的、明确的定义。本体可以阐明知识的结构,给定一个特定的领域,可实现知识的共享、交流、互操作和重用等。
在检索系统中,ontology提供了资源描述的元语,可为信息资源提供语义标注,具有良好的概念层次结构和逻辑推理能力。可根据领域知识对资源进行相似、相关性分析,进行相关搜索,使用户可由模糊搜索得到精确的结果,由一个搜索得到与之相关的其他搜索结果,实现智能化的推理检索。
3.3  语义Web与Ontology关系
Berners-Lee给出了语义Web的体系结构,它主要涉及XML、RDF,RDFS,Ontology、数字签名等技术和方法,是一套包括网络信息存储、组织、表示、安全认证等各方面完整的体系。语义Web提供的是对信息的语义表示机制[6],有利于网络信息基于语义层面的组织和检索。在语义Web中,要计算机相互理解、进行知识共享、重用、消除同义词和一词多义两个词义冲突,ontology是一项重要的语义技术,它可以是词汇表,知识库或数据库。它将检索从关键词的层面提高到概念的层面,具有服务的智能化、人性化等特征。


4  基于本体的语义搜索引擎模型

基于ontology的语义搜索与普通的基于关键字的搜索相比,其区别在于加入了语义处理过程。通过建立在本体论基础上的语义分析和语义推理[7],初步实现了人机语义交互,使得计算机理解用户的查询意图,实现搜索引擎对搜索词在语义层次上的理解[8]。不但可以保证查全率,而且可以有效地提高查准率。在此构建出一个基于ontology的语义搜索引擎系统架构,如图1所示。其中:


图1  基于本体的语义搜索引擎系统结构

1.本体创建:这个模块是为了实现知识的共享和重用而设计的。在领域专家和本体专家的帮助下,使用protégé本体建模工具建立相关领域的ontology。
2.信息采集:通过搜索器根据广度、深度优先的信息获取算法,在www上爬行循环收集信息,或者通过专业领域专家的帮助输入原始数据,来实现原始信息的收集。
3.语义标注:从文档中提取元数据信息,转换成RDF/XML语义编码格式,使其成为本体实例文件,作为搜索引擎的元数据库文件,以利于搜索中的语义推理和查询。
4.语义推理:本模块主要是根据领域ontology和推理规则来完成对RDF、RDFS、OWL等相关文件的解析和推理,挖掘出隐含的信息,为后续的查询操作奠定基础。
5.结果处理:通常为搜索结果的排序处理。在ontology的帮助下从元数据库中匹配出符合条件的数据集合,方便用户作进一步的筛选。
6.信息检索:借助Jena接口方法,进行ontology数据的读取、语义推理和搜索,检索的结果定制处理后排序返回给用户。


5  搜索技术的实现
5.1  搜索流程的实现
一个好的信息检索系统必须有足够的可供检索的信息资源,否则就无法体现它的优越性所在。如何从万维网上快速高效的获取信息资源,就成了语义搜索引擎系统所必须解决的问题之一。结合图1,给出了一个基于语义的搜索流程机制。将搜索到的资源文件存储到存储介质中,以便于重复遍历和及时修改更新搜索引擎,确保了搜索引擎检索到的是最新最全面最准确的信息资源。
具体的搜索流程如图2所示:


5.2  实现
基于本体的语义搜索引擎系统不但实现了语义检索功能,同时还实现了语义的扩充查询。主要表现有:
1.输入关键词,实现了关键字的同义查询:用户不但能够获得同关键词相关的资源信息,同时还能够获得与关键词同义的资源信息。例如用户输入“鲁迅文章”这一关键词后,在检索结果中就会得到“《呐喊》”、“《野草》”等相关资源信息。
2.可以得到概念的上、下位关系的查询:例如鲁迅是我国著名的思想家和文学家,那么在本体体系中,“鲁迅”和“思想家、文学家”之间就是一种上下位的关系,如果用户需要在系统中检索“鲁迅”这一关键字的有关信息,在系统中输入“思想家、文学家”同样能够获得。
以上两种情况实现了检索的查全率,基于本体的语义搜索引擎系统还能够有效保证检索的查准率。这是因为在该系统中,采用本体中所定义的概念和概念属性对信息资源进行描述,因此系统能够以用户输入的概念和概念属性实现对信息资源的准确定位。例如对“现代作家”的具体描述为:
用户需要利用该搜索引擎系统查询“现代作家”的相关信息,当输入“浙江”、“思想家”或者“文学家”这些关键词时,该系统会准确定位于“鲁迅”并对其作品信息进行显示。
<网站rdf:ID="现代作家">
<Website:regionOf rdf:resource="#浙江"/>
<Website:relatedExpert rdf:resource="#文学家"/>
<Website:fullName rdf:datatype="鲁迅">  
</Website: fullName>
<Website:WebAddr rdf:datatype=
"http://www.w3.org/2001/XMLSchema#string"> http://www.dfgy-qd.com/jianjie.htm
</Website: WebAddr>
搜索显示结果为:总计有小说集三部,杂文集十九部,散文集两部,其他作品五部。对于用户而言,这样的搜索结果一步到位,不会显示其他无关信息,从而保证了检索结果的查准率。


6  结束语
本文提出了一种基于ontology的语义搜索引擎系统设想,为智能搜索引擎的实现提供了良好的理论和技术支持。基于本体的语义搜索的关键在于如何实现语义上的相关性,让搜索引擎自动识别,提高web搜索的准确性。利用ontology技术,将信息关联到相关的知识结构和推理规则上,使用户可由模糊搜索得到更加精确的结果。
由于本体之间的关联映射、本体标注以及本体的自动构建等问题还没有得到解决,所以基于本体的搜索引擎真正应用还需时日。作为一个新的研究方向,在不远的将来,语义搜索引擎的前景极为可观。


参考文献:
[1] 蔡明,张体首.基于本体的搜索引擎研究[J].微计算机信息,2006,.22(12-3):242-244.
[2] 张兴华.搜索引擎技术及研究[J].现代情报,2004,4(4):142-145.
[3] 王继东,张瑜,李娜.基于本体的语义检索技术研究与实现[J].计算机技术与发展,2009.10,19(10):134-137.
[4] 张丽坤,蒋波.基于本体的语义Web研究[J].计算机技术与发展,2007,17(6):116-119.
[5] Fensel D.Ontologies.Silver Bullet for Knowledge Management and Electronic Commerce [M],Stanford: Springer,2001:50-53
[6] Tim Berners-Lee.The Semantic Web.http://www.w3.org/2002/Talks/04-sweb/slidel.html.
[7] 朱创录.语义Web推理的研究与实现[J].科学技术与工程,2010.10 (1):273-278
[8] 李延香.基于语义Web的搜索引擎研究[D].上海:华东师范大学,2008.


本文地址:本文地址: http://www.ca800.com/apply/d_1nsqq8n1eq131_1.html

拷贝地址

上一篇:基于SQL server的FRP生产线监控系统设计

下一篇:哪些原因会导致工作中的加热管发生漏电

版权声明:版权归中国自动化网所有,转载请注明出处!

相关技术文章
搜索引擎;语义Web;Ontology;语义推理