一种基于领域本体的语义检索模型

时间:2013-08-09 19:24:45 来源:论文投稿

摘要:针对传统检索模型局限于语法层次上关键词匹配的特点,以领域本体为知识组织方式,提出了一种基于领域本体的语义检索模型,同时给出了该模型中的查询语义扩展算法和相似度计算算法。 
  关键词:领域本体;语义检索;查询扩展;相似度 
  中图分类号:TP301 
  文献标识码:A 文章编号:1672-7800(2014)003-0018-03 
  作者简介:张胜(1979-),男,博士,中国人民解放军国防信息学院讲师,研究方向为数据工程。 
  0 引言 
  传统的信息检索大部分是基于语法的检索,即通过语法层面上的文本字符串匹配来实现,缺乏在语义层面上对信息的表示、理解和处理,致使其无法处理一词多义问题以及词语的异形同义问题,进而导致检索质量不尽如人意。而语义检索则是关注信息资源的语义信息,而不只停留在文本的形式上,因而可以克服传统信息检索的弊端,从而提高检索的查全率和查准率[1]。本文提出了一种基于领域本体的语义检索模型,同时给出了该模型中的查询语义扩展算法和相似度计算算法。 
  1 基于领域本体的语义检索思想 
  语义检索是对检索条件、信息组织以及检索结果赋予一定语义成分的检索方式[2],其不同于传统检索基于关键词匹配机制,是基于概念的检索匹配机制。语义检索从语义理解的角度分析信息对象与检索者的检索请求,是一种建立在概念及其相关关系基础上的检索技术,其将传统方法中从用户查询和文档抽取出来的关键词替换成含有语义的概念,以此把关键词级的检索提升到概念级的检索。 
  领域本体用于描述某个特定专业领域的本体,其通过定义概念与概念之间的关系来描述概念的语义信息,描述领域内部知识共享和知识重用的公共理解基础。因此,领域本体在信息检索领域,特别是在基于知识的检索中得到了广泛应用,其能有效提高检索精度。基于领域本体的语义检索,其基本思想即依据领域本体知识库对信息资源或文档进行语义标注,使信息资源或文档的描述信息具有语义,揭示信息资源或文档的语义,同时也对用户的检索词进行语义揭示,并依据领域本体,对检索词进行语义扩展,进而检索得到结果。基于领域本体的语义检索大致可通过以下四步实现[3-4]: 
  (1)领域本体构建。在领域专家的帮助下,由知识工程师为主体构建领域本体知识库。
  (2)特征提取。获取信息资源或文档,并依据构建和管理的领域本体对其进行语义标注,揭示信息资源或文档语义内涵。 
  (3)查询语义扩展。依据领域本体对用户提出的查询请求进行语义揭示,并依据一定规则或算法扩展用户检索词,将生成的备选检索词集提交给检索系统进行检索。 
  (4)结果排序。检索系统返回检索结果,并依据一定规则或算法比对检索结果与用户原始检索词的相似度,按照相似度排序后将检索结果提交给用户。 
  2 基于领域本体的语义检索模型 
  根据语义检索思路,本文提出了如图1所示的基于领域本体的语义检索模型。 
  该模型共分为4个模块:领域知识管理模块、语义标注模块、索引和检索模块、用户查询扩展和结果排序模块。 
  2.1 领域知识管理模块 
  领域知识用于指导数据资源或文档描述,尤其是领域知识中的本体和分类体系,其是语义表征数据资源的核心。同时,中文分词、查询扩展和查询结果排序都需要以领域知识为基本依据。领域知识管理模块主要完成领域知识的构建和维护,如领域本体、推理规则的构建和维护。 
  2.2 语义标注模块 
  语义标注实现文档或数据资源的语义揭示,其通过文档特征提取技术(如分词技术),从领域本体所确定的本体词汇中取出对应的概念,构建文档的语义特征域,自动标注资源库中的文档。同时,也应对文档或信息资源的非语义特征进行标注和索引,并提供给索引和检索模块生成文档索引库和元数据库。 
  2.3 索引和检索模块 
  对海量文档或数据资源而言,如果检索时通过求解每个文档与用户查询请求的相似度来获取检索结果,势必耗时,不能满足用户体验。因此,必须根据文档或数据资源的标注信息构建索引库,并依据索引库,检索满足用户需求的文档或数据资源。为实现索引和检索模块,可使用Lucene信息检索工具库。基于Lucene的检索引擎提供了如下功能:为数据资源库建立索引、生成索引库、根据用户的检索要求对索引库进行查询,并将查询结果进行排序后返回给用户。 
  2.4 用户查询扩展和结果排序模块 
  查询扩展和结果排序模块首先依据领域本体生成的本体词汇库对用户查询输入文字分词(可使用中科院计算所的中文分词系统ICTCLAS),分成本体概念集合和非本体概念集合(即关键词集合);其次,分别对这两个集合按相似度扩展,得到两个查询候选集合:候选本体集的集合和候选关键词集的集合;再次,依据这两个集合,并按相似度排序得到排序后的查询集;最后,将查询请求提交给索引与检索模块,由于索引与检索模块事先已实现了倒排索引[5],故能快速响应用户查询,其将查询结果按查询请求的相似度排序后,将结果推送给用户。 
  3 查询扩展和相似度计算算法 
  在实现语义检索时,需要对用户输入的检索词进行语义扩展,以期获得更好的检索效果,因此必须设计合理、科学的语义扩展算法。同时,也需要对检索结果按相似度从大到小排序,这必然涉及到相似度计算算法。因此,本节主要探讨了查询语义扩展算法和相似度计算算法。 
  3.1 查询扩展算法[6] 
  用户输入查询经过分词后可形成两个集合:WordSet={OS,KS},即本体概念集合OS={O1,O2,…,On}和关键词集合KS={K1,K2,…,Kn}。本体概念集合中记录了用户在查询界面中输入本体概念,关键词集合为用户输入查询词中的非本体概念词。查询扩展算法将分别对这两个集合进行扩展,并计算扩展的集合与原集合之间的相似度。下面从本体概念扩展和关键词扩展介绍扩展算法。


更多软件开发论文详细信息: 一种基于领域本体的语义检索模型 论文代写
http://m.400qikan.com/lw-3966 论文代发

相关专题:地球物理学进展 武汉体育学院学报

相关论文
相关学术期刊
《广东林业科技》 《杭州农业与科技》 《家教世界》 《湖南医科大学学报》 《中国水电医学》 《中国勘察设计》 《山东农业工程学院学报》 《中国预防兽医学报》 《成组技术与生产现代化》 《人文地理》

< 返回首页