搜索引擎动态绑定,以及可配置的分词、内容相关性、安全性功能。
研究根据用户需求构建出可配置搜索数据字段的个性化搜索引擎。
OA系统全文检索的扩展。
研究实现统一搜索引擎的查询接口和数据库查询接口,进一步简化开发难度。
6 武汉理工大学硕士学位论文 第2章0A系统个性化搜索引擎的工作原理、特点 本章主要介绍OA系统个性化搜索引擎的工作原理及相关技术及其特点,并提出OA系统个性化搜索引擎的设计目标,关于这些问题和相关概念的阐述将成为OA系统个性化搜索引擎研究的起点,是下一步进行OA系统个性化搜索引擎设计必须遵循的基本原则。
2.1 0A系统个性化搜索引擎工作原理2.1.1全文检索 全文检索(ruU Text Retrieval)是指以文档的全部文本信息作为检索对象的一种信息检索技术。
它由计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
这个过程类似于通过字典中的检索字表查字的过程。
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。
一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。
功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种针对不同应用的具有的功能组成。
结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。
图2-1展示了上述全文检索系统的结构与功能。
7 武汉理工大学硕士学位论文 图2-1全文检索系统的结构 在上图中,我们看到:全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。
一个全文检索应用的优异程度,根本上由全文检索引擎来决定:因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。
另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是添加原有系统没有的功能。
比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XML或者HTML格式的文本处理功能,系统的开放性和扩充性就十分的重要。
比较典型的检索功能包括: ·布尔检索:支持检索词之间满足AND OR NOT等布尔运算关系。
·位置检索:支持检索词之间满足一定的位置关系,比如是否在同一自然段、同一句话,相邻不超过一定距离。
·字段检索:也称结构检索,检索限制在某个字段进行,比如对HTML文件来说,可以限制在唧E中进行还是在文本体中进行。
·概念检索:不只依赖单词本身进行检索,还可以按照单词所表达的概念进行检索。
比如,检索“计算机”,包含“电脑”的文献同样可以检索出来。
全文检索的方法主要分为按字检索和按词检索两种。
按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。
对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文的字与词有很大分别。
按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并 8 武汉理【:大学硕士学位论文且可以处理同义项等。
英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。
中文等东方文字则需要切分字词,以达到按词索引的目的。
“倒排索引”是最成熟的全文检索实现技术9·其核心思想是把原始文档的全文分解成基本的拼接单元,记录每一单元在文档中.
上一篇:
基于本体的专业搜索引擎的研究
下一篇:
2018年汽车自驾运动营地攻防箭大赛总决赛圆满落幕