基于java小型搜索引擎的研究与实现

基于java小型搜索引擎的研究与实现

点数论文 2012-8-13　版权投诉上传论文复制论文网址上传用户：会员ID513471

) doc(field1...))
    Document：一个需要进行索引的"单元"，一个Document由多个字段组成
    Field：字段
    Hits：查询结果集，由匹配的Document组成
    4.2.2 Lucene的索引效率
    通常书籍后面常常附关键词索引表（比如：北京：12, 34页，上海：3,77页......），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍......而索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。
    由于数据库索引不是为全文索引设计的，因此，使用like "%keyword%"时，数据库索引是不起作用的，在使用like查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所以对于含有模糊查询的数据库服务来说，LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配：like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了。所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据源（比如多篇文章）排序顺序存储的同时，有另外一个排好序的关键词列表，用于存储关键词==>文章映射关系，利用这样的映射关系索引：[关键词==>出现关键词的文章编号，出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率]，检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率，所以，全文检索问题归结到最后是一个排序问题。
    由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题，这也是大部分数据库对全文检索支持有限的原因。Lucene最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。可以通过一下表格对比一下数据库的模糊查询：　
     Lucene全文索引引擎
     数据库
    索引
     将数据源中的数据都通过全文索引一一建立反向索引
     对于LIKE查询来说，数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配，比有索引的搜索速度要有多个数量级的下降。
    匹配效果
     通过词元(term)进行匹配，通过语言分析接口的实现，可以实现对中文等非英语的支持。
     使用：like "%net%" 会把netherlands也匹配出来，多个

首页上一页 1 2 3 45原创
版权说明

【责编:网学网上传论文】

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·餐饮管理系统设计与实现毕业论文_Word
  ·餐饮管理系统毕业设计论文
  ·餐厅管理信息系统毕业设计论文餐厅餐饮管理
  ·餐厅管理信息系统毕业设计论文餐厅餐饮管理
  ·项目二：基于Java的结构化程序设计_W
  ·酒店餐饮管理系统毕业论文_W
  ·电工销售管理信息系统论文
  ·电子技术中英文翻译毕业论文
  ·承德市中考满分作文基于java的bbs论
- 最新文件
　

特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

基于java小型搜索引擎的研究与实现