储桶BARREL存储经过索引器索引、排序的网页内容信息。
供检索器调用。
5检索器SEARCHER根据UI输入的查询语句和关键词语以及它们间的逻辑关系在存储桶中查找相关内容并按照特定的网页相关度计算已查得各网页的信息内容相关度以此排序后向UI输出。
6人机交互界面UI提供用户输入查询词语的界面并提供词语间逻辑关系.and . .or . not .或关键词语限制条件如时间、大小、类型等信息文件属性的选项。
三、智能搜索技术的相关重要思想与应用算法介绍 31内容相关度的向量空间模型算法 多数系统都是采用向量空间模型算法把查询关键词的个数N作为向量空间的维数衡量每一维的权值Wii123.....n设αα1 α2??. αn αiwi 然后统计关键词在页面内出现的频率并求出频率比以出现频率最高的关键词作为基准设X 1表示通过频率比依次求出其他关键词频率 Xi则该页面对应向量的每一维分量为XiWi 。
则总的页面主题相关度为 βx1w1x2w2??..xnwni 12??..n 取页面主题相关度用两个向量夹角的余弦表示转贴于 4 cos αβ 32 基于知识陈述句的内容相关度的计算模型 由于网页信息大都是说明或介绍性的文档因此可以运用基于陈述句的语法分解来建立相关度权重系数的配比模型。
陈述句由Subject主语、Verb谓语、Object宾语组成显然如果相关关键词语出现在主语中的频率比较高则相关权重系数WS也应大于其出现在谓语和宾语的权重系数WV、WO。
另考虑陈述句在整个文挡中出现的位臵设臵位臵权重系数WL显然在标题出现的位臵权重系数要比在〈h1〉??..甚至是中大位臵权重系数应从标题到结尾呈递减趋势。
则某陈述语句相关某关键词语总的知识权重为 KWS WV WO WL 则该陈述知识所在页面P的总的页面知识相关性为 4N为页面某关键词语出现的次数。
33 基于距离测度的近似网页聚类 在3.1所述的向量空间模型中文本文件由词条序列t1t2t3??.tn构成现在 对每一个词条赋予权重W I 从而文本可用词条特征向量W1W2W3??.Wn来表示。
假如存在一个目标文件I和一个未知文件J那么这两个文件的近似程度就可通过对应的词条特征向量的夹角来度量。
夹角度的大小表明两文件的近似程度。
因此有公式 SIM 该计算公式求得的近似度值SIM能同时兼顾向量夹角和长度两个因素当两个网页内容迥异时向量Wi与Wj 垂直SIM值为1。
同理当两个网页内容相同时Wi与Wj 重合SIM值为0内容部分相关的两个网页SIM值∈ 105 综上所述SIM值可以成为判断两个网页是否为内容雷同或为不相关的标准。
四、全文索引系统的建立 笔者认为应用JAVA JDK开发智能WEB检索系统特别是应用基于JAVA的 Lucene软件包建立基于内容的全文索引以及检索系统的构建是比较理想的选择。
JAVA语言具有稳定性、鲁棒性、安全性、类库丰富和一次编译到处运行的优点而Lucene是Apache软件基金会Jakarta项目组的一个子项目是一个开放源代码的全文检索引擎工具包由资深检索专家Doug Cutting编写。
它的开发目的是为了方便地在目标系统中实现全文检索功能 Lucene可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
已经有很多 Java 项目都使用了 Lucene 作为其后台的全文索引引擎比较著名的有WEB 论坛系统 EyebrowsEclipse:基于 Java 的开放开发平台帮助部分的全文索引使用了 Lucene。
Lucene 的 API 接口设计的比较通用输入输出结构都很像数据库的表记录字段所以很多传统的应用的文件、数据库等都可以比较方便的映射到 Lucene的存储结构/接口中。
总体上看可以先把 Lucene 当成一个支持全文索引的数据库系统4。
Lucene 最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制并提供了扩展接口以方便针对不同应用的定制。
Lucene 在索引更新过程中不是维护一个索引文件而是在扩展索引的时候不断创建新的索引文件然后定期的把这些新的小索引文件合并到原先的大索引中这样在不影响检索的效率的前提下提高了索引的效率6。
lucene 软件包的检索过程分为4个步骤即文本信息获取、构建DOCUMENT、分析以及建立索引四部分。
LUCENE的逻辑结构如图所示 在整个检索过程中语言分析器查询分析器甚至搜索器都提供了抽象的接口都可以根据需要进行定制。
但是LUCENE的提供的分析器ANALYZER对中文语句的支持度不够理想因此有必要选择一个良好的中文自然语言、语句分析切词工具。
和Lucene整合。
来达成对中文查询语句的理解。
由于对中文信息语句进行分析处理要远比英文复杂英文单词之间的空格成为天然的分词依据而中文查询语句的科学分析切分词语、关键词语提取又是构建智能WEB搜索系统不可逾越的步骤。
因此笔者推荐使用基于词库匹配形式的中文分词工具。
转贴于 4 词库分词被认为是理想的分词方式。
其实质为用一个事先建立好的词库中的词的集合按照某种算法去匹配目标语句。
当词库中存在这个语句中所包含的词汇时就将其切分出来。
毋庸质疑词库分词的效果是比较理想的但需要事先建立一个成熟的词库。
词库的建立需要统计大量的内容然后根据各种词语的出现频率、概率再筛选。
最终决定放入词库的词语。
切词后建立全文索引。
来有效、快速地支持用户输入的中文关键词或中文语句的查询请求。
下面介绍的中文分词工具ICTCLAS就是基于词库分词的中文分析系统。
中科院计算技术研究所在2002年研制了的基于多层隐马模型的汉语词法分析系统ICTCLASInstitute of Computing Technology Chinese Lexical Analysis System系统。
ICTCLAS系统工作示意图 该系统具有中文分词、词性标注、未登录词语识别等功能经专家组评侧该系统词性标注处理速度接近32KB/S分词正确率高达97.58中国人名字的识别召回率接近984。
同时中科院也公布了该系统的基于C语言的开发接口。
使得中文搜索引擎的开发获得了非常有效的中文语句分解工具。
研究智能检索技术的目的是为了解决丰富的信息资源和低效的信息获取手段之间的矛盾目标是从关键词的智能化选择、检索范围的确定到检索结果的精炼逐一求精尽可能提高WEB搜索的查全率和查准率。
对于提高网络信息资源利用率、增强网络建设的经济效益和社会效益有着非常积极的意义正因于此基于WEB的主题搜索技术的发展和演进已成为有效开启互联网络知识宝库的关键之匙。
参考文献: 崔维梅.范荣鹏.搜索引擎的技术现状和热点J.青年记者200515:116117 刘平冰 电子电子科技大学硕士学位论文A. 20055:79 Yatin ChawatheEric A Brewer.System support for saclabel and fault tolerant Internet service.Distributed Systems Engineering M 2001.7 4 杨德仁.顾君忠 一种知识型网络爬虫J.华东师范大学学报 20063:9394 5 彭曙蓉.王耀南 针对小文本的WEB数据挖掘技术及其应用J.微计算机信息 200622:7375 6 李刚.宋伟.邱哲 AjaxLucece 构建搜索引擎 M.2006.4 转贴于 4 7ycqbPulkZ6hT9rfnThagaCwEJ26Bi6NJnz4PSp_F6FI0VauqsJc:JcReOG7:wNEN7vybAixCZgImLYP0bwDf:58MOLfT4oQfZCk2uoDzdoJ96pvPAb83WQXZla5aUorbhYgDWU9OY8JvyPdc6zpvxNyehKhHqCz3YhQuPvhReytmDNVNw9:JQh4jiTKnq369RPUjSHW9YVCYf:9_WgahYsn5xjcVZUZhGaQ_JEFn0cXTEGYpBb7aD3GUQUP5cMTI1TKt3Xj:RofGsmoeKxNz8mAj9x:wqBse_IaU7RfE_Ty1bz_tVn7Sptqx8xD8J3fiMPVVVXF_J2yb0JCGYNRfbuENqM1CGM57wFMLuFzAlVY4EtAlvf49vLXXaaYG4D5Ypm_S8zlkfeJyvjHBVufsCMmPsgZ4r34rwGF1n9duplLHiMbXEVIciP8Br25z:F8Xft_ArKNH:v9HlEIzQyhsfMw1AjkDqc:RlnaY0lm6bjgSSIAxtLtL:i7j0ED8DrMe726kvfJ_NoFnL_TrmvCjYYxE_bujJuzzlEJ8qiCfKtmRSuzgh6m3c5ix0a128Uo2KIlmV4RTV5g:JRT1MPQinqQEq1CpDdedMgMNX4FxC0A9zHMbd_F5cnbQXaBZQqAIeDYwBij72k
上一篇:
[精品WORD文档]如何将gui生成exe
下一篇:
澳洲硕士课程作业Community