询的特定信息分解成若干关键词进行分析,再在索引数据库中进行匹配,挑选符合条件的信息,照匹配程度的高低进行排序,最后将结果返回 ’给用户。
因此,搜索引擎的原理,可以看做如下四步:o韩梅.网络搜索引擎研究综述(1994~2004年)【J】.图书馆学研究,2005(10):49。
黄知义,周宁.几类搜索引擎的原理剖析、比较研究及发展趋势探讨【J】.图书馆学研究,2005(3):61 4 ⑨ 硕士学位论文 MASTER’S THESIS 七蔷嚣上 建立索引 在索引数据库 反馈 , 数据库 中检索排序 用户 岳件结果2.1.1从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,或是依靠专职编辑、志愿人员对网络上的WWW站点等资源进行搜集,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来,存入到搜索引擎的临时数据库中。
2.1.2建立索引数据库 这一步实际上可以拆分为两个环节,首先是根据网上数据的特点,按照特定的算法,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),然后根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性)信息,作为索引项建立网页索引数据库。
.2.1.3在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
这样使将要输入给用户的检索结果得到优化。
2.1.4将最佳检索结果反馈给用户 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来,并依照相关度进行排列,呈现在客户端。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。
这样,网页的具体.内容和变化情况就会反映到用户查询的结果中,使用户能得到最新最好的优质信息。
⑨ 硕士学位论.
上一篇:
基于.NET的水费系统
下一篇:
阿尔茨海默病和血管性痴呆患者血脂代谢异常的研究