【vc++精品源码栏目提醒】:网学会员为广大网友收集整理了,【精品文档】基于WEB的智能搜索应用技术探讨 计算机应用论文工学论文_6413 - 综合课件,希望对大家有所帮助!
论文范文 题目基于WEB的智能搜索应用技术探讨 计算机应用论文工学论文 编辑小小 摘要伴随着Internet的日益发展和壮大如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容成为困扰信息服务提供者的主要问题。
针对该问题基于WEB的搜索引擎技术自1994年以来已经发展了三代本文从WEB搜索技术的智能化、个性化发展轨迹和应用特点开始深入探讨了智能搜索引擎系统的结构、构建以及相关应用算法思想。
旨在为WEB搜索技术的演进和完善提供参考。
关键词WEB搜索引擎智能化Lucene 中文切词 一、基于WEB的搜索技术的定义、发展趋势与应用热点 11、定义 一般说来基于WEB的搜索技术主要指的是WEB搜索引擎Search Engine技术即指通过WEB在Internet上建立的一种向网络用户提供网上信息资源检索和导航服务的系统。
搜索引擎提取网上信息如网站、网页、URL、以及BBS Telnet FTP Newsgroup等进行整理、组织、加工、处理建立管理和存储这些信息的索引数据库并提供基于该索引数据库的检索。
12 发展趋势与应用特点 搜索引擎技术是当今计算机应用技术的前沿学科搜索引擎技术目前已经发展了三代。
第一代是基于人工登入、检索、排序的目录式搜索引擎以YAHOO为代表。
我认为这一代搜索引擎的局限在于查全率检出的文档与相关文档之比比较低。
目录式搜索引擎还存在两大问题一是分类是按分类者或分类软件的分析而定不一定与用户的意见一致如果用户对查找目标了解比较浅显就需要从其14个大类别开始选取再一层一层深入而忽略了事物的横向客观联系。
当要查找一个容易引起多意理解的概念如“病毒、神经网络”等用户可能就会深入多个目录树型结构中去。
二是如果用户查找的信息没有对应的分类项则无法进行搜索。
第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎以Google和Baidu 、AltaVista为代表通过使用网络机器人WEB ROBOT自动遍历决大多数INTERNET网页并存贮其中的主要文本内容、图片或多媒体信息。
在本地维护一个海量的网页存储数据库存储数十亿至几百亿个网页根据关键词的使用频度建立索引这也是个巨量的工作并维护之利用特有的页面排序算法如GOOGLE的PAGE RANK返回给用户查询结果。
由于页面权值算法有其特点尽管查全率比第一代搜索引擎有很大提高但不能保证查准率检出的文档与目标文档之比。
另外它们仍然是基于关键词的搜索查询在用户方面关键词的选择可能导致查询结果有较大的差异。
例如有用户想了解黑龙江省完达山的旅游情况介绍在GOOGLE中如果输入“完达山”这个关键字返回页面将几乎全部是完达山乳业和制药业的情况就是再加上“旅游”这个关键字返回结果仍然不尽人意。
这是因为各个搜索引擎的页面权值算法有其特异性如GOOGLE就比较偏重旧的网页和综合网站。
检索型的搜索引擎的优点是信息量大、更新及时、毋需人工干预。
缺点是返回信息过多有很多无关信息用户必须从结果中进行筛选且产生大的网络负载和服务器负载。
当前第三代搜索引擎的发展趋势是更加智能化、个性化并在此基础上力求具备更高的查全率与查准率更全面的查询功能。
首先通过目录型和检索型的搜索引擎技术相互结合提供多样化和个性化的服务。
以 Yahoo 为例用户可以从它的首页上查看新闻、金融证券信息、天气预报、浏览黄页可以进行网上购物、拍卖、找人或者使用免费 E-Mail 和网上寻呼等服务。
近期许多搜索引擎已开始提供个性化的服务例如 Yahoo 的“My Yahoo”、InfoSeek 的“personalized start page”等它们允许用户为自己定制起始页面并选择感兴趣的内容和经常使用的服务放在该页面上。
除了简单的 AND、OR 和 NOT 逻辑外不少搜索引擎还支持相似查询例如 AltaVista、Northern light、Lycos 等支持短语查询AltaVista 的高级搜索功能支持 NEAR 逻辑等在消除内容重复的网页方面一个比较成熟的方法就是对重复信息的链接进行合并 即将页面信息重复的链接不一一呈现在结果页面中 用一外部链接来单独显示这