基于JAVA技术实现的搜索引擎

基于JAVA技术实现的搜索引擎

点数论文 2012-8-13　版权投诉上传论文复制论文网址上传用户：会员ID513472

秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR（Information Retrieval）、网络、数据库等技术，相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月，网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。
    　　大约在1996年出现的第二代搜索引擎系统大多采用分布式方案（多个微型计算机协同工作）来提高数据规模、响应速度和用户数量，它们一般都保持一个大约50，000，000网页的索引数据库，每天能够响应10，000，000次用户检索请求。1997年11月，当时最先进的几个搜索引擎号称能建立从2，000，000到100，000，000的网页索引。Altavista搜索引擎声称他们每天大概要承受20，000，000次查询。
    　　2000年搜索引擎2000年大会上，按照Google公司总裁Larry Page的演讲，Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页，而且以每天30台的速度向这个微机集群里添加电脑，以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页，平均速度是每秒48.5个网页，一天可以搜集超过4，000，000网页
    　　搜索引擎一词在国内外因特网领域被广泛使用，然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎，他们通过网络机器人程序收集上千万到几亿个网页，并且每一个词都被搜索引擎索引，也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国，搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务，本人这里研究的是基于因特网的搜索技术。
    本设计来自：完美毕业设计网bysj520
    登陆网站联系客服远程截图或者远程控观看完整全套论文图纸设计
    　　客服QQ：8191040
    　　
    第二章搜索引擎的结构
    2.1系统概述
     搜索引擎是根据用户的查询请求，按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度，搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。
    系统结构图
    2.2搜索引擎的构成
    2.2.1网络机器人
     网络机器人也称为"网络蜘蛛"(Spider)，是一个功能很强的WEB扫描程序。它可以在扫描WEB页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为WEB中广泛使用超链接，所以一个Spider程序理论上可以访问整个WEB页面。
     为了保证网络机器人遍历信息的广度和深度需要设定一些重要的链接并制定相关的扫描策略。
    2.2.2索引与搜索
     网络机器人将遍历得到的页面存放在临时数据库中，如果通过SQL直接查询信息速度将会难以忍受。为了提高检索效率，需要建立索引，按照倒排文件的格式存放。如果索引不及时跟新的话，用户用搜索引擎也不能检索到。
     用户输入搜索条件后搜索程序将通过索引数据库进行检索然后把符合查询要求的数据库按照一定的策略进行分级排列并且返回给用户。
    2.2.3 Web服务器
    　　客户一般通过浏览器进行查询，这就需要系统提供Web服务器并且与索引数据库进行连接。客户在浏览器中输入查询条

首页 12原创
版权说明

【责编:网学网上传论文】

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·餐饮管理系统设计与实现毕业论文_Word
  ·餐饮管理系统毕业设计论文
  ·餐厅管理信息系统毕业设计论文餐厅餐饮管理
  ·餐厅管理信息系统毕业设计论文餐厅餐饮管理
  ·项目二：基于Java的结构化程序设计_W
  ·酒店餐饮管理系统毕业论文_W
  ·电工销售管理信息系统论文
  ·电子技术中英文翻译毕业论文
  ·承德市中考满分作文基于java的bbs论
- 最新文件
　

特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

基于JAVA技术实现的搜索引擎