tranet 搜索引擎(Intranet Search Engine,简称 ISE)和基于 Internet 的搜索引擎有 所不同 ISE 的搜索范围不是整个互联网 而是某个特定的 Intranet 由于 Intranet 属于内部互联网 具有和互联网所不同的特点 所以 ISE 和一般的搜索引擎在包括数据采集和搜索算法等方面有所不同 本文将以复旦大园网为例 在开发一个复旦大园网资源 主要包括 Web Ftp 图片等资源 的检索系统的基础上对 ISE 进行进一步的讨论 在本文的第一章 概要介绍了 Internet 搜索引擎的发展和特点 第二章对 XML 的发展和现状进行 描述 并给出一个简单的例子 第三章介绍了什么是 ISE 以及 ISE 的开发工具 第四章从 ISE 的体系结 构 运行流程 数据库设计等方面对 ISE 的实现原理进一步进行介绍 第五章对 ISE 的实现技术中的关 键技术和算法进行介绍 同时分析了 ISE 的部分源程序 最后还给出 ISE 的检索示意图和检索效果 第 六章是对本文的总结和对 ISE 的展望
271
基于 Intranet 的搜索引擎
第一章
1.1 了解 ISE
ISE 概述
ISE Intranet Search Engine 是基于 Intranet 内部的搜索引擎 Intranet 采用 Internet 技术为它的信息底层服务 它是一个组织内部的网络 是一种内部网 它与 外部世界是隔离的 比如复旦大园网就是一个内部网 校园网内部的资源校外是无法访问的 但是 校园网内部可以自由访问 比如复旦大学学生会的服务器 其地址是 http://10.12.8.10 你在复旦校园 网的任何地方通过该地址都可以访问 但是如果你的机器没有连入复旦校园网 那么你就无法访问该服 务器 ISE 的搜索范围和通常的搜索引擎不一样 不是整个互联网 而是某个特定的内部网 本文中 ISE 将会以复旦大园网为搜索对象 当然 ISE 也可以在其他 Intranet 上运行 目前广泛存在的搜索引擎基本上都是以互联网为主要的搜索范围 例如 Yahoo Google 等 然而由 于 Intranet 的特点 这些搜索引擎都无法搜索到 Intranet 内部的资源 这样就使得用户无法搜索到其 所在的 Intranet 内部的资源 比如你就无法在 Yahoo 或 Google 上搜索到复旦校园网内部的复旦大学学 生会的服务器上的资源信息 而 ISE 由于本身就运行在复旦大园网内部 是局限在 Intranet 内部的 搜索引擎 所以它就可以访问 Intranet 内部的资源 比如 ISE 就可以搜索到复旦大学学生会的服务器上 的资源信息 除了以 WEB 资源为主的搜索引擎外 还有以 FTP 资源为主的搜索引擎 目前国内比较有名气的 FTP 搜索引擎就是北大天网 FTP 搜索引擎 但是它也存在同样的问题 那就是它无法搜索复旦大园网 内部的 FTP 站点 ISE 除了可以搜索 WEB 资源外 还可以搜索 Intranet 内部的多种多样的资源 包括 校园网内部的 FTP 资源等 而且 ISE 具有可拓展性 通过拓展可以不断扩大搜索资源的类别和搜索范 围 由于 Intranet 具有和 Internet 不同的一些特点 所以 ISE 和一般的基于互联网的搜索引擎的技术也 有所不同 在数据采集和数据索引等方面都会有所不同 由于 Intranet 是内部网 其传输速度将比互联 网的传输速度快很多倍 所以 Intranet 内的资源对于 Intranet 内部的用户来说更具有价值 比如你如 果能够在校园网内找到 MySQL 的安装程序你就决不会到互联网上去花更多的时间下载它 下表将对 Internet 的搜索引擎和 Intranet 的搜索引擎进行比较 搜索范围 用户范围 发展情况 知名代表 Internet Search Engine 整个互联网 互联网中的每个用户 非常繁荣 Yahoo Google Intranet Search Engine 某个内部网 内部网的每个用户 处于发展阶段 暂无
表一 Internet SE 和 Intranet SE 的比较 作为 Intranet 内部网的搜索引擎 ISE 可以成为那些基于互联网搜索引擎的补充