【Asp.net精品源码栏目提醒】:网学会员--在 Asp.net精品源码编辑为广大网友搜集整理了:基于书签的校园搜索引擎【精品-PDF】 - 图形图像绩等信息,祝愿广大网友取得需要的信息,参考学习。
国防科技大学信息中心国防科技大学信息中心 当前校内资源的特点 国防科技大学信息中心国防科技大学信息中心 黄页式的寻找 国防科技大学信息中心国防科技大学信息中心 提出问题 。
如何才能不再面临主页上满屏幕的导航而眼花 。
如何在不知道资源所属网站的情况下找到它 。
如何迅速地定位到所需的资源 。
如何将链接管理的任务从管理员交给用户们 国防科技大学信息中心国防科技大学信息中心 搜索引擎的引入 随着网络在教学、科研、管理等多方面应用的开展信息的查找和定位变得更为困难。
为了解决这个问题目前一般采用和通用搜索引擎类似的方法来进行搜索。
但是两者的使用环境和适应情况具有很大的差别通用搜索引擎并不能够很好地胜任校园应用搜索的任务。
根据部分统计结果校园网络的数据每年以200的速度增长其中80的数据以文件、邮件、图片等非结构化数据形式存放在网络计算机系统中的各个角落。
由此如何方便、快捷、安全地获取内部网络的信息内容造就了一个新的应用“校园搜索引擎”。
国防科技大学信息中心国防科技大学信息中心 传统搜索引擎的缺陷 不分类型。
比如搜索“教务处”那么不管链接、新闻、文件只要带有关键词的文本全部都堆砌起来让用户找去吧 不分轻重。
不区分哪些链接是用户所感兴趣的往往将无人关心的一些新闻也堆放到关键位置从中想要找到有用的东西不亚于从乱石堆里找宝很辛苦。
搜索深度。
搜索引擎往往遍历整个网站将全部内容搬运到服务器上虽然全面却深度太深服务器长期超负荷运作经常硬盘溢出。
解决学习Google PageRank让用户做主 国防科技大学信息中心国防科技大学信息中心 通用搜索引擎 校园搜索引擎 搜索范围 整个Internet网络 局限于校园网络内部 搜索对象 网页、图像、mp3等多种类型的文件 内部知识库、帮助文档、源代码信息库、部门门户新闻等包含网页、公开邮件、DOC文档、PDF文件、图表、报告等 搜索特点 尽量完全性为用户提供尽可能丰富的搜索结果 专业、定向的搜索更为注重结果的准确性和高度匹配性。
排序方式 入站链接数量以及广告费投放数量 用户关心程度 用户参与 参与不多 尽量让用户参与 通用搜索引擎和校园搜索引擎对比 国防科技大学信息中心国防科技大学信息中心 通用搜索引擎 校园搜索引擎 异构资源搜索和整合 互联网通信协议。
以HTTP为主获取HTML网页和特殊格式文档DOC、PPT、PDF、MP3、图像等。
校园内部的各种信息采集接口包括HTML/XMLHTTP、RDBMSAPI/SQL、文件系统NFS/FTP、Lotus等。
数据的更新 数据更新的周期较长。
对静态缓存进行索引周期性地进行切换和更新。
需要尽量迅速地反映最新的信息更新动态刷新索引以保证数据的一致性。
准确性 无法完全包括相关重要性排序以Page Rank、Title、Meta为主面临SEO问题和商业性因素 更为全面精确计算字词混合索引符合元数据查询结构化更为准确受商业化影响较低排序更合理。
安全性 公开信息一般不存在安全问题 需要对访问权限进行控制受限内容不纳入搜索 管理、挖掘和应用 找到信息后即可 需要完备的整合和管理进行智能的挖掘和分析面向内部需求提供个性化服务。
国防科技大学信息中心国防科技大学信息中心 社会书签的引入 和搜索引擎使用关键词为主的搜索不同在校园搜索引擎中需要借鉴社会化网络的书签Tag又称标签。
社会书签Social Bookmark可以将网站随时加入自己的网络书签中用多个关键词标示和整理书签并与人共享是2004年起Web出现的一种新的内容标引方法。
相对于专业的编目和用户提供元数据的现行方式社会书签以其方便实用而备受人们的关注和喜爱被认为是下一代的Web信息基础设施。
国防科技大学信息中心国防科技大学信息中心 事物的多面性使Tag必要 国防科技大学信息中心国防科技大学信息中心 网站同样具有各种相关性 国防科技大学信息中心国防科技大学信息中心 书签和关键词的区别 用户不希望非得记忆系统的网址而是希望只要用户认为存在相关