【Asp.net精品源码栏目提醒】:网学会员Asp.net精品源码为您提供【精品】基于书签的校园搜索引擎 - 图形图像参考,解决您在【精品】基于书签的校园搜索引擎 - 图形图像学习中工作中的难题,参考学习。
国防科技大学信息中心国防科技大学信息中心 当前校内资源的特点 国防科技大学信息中心国防科技大学信息中心 黄页式的寻找 国防科技大学信息中心国防科技大学信息中心 提出问题 。
如何才能不再面临主页上满屏幕的导航而眼花 。
如何在不知道资源所属网站的情况下找到它 。
如何迅速地定位到所需的资源 。
如何将链接管理的任务从管理员交给用户们 国防科技大学信息中心国防科技大学信息中心 搜索引擎的引入 随着网络在教学、科研、管理等多方面应用的开展信息的查找和定位变得更为困难。
为了解决这个问题目前一般采用和通用搜索引擎类似的方法来进行搜索。
但是两者的使用环境和适应情况具有很大的差别通用搜索引擎并不能够很好地胜任校园应用搜索的任务。
根据部分统计结果校园网络的数据每年以200的速度增长其中80的数据以文件、邮件、图片等非结构化数据形式存放在网络计算机系统中的各个角落。
由此如何方便、快捷、安全地获取内部网络的信息内容造就了一个新的应用“校园搜索引擎”。
国防科技大学信息中心国防科技大学信息中心 传统搜索引擎的缺陷 不分类型。
比如搜索“教务处”那么不管链接、新闻、文件只要带有关键词的文本全部都堆砌起来让用户找去吧 不分轻重。
不区分哪些链接是用户所感兴趣的往往将无人关心的一些新闻也堆放到关键位置从中想要找到有用的东西不亚于从乱石堆里找宝很辛苦。
搜索深度。
搜索引擎往往遍历整个网站将全部内容搬运到服务器上虽然全面却深度太深服务器长期超负荷运作经常硬盘溢出。
解决学习Google PageRank让用户做主 国防科技大学信息中心国防科技大学信息中心 通用搜索引擎 校园搜索引擎 搜索范围 整个Internet网络 局限于校园网络内部 搜索对象 网页、图像、mp3等多种类型的文件 内部知识库、帮助文档、源代码信息库、部门门户新闻等包含网页、公开邮件、DOC文档、PDF文件、图表、报告等 搜索特点 尽量完全性为用户提供尽可能丰富的搜索结果 专业、定向的搜索更为注重结果的准确性和高度匹配性。
排序方式 入站链接数量以及广告费投放数量 用户关心程度 用户参与 参与不多 尽量让用户参与 通用搜索引擎和校园搜索引擎对比 国防科技大学信息中心国防科技大学信息中心 通用搜索引擎 校园搜索引擎 异构资源搜索和整合 互联网通信协议。
以HTTP为主获取HTML网页和特殊格式文档DOC、PPT、PDF、MP3、图像等。
校园内部的各种信息采集接口包括HTML/XMLHTTP、RDBMSAPI/SQL、文件系统NFS/FTP、Lotus等。
数据的更新 数据更新的周期较长。
对静态缓存进行索引周期性地进行切换和更新。
需要尽量迅速地反映最新的信息更新动态刷新索引以保证数据的一致性。
准确性 无法完全包括相关重要性排序以Page Rank、Title、Meta为主面临SEO问题和商业性因素 更为全面精确计算字词混合索引符合元数据查询结构化更为准确受商业化影响较低排序更合理。
安全性 公开信息一般不存在安全问题 需要对访问权限进行控制受限内容不纳入搜索 管理、挖掘和应用 找到信息后即可 需要完备的整合和管理进行智能的挖掘和分析面向内部需求提供个性化服务。
国防科技大学信息中心国防科技大学信息中心 社会书签的引入 和搜索引擎使用关键词为主的搜索不同在校园搜索引擎中需要借鉴社会化网络的书签Tag又称标签。
社会书签Social Bookmark可以将网站随时加入自己的网络书签中用多个关键词标示和整理书签并与人共享是2004年起Web出现的一种新的内容标引方法。
相对于专业的编目和用户提供元数据的现行方式社会书签以其方便实用而备受人们的关注和喜爱被认为是下一代的Web信息基础设施。
国防科技大学信息中心国防科技大学信息中心 事物的多面性使Tag必要 国防科技大学信息中心国防科技大学信息中心 网站同样具有各种相关性 国防科技大学信息中心国防科技大学信息中心 书签和关键词的区别 用户不希望非得记忆系统的网址而是希望只要用户认为存在相关就应该可以找到。
当然这些书签的关联度是不一样的也就是说各个系统在书签中的重要程度不一样。
关键词更是标注内容的主题而书签则是在对内容的个人理解上的私人标注未必针对的是主题比如书签可能是时间也可能是编号。
书签的设定要比关键词更自由更方便书签就是自己关注/存储内容的坐标或名称。
国防科技大学信息中心国防科技大学信息中心 Web 2.0的理念 用户参与 用户的角色不再只是浏览者也成了信息的提供者。
共享 新应用注重用户之间的信息共享而不是只有信息提供商将信息提供给用户。
开放 信息提供商通过API提供网站信息及功能的互操作。
用户体验至上 新应用使用户得到了从未有过的全新的用户体验 IT重要的是“I”而不是“T” “Information Technology”里注重“Information”而不是“Technology”“Technology”只是手段。
国防科技大学信息中心国防科技大学信息中心 Web 2.0的设计模式 用户添加价值 用户越多服务越好 ??依靠大量数据和相关性算法提供更好更准确的服务 典型应用 ??内容管理。
Google PageRank WikiPedia豆瓣 ??个人门户。
eBayAmazon淘宝各种博客 ??协作式垃圾信息过滤产品。
CloudmarkQQMail 数据是下一个Intel Inside核心价值所在 价值在于“infoware”而不是“software” 创建大型数据库的三种方式 ??付费给专人。
Yahoo ??依靠开源社区的志愿者。
WikiPedia ??用户增加价值。
Google del.icio.us豆瓣 国防科技大学信息中心国防科技大学信息中心 同义词词库 书签搜索不能像算法搜索那样全面、有涵盖性。
书签不是分类和组织网络的万能药使用得当书签可以很好地描述网站的内容。
但是语言固有模糊性和不明确性—语言有多种意思人们对同样的文字有不同的理解。
同义词搜索在功能上分为精确匹配和模糊匹配。
区别在于前者的同义词词库完全建立在权威的《辞海》上后者则尽可能多地收录生活世界日常语言里的同义词。
因此有必要做两个同义词词库。
当然引进同义词搜索的前提是不能降低搜索结果的相关性。
国防科技大学信息中心国防科技大学信息中心 书签的来源自动分词 自动分词从检索错误来看情况相当复杂涉及中文自动分词的各个方面包括 交叉歧义如“研究生态学理论及应用” 组合歧义“推动以人为本的教育” 中国人名如“山东安百合律师事务所” 外国人名如“海伦和约翰”、“介绍酒井法子” 中国地名如“泌阳县双庙街乡” 外国地名如“埃及和约旦” 机构名 如“掌天气功疗法中心”等。
国防科技大学信息中心国防科技大学信息中心 书签的来源手工分词 手工添加书签是反映用户喜好的一种重要方式。
在Web 2.0的理念中十分强调用户的参与。
用户的角色不再只是浏览者也成了信息的提供者。
这一点在博客中表现得十分突出对于网络书签更是如此。
用户将自己认为重要的相关书签添加到搜索引擎中将自己喜好的收藏夹提供给其他人共享。
应用注重用户之间的信息共享而不是只有信息提供商将信息提供给用户。
国防科技大学信息中心国防科技大学信息中心 搜索结果的排序 采取用户点击率作为“投票”的机制让在某个书签中搜索得到的网址根据点击量从多到少排序从而使得最多点击量的网址自动排名靠前体现了用户的参与。
同时为用户提供一个“举报”机制也即当发现某个书签搜索的结果
上一篇:
【精品】编程指导
下一篇:
bc80e7a0-d1f2-4595-b21d-01a76798e87a