自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FIT搜索,拥有极其强大的高级搜索功能。
Teoma起源于1998年Rutgers大学的一个项目。
Apostolos Gerasoulis教授带领华裔1’a0 Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Je圯ves收购,2002年4月再次发布。
Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine:同时提供专业链接目录的Resources。
Wisenut由韩裔Yeogirl Yun创立。
2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。
wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide:预览搜索结果的Sneak.a.Pcek。
Gigablast由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。
Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索〔21。
2005年,google推出学术搜索, Google学术搜索提供可广泛搜索学术文献的简便方法。
其中可以搜索众多学科和资料来源:来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。
2006年,google推出地图搜索和google earth来提供对地图以及地图相关信息的搜索。
1.2.1.2国内搜索引擎现状 对于中文的搜索引擎,因为存在对中文分词问题以及最大内容相关性的问题,在刚开始都是提供目录索引,后来随着baidu和google的发展,逐渐提升了中文搜索技术,现在存在以下几种搜索引擎。
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。
Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。
2002年6月,Openfind重新发布基于GAI¥30 3 武汉理工大学硕士学位论文Project的Opcnf’md搜索引擎Beta版,推出多元排序(PolyRann’i),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网是国家”九五”重点科技攻关项目”中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。
2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的邱搜索功能。
Baidu 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。
2001年8月发布Baidu.tom搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎。
Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。
Baidu搜索引擎的其它特色包括:网页快照、网页预览,预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。
2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快〔21。
2006年,百度开通国学频道(guoxue.baidu.com),百度国学目前能提供上起先秦、下至清末历代文化典籍的检索和阅读。
同年,百度推出第三个社区类搜索产品——“百度百科”(baike.baidu.com),提供对百科知识的检索。
1.2.2 0A搜索引擎现状 目前,普通OA系统中的搜索是基于对数据库字段的模糊匹配检索,通过对需求中指定的关键词进行页面硬质编码,通过对关键词的分析并构建SOL语句,然后对数据库中的数据进行模糊查询,最后返回给用户查询结果,从而实现系统的搜索, 此类系统搜索能满足部分用户的功能需求,但是与系统有很强的耦合性,必须和指定关键词进行硬质编码,然后还须对数据库指定关键词生成SOL语句进行搜索数据库编码,同时对页面的硬质重复编码,增加开发难度和工作任务量,而且比较繁琐,不易拆分和简化。
对于OA系统的全文检索,有各种不同的实现方式,在各个环境下使用不完全相同,在Java中,主要依赖外部全文检索工具包来进行实现,通过定时搜索资源来定期维护索引,再通过索引查询接口去查询数据。
在维护索引时需要对搜索资源进行解析归类、查询索引资源时需进行查询词的解析,以便能获得比较相关的信息。
’ 另外,百度和google都提供企业搜索引擎服务,专注于解决OA系统的全文检索,由于这些公司有大型网络搜索引擎的经验,对于普通企业全文检索,实 4 武汉理工大学硕士学位论文现机制和网络搜索大同小异,所以性能上都比较好,可以很方便快捷的实现对系统的全文检索。
但是由于需要得到其他公司的支持,开销和依赖性比较强,同时由于大型网络搜索引擎对系统数据的更新的实时性不是很高,很容易造成搜索结果与实际数据不一致。
1.3研究意义 在普通OA(Office Automation办公自动化)系统中,随着信息量的日益增多和爆炸式扩展,对于数据字段的普通模糊匹配搜索已远远不能满足不同的用户需求。
另外对于普通的OA系统搜索,一般都是根据不同功能硬质编码在具体模块中,与具体模块耦合比较强,不易于扩展、维护、管理。
同时由于搜索数据库和搜索索引模块接口不能统一,使得开发人员使用不同接口难度增大。
OA系统个性化搜索引擎的目标是建立一个独立于具体模块、与数据字段相关性较弱、可管理维护配置的个性化搜索引擎,支持中文分词、全文检索等搜索引擎特征,同时对全文检索和数据库检索建立统一的查询方式和规则,使得很容易在全文检索和数据库检索中做切换。
OA系统个性化搜索引擎可以极大改善OA系统的开发时间和开发效率,进一步降低系统的耦合性,减少系统维护和管理带来的开销,使得开发重心进一步转移到业务逻辑上,同时又能增强普通数据字段模糊匹配带来功能不足的困扰,通过个性化配置,可以使得搜索引擎满足不同用户功能需求,达到简化系统开发和增强系统功能的目的。
1.4本文研究内容1.4.1研究目标 (1)、数据库查询功能解耦。
采取封装,延迟生成查询语句的时间,通过由各个模块协作设置数据传输对象后,再统一组装查询语句,减少具体业务模块之间的耦合,使得开发和维护简便。
(2)、改善OA系统中基于数据字段模糊匹配搜索的功能,增强为具有分词、内容相关性、安全性等搜索引擎特征的搜索。
主要目标为将封装层面和搜索引擎特征结合,使得搜索更加全面、高效、完备。
(3)、统一全文检索和数据库检索查询方式和规则,扩展搜索引擎的接口和功能。
5 武汉理-T大学硕士学位论文1.4.2研究内容 OA系统中搜索查询数据库的抽象封装。
将简化查询和具体模块的耦合,延迟生成查询语句,以便各个模块之间进行协作。
OA搜索功能的部分实现。
将搜索引擎的中文分词、可配置管理应用到OA系统搜索中。
·考察具体功能模块的数据字段的与
上一篇:
基于本体的专业搜索引擎的研究
下一篇:
法律专业开题报告范文