earchengine》【6】一文提出了著名的基于超链的网页排级算法,此算法作为Google搜索引擎的核心算法之一并使Google在不久的将来取得了巨大的成功。
IBM的研究 3人员Andrei Border在《A taxonomy of web search))【7L4文在总结了2002年以前研究成果的基础上提出了Web搜索的分类方法等。
信息检索模型是信息检索的核心【8】。
近几年来国外对于布尔模型的研究主要表现在对布尔模型的改进及对扩展布尔模型的进一步优化;对向量空间模型的研究,主要集中在对向量空间模型的扩展研究及对向量空间模型的应用方面;概率模型的发展主要集中在继续对概率模型进一步的研究,与其它信息检索模型的结合,以及语言模型的研究和发展。
近年来对于新兴的基于本体的信息检索模型的研究,主要集中在对基于本体的信息检索模型理论的研究,与其它检索模型的融合,以及基于本体检索模型的应用。
国外信息检索模型研究的最新成果,为国内此方面的研究提供了前沿性的参考信息。
。
其他的成果还有很多,这里举出的只是几个有代表性的例子。
这些研究涵盖了很多与之相关的主题如自然语言处理、多语言交叉搜索处理、图像搜索、多媒体搜索、语音搜索、个性化搜索引擎、智能搜索等各个方面。
国内对搜索引擎的研究相对国外来说起步要晚一些。
王继成等人在2001年2月《计算机研究与发展》上发表的《W曲信息检索研究进展》【9】一文中采用分层方法对W.eb检索系统进行了分类:“Web信息检索系统作为用户层和Web信息层之间的中间层,可以进一步地划分为3个层次,包括:搜索引擎与目录、元搜索引擎、信息检索agent。
在层次分类中,每一层都建立在其下各层地基础之上,并向其上各层提供信息检索服务。
”“搜索引擎是一种最为常见的Web信息检索系统。
” 4 图1.1 Web信息检索系统层次分类 张卫丰等人在2001年9月的《计算机科学》上发表的《Wreb搜索引擎综述》【loJ一文中“介绍了搜索引擎的发展历史,讨论了搜索引擎的基本工作原理,分析比较了搜索引擎的几个关键指标并给出了监测这些指标的方法”,并在此基础上“分析了搜索引擎面临的问题和将来的发展趋势:未来的搜索引擎应该……搜索速度更快,搜索精度更高和能够满足用户个性化的需求。
” 印鉴等人在2005年7月的《计算机工程》上发表的《搜索引擎技术研究与发展》【ll】一文中指出,“随着Web上用户群体的发展,搜索引擎技术是一个具有极大潜力的研究方向。
”该文“对搜索引擎技术做了系统的归纳和介绍,分析了各部分的关键技术和研究情况,并对未来的发展方向做了展望。
~目前的搜所引擎……在检索结果的准确性方面仍有一定的不足”,“如何……提高搜索引擎的性能表现将是未来搜索引擎技术的重要发展趋势。
’’ 何晓阳等人在2005年2月《现在情报》杂志上发表的《国内搜索引擎研究现状分析》【12L‘文中指出:“1996年国内就已经开始关注Web检索技术的发展,整体上处于迅速上升的趋势”,搜索引擎的研究“在1999年就已经成为学术界关注的热点,而自2001年以来一直保持在较高的水平,达到讨论白热化程度。
由此可以认为,.Web信息检索领域发展势头迅猛,目前该领域的研究还处于发展阶段,仍然是学术界关注的热点。
”“Web检索理论与算法研究、系统设计与实现技术、信息组织与研究以及专题类研究是搜索引擎研究中的热点。
” 此外,由中国计算机学会主办的全国Web信息系统及其应用会议从2004年起每年举办一届,最近一次是第5届(WISA2008),已于去年9月在西安召开。
信息检索系统和搜索引擎作为信息系统的核心技术和应用,也是大会的主要议题之一,该会议在很大程度上吸引和聚集了国内的研究人员对搜索引擎进行研究,很多研究也已经逐步开始跟上国际潮流,并产生了若干比较有价值和影响的研究成果。
通过对以上研究情况的分析我们可以看出,对于信息检索和搜索引擎的研究基本是理论与实践并重,两者相辅相成、互为促进。
理论研究更注重先进性、前瞻性以及在现有研究成果上的突破和创新,实践研究更注重对理论研究成果的实现和检验,以及对实际应用中碰到的问题根据具体情况给出可行的解决方案和对已有实现的优化升级等,也就是所谓的系统设计与实现技术。
Web从1991年出现到现在不过十几年的时间,真正意义上的Web搜索引擎更是到1994年才出现,尽管其相关的研究和应用已经取得了颇为丰硕的成果,一些关键理论也已经慢慢成熟,但是其研究还远远没有结束,特别是基于应用的研究永远没有止境,待解决的问题也还有很多。
理论方面比如自然语言处理,多媒体信息检索,智能搜索与个性化搜索等都是目前研究的热点;实践方面,通用搜索引擎面向广泛各种各样的领域提供信息搜索服务,考虑的是信息的广泛性和全面性,其提供的服务并不适合与所有的应用场合,所以把通用搜索引擎研究中相对成熟的技术用在构建垂直搜索和站内搜索中就有着重要的意义。
这不仅使得已有研究成果发挥了更大的作用,而且也对通用搜索构成了有益的补充,从而使更多的信息能够在网上得到有效的获取。
1.4本研究课题的来源及主要研究内容 本研究课题来源于2007年9月在北京举行的第4届中国计算机学会全国Web信息系统及其应用会议(WISA2007)。
总体说来,本课题涉及了3个方面的内容:第一是搜索引擎技术,这是提供数据组织管理和提供查询服务的关键,也是本课题《基于Sphinx构建Web站内全文搜索系统的研究》的主要工作;第二是数据库技术,我们用关系数据库来实 6现对数据的存储,同时作为站内搜索引擎系统的驱动数据源;第三是W曲技术,特别是Linux平台的系统服务管理技术和基于脚本语言PHP编程的动态网站技术。
Sphinx软件包提供了索引器和搜索器。
要想在现有SQL驱动数据源上提供功能强大的查询搜索,对驱动数据源进行合理高效的索引是关键。
对关系数据库索引的研究本身就是一个很重要的问题,并且已经取得很多成熟可用的成果,我们可以把数据库索引实现的现有研究成果和Sphinx索引器在文本非结构化数据管理应用方面的优势有效结合,从而构建出高效实用的查询索引。
利用LibMMSe9031对SQL数据源进行中文分词处理并用Sphinx indexer生成索引也是最为关键的问题。
所以,在工作过程中注重对中文分词技术的理论学习和应用研究,充分理解Sphinx索引器的工作原理、了解其关键的核心技术,以做到对SQL数据源进行高效合理的索引并根据SQL关系数据库特点把两者有效结合也是本课题研究的一个工作重点。
1.5建立研究的线索与思路 本课题在实施的过程中既离不开理论的学习,也离不开相关理论的应用和一些探索性的实践,比如搜索引擎原理、搜索引擎关键实现技术,以及数据库技术、Web技术、中文分词技术、非结构化文本数据的分析与索引处理等,且我们的工作更多的侧重在系统的方面。
根据目前实际情况和Sphinx软件包的特点,我们的基本工作环境平台采用Linux+Apache+PHP+MySQL组合搭建,这也是目前中小型网站普遍采用的主流平台和配置;搜索功能采用Sphinx+LibMMSeg的方式来实现。
由于工作的实验性特点,一台安装了Linux操作系统的普通的个人电脑作为基本的硬件设施就已经足够,所使用的软件包也都是基于GPL许可协议的开源软件,均可以从网络自由获取,且不用于商业用途也不会存在版权
上一篇:
通过Web浏览器控制开发板硬件
下一篇:
法律专业开题报告范文