【PHP开源代码栏目提醒】:文章导读:在新的一年中,各位网友都进入紧张的学习或是工作阶段。
网学会员整理了PHP开源代码-基于CORESEEK的中文信息搜索系统的研究与应用 - 硕士论文的相关内容供大家参考,祝大家在新的一年里工作和学习顺利!
中图分类号: 婴3窆3
论文编号: 学科分类号: §2Q鲤 安徽理工大学 硕士学位
论文基于CORESEEK的中文信息搜索系统的研究与应甩 作者: 让簋扭廑旦撞丕 研究方向: 盐篡扭圆终 导师娅 导师单位: 塞徵理王太堂 答辩委员会主席:
论文答辩日期: 2011年5月29日 安徽理工大学研究生处 2011年月 日 A Dissertation in Computer Application Technology THE RESEARCH AND USE OF CHINESE INFORMATION SEARCH SYSTEM BASED ON CORESEEK Candidate: Fan Jun’|{, Supervisor: Wan ib’ Wgn yl ang olng 两 School of Computer Science and Engineering AnHui University of Science and Technology No.1 68,Shungeng Road,Huainan,232001,P.R.CHINA一蝣“I■ 独创性声明 本人声明所呈交的学位
论文是本人在导师指导下进行的研究工作及取得的研究成果。
据我所知,除了文中特别加以标注和致谢的地方以外,
论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 塞邀堡王太堂 或其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在
论文中作了明确的说明并表示谢意。
学位
论文作者签名: 丝望日期:必j月j日 学位
论文版权使用授权书 本学位
论文作者完全了解塞邀堡王太堂有保留、使用学位论 文的规定,即:研究生在校攻读学位期间
论文工作的知识产权单位 属于塞邀理王太堂。
学校有权保留并向国家有关部门或机构送交
论文的复印件和磁盘,允许
论文被查阅和借阅。
本人授权 安徽 理工大学 可以将学位
论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。
(保密的学位
论文在解密后适用本授权书)学位
论文作者签名:捷啶 签字日期:加f/年‖月争日锄擀:主一善辨嗍剜%月争日●●l 摘要 摘要 在信息网络化蓬勃发展的今天,人们的日常生活、工作、学习都越来越离不开互联网的支持。
互联网的用户上网,大都是以获取信息,知识,资料以及社会交往等为目的的。
因此,人们要想从互联网海量的信息中寻找自己所需的东西,搜索引擎就成为了人们必备的工具。
搜索引擎和很多其他的技术一样,也是应运而生的,它产生于信息大爆炸时代,继而又在信息大爆炸时代起着极为重要的作用。
可以说,没有搜索引擎,我们在互联网时代就像是被蒙上了双眼,很难找到自己所需,或者找到更多更好的所需信息。
搜索引擎就像是一个向导,指引着我们收获我们的所爱。
本文介绍了搜索引擎的概念,各种搜索引擎的特点,对全文搜索引擎有了深入详细的探讨包括与之相关的概念如网页的收集、索引、排序,中文分词的研究等,论述了Coreseek搜索引擎系统及其与之相关关键技术。
Coressk搜索引擎是
开源的中文搜索引擎(其源
代码由C语言实现)而且是模块化的搜索引擎。
良好的特性非常适合当前的软件开发趋势。
Coreseek的搜索引擎的接DAPl支持
php、python、java、perl等,Coreseek内置MySQL数据库数据源和PostgreSQL数据源,并且可以读取特定格式的XML文件(从管道输入)。
既可供个人爱好者研究使用,也可供企业定制使用,适合于不同层次用户,有很高的研究价值和实用价值。
另外corseek在使用时具有使用方便,而且相对于其他的搜索引擎,具有搜索速度特别快的优势。
本文试图在WINDOWS环境下,以Corseek开发方式为依托,实现了具体的Coreseek搜索实例,并通过实例结合搜索引擎的原理论证了其优势,并给出了相应的改进策略。
图12表7参55关键词:CORESEEK;搜索引擎;中文分词;索引分类号:TP393; 安徽理工大学硕士学位
论文 Abstract With the rapid development of information network nowadays,the normal life,working and study increasingly rely on the support of Internet.The purpose of cybercitizen who surfing the Intemet is mainly to obtain the information,knowledge andalso establish social communication.Therefore,in ease someone wants to find thematerial which required from the vast information database of Intemet,search engineshave been the necessary t001.Just like other technology,search engine is origimated in _the era of information explosion and plays an extraordinary role in the same age.It is ■observed that without the search engine,it’S very hard to find the material someoneneeds or other better information.The search engine acts like a guide leading people tothe favorite material.It’S introduced that the concept of the search engine and thefeatures of various search engines in the article and then the search engines isdiscussed deeply in detail and the related concept such as the collection,index,sorting,study of Chinese participle ere. The coreseek is the open SOlffce Chinese search engine which the source code iswritten by C language and also modular search engine,while the features of whichmeet the trend of current sotlware development.The API interface of coreseeksupports
php,python,java and perl languages and the data source of internal databasepostgresql,XML files of specific form which input from the pipeline Can also be readby it.The application is not only oriented to anaatear personnel but also meets thecustomized requirem ents of the enterprises,which means it satisfies various level ofusers and owns hi曲value of both study and application.Additionally,the Coreseek isvery easy to use and owns the advantage of hi曲speed searching in comparison withother search engines.The article presents actual cases of Coreseek based on thedevelopment mode under WINDOWS environment and demonstrates the advantage by ■integrating with the principle of search engine,subsequently relative improvementstrategy is furnished by the author.Figure 12 table 7 reference 55KeyWor&:CORESEEK,search engine,chinese participle,IndexChinese books catalog:TP393 H 目 录 目 录 摘要………………………………………………………………………………I Abstract……………………………….……………………………………………………………………..II j;}I言……………………………….………………………………….……………………………………….1 l 绪论………………………………………………………………………………………………………2“- 1.1课题来源及研究依据……………………………………………………2● k 1.2 国内外研究现状…………………………………………………………2 1.3存在的问题………………………………………………………………3 1.4
论文研究内容和
论文结构………………………………………………3 1.4.1
论文研究内容…………………………………………………….3 1.4.2
论文结构………………………………………………………….4 2搜索引擎技术分析…………………………………………………………….5 .- 2.1搜索引擎技术综述………………………………………………………5 2.1.1搜索引擎的概念及研究背景…………………………………….5 2.1.2搜索引擎的分类………………………………………………….6 2.1.3搜索引擎的工作原理…………………………………………….7 2.1.4搜索引擎的主要技术指标……………………………………….8 2.2全文搜索引擎工作原理及关键技术的分析……………………………9 2.2.1全文搜索的工作原理…………………………………………….9 2.2.2全文搜索引擎各环节关键技术分析……………………………l O 3 Coreseek全文搜索引擎技术介绍……………………………………………1 4 3.1 Coreseek全文搜索引擎相关介绍…………………………………….14 3.1.1 Coreseek概述……………………………………………………………………14 3.1.2 Coreseek的功能…………………………………………………14 3.1.3 Coreseek重要的特性……………………………………………15 3.1.4 Coreseek整体架构………………………………………………l 7 3.1.5 Coreseek的搜索引擎接口支持的语言…………………………18 3.2建立索引……………………………………………………………….20 3.2.1 数据源……………………………………………………………20 H1 安徽理工大学硕士学位
论文 3.2.2索引属性及多值属性……………………………………………20 3.2.3索引…………………………………………………………………………………一21 3.2.4大小写、字符集转换……………………………………………2l 3.2.5实时更新索引及合并索引………………………………………22 3.3搜索…………………………………………………………………………………………22 3.3.1 匹配模式…………………………………………………………22 3.3.2布尔查询…………………………………………………………23 3.3.3 扩展查询…………………………………………………………23 3.3.4权值计算………:…………………………………………………23 3.3.5排序模式…………………………………………………………24 3.3.6结果分组…………………………………………………………244基于Coreseek全文搜索系统………………………………..25 4.1系统总体架构设计与平台搭建……………………………………….25 4.1.1系统设计思路……………………………………………………25 4.1.2系统目标…………………………………………………………25 4.1.3 系统设计方案……………………………………………………25 4.1.4基于WAMP平台环境搭建…………………………………….26 4.2索引数据库(数据源)的驱动…………………………………………。
26 4.3 系统的相关接口………………………………………………………..27 4.4 MMSEG中文分词…………………………………………………….275基于Coreseek全文搜索系统的建立…………………………………………31 5.1系统的组成结构…………………………………………………………31 5.2系统的工作流程……………………………………………………….3 l 5.3 Coreseek全文搜索系统的建立……………………………………….34 5.3.1 系统的索引表结构………………………………………………34 5.3.2配置Coreseek参数……………………………………………一34 5-3.3创建索引库(MySQL数据源)…………………………………..36 5.3.4连接MySQL数据源……………………………………………37 5.3.5编写corseek搜索界面………………………………………….37 IV 目 录 5.3.6提交表达响应……………………………………………………38 5.3.7开始查询返回匹配文档m…………………………………….38 5.3.8数据库查询………………………………………………………39 5.3.9摘要生成…………………………………………………………39 5.3.10搜索结果…………………………_……………………………40 5.4 Coreseek搜索系统的优点…………………………………………….42 5.4.1在实际使用时,corseek具有快速,高效的搜索品质……….42 5.4.2 Coreseek在对系统主要硬件的使用上做了很好的优化………44 5.4.3 Coreseek具有分布式索引功能…………………………………45 5.5 Coreseek搜索系统测试中的不足……………………………………一456研究总结与展望………………………………………………………………48 6.1 结{沧……………………………………………………………………………………………48 6.2今后工作展望………………………………………………………….48附录
php代码…………………………………………………………………。
49参考文献………………………………………………………………………….53致谢………………………………………………………………………………………………………..56读研期间主要科研成果………………………………………………………….57 N 安徽理工大学硕士学位
论文 ContentsAbstract……………….……………………………………………………………………………………..IAbstract……………….…………………………………………………………………………………….IIIntroduction………………………………………………………………………………………………..11 General……………………………………………………….…………………………………………2 Source and study reference………………………………………………………………2 — 1.1 1.2 Current situation in domestic and foreign reigon………………………………..2 1.3 Existing problems…………………………………………………………………………..3 1.4 The research context and structure ofpaper……………………….………………3 1.4.1 The research context of paper…………………………………………………3 1.4.2 Structure of the paper……………………………………….:…………………..zI2 Analysis ofthe searching engine technology……….……………………………………..5 2.1 Summarize ofthe searching engine technology.…………………………………5 2.1.1 Concept and Background ofthe searching engine…………………….5 2.1.2 Category of the searching engine.……………………………………………6 2.1.3 Principle of the searching engine……….…….……………………………..7 2.1.4 Important index ofthe searching engine technology………………….8 2.2 Principle offull-text searching and analysis ofkey technology...............9 2.2.1 Principle of full-text searching………………………………………………..9 2.2.2 Technical analysis for every secition of full text search engine….1 03 Technical introduction offull text search engine technology ofCoreseek.…...14 3.1 Introduction offull text search engine of Coreseek…………………………一14 · 3.1.1 General of Corcseek…………………………………………………………….14 ■ 3.1.2 Function ofCoreseek………………………………………….………………..14 3.1.3 Important feature ofCorcscck……………………………………………….15 3.1.4’I。
’he whole structure ofCorcscck……………………………………………17 3.1.5 Interface for languages of full-text search engine…………………….1 8 3.2 Creating index……………………….…………………………………………………….20 3.2.1 Data Source……………….……………………………………………………….20 竹. 3.2.2 The attribute of index and multiple…………….………………………….20 3.2.3 Index…………………………………………………………………………………21 3.2.4 The converting ofcase and charset.………………………………………·21 3.2.5 Real-time update and merge index………….…………………………….22 3.3 Searching………………………….………………………………………………………...22 3.3.1 Matchng mode………………….………………………………………………..22 3.3.2 Bool querying……………………………………………………………………..23 3.3.3 Extent querying……………………………………….………………………….23 3.3.4 Weight calculating………………………………………………………………23 3.3.5 Sorting mode………………………………………………………………………24 3.3.6 Result group….…………………………………………………………………...24 4 Design and Realize offull text search engine technology ofCoreseck.….……·25 4.I The whole architecture of system and platform………………………………..25 4.1.1 Design idea ofsystem………………………………………………………….25 4.1.2 Target of system……….……………………………………………………….25 4.1.3 Design scheme of system……….…………………………………………….25 4.1.4 Structure of platform of WAMP……………………………………………26 4.2 The buile of Index database(the source of data)………….…………………..26 4.3 The connection to the relation interface….……………………………………….28 4.4 The research ofMMSEG chinese participle…………………………………….28 5 The establishment of full text search engine technology of Coreseek…….…….3 1 5.1 1 System components……………………………………………………………………··3 5.2 The work flow system…………………………………………………….............31‘ 5.3 The establishment of full-text search engine technology of Coreseek...34 5.3.1 I】溅x table structure…………………………………………………………….34 5.3.2 Setup Coreseek parameters…………………………………………………··34 5.3.3 Setup Corescek parameters…………………………………………………..36 5.3.4 Linking MySQL data source…………………………………………………37 5.3.5 Comiling interface of Coreseek…………………………………………….37 VU 安徽理工大学硕士学位
论文 5.3.6 Submit the presentation response…………………………………………..38 5.3.7 Start query ofthe return match document ID…………………………。
38 5.3.8 Query ofdatabase…………….………………………………………………….39 5.:;.9 Generation ofabstract………………………………………………………….39 5.3.1 0 Test result…………………………………………………………………………40 5.4 The advantage of Coreseek..…...…….….…….…....…….…………….….……...42 5.4.1 The Coreseek have rapid and 900d effect……………………………….42 5.4.2 Optim=ize to Coreseek on hardware.……...…………….….…...…….….44 5.4.3 Comscek have distribute index function…………………………………45 5.5 Shortage ofuse Coreseek……….….……………………………………….…………456 Conclusion and expectation…………………………………………………………………….48 6.1 Conclusion……………………….………………………………………………………….z18 6.2 Expectation ofthe future……………………………………………………………….4j;Appendix
php code………………….…….………………….……………………………………..49Reference………………………………………….……………………………………………………….53Thanks…………………………………………………….………………………………………………..55Main research results in gradute period.….……………………………………….……………57 Ⅷ .