第31卷第1期2008年3月
辽宁师范大学学报(自然科学版)
JournalofLiaoningNormalUniversity(NaturalScienceEdition)
V01.31Mar.
No.12008
文章编号:1000—1735(2008)01-0057—03
PHP+MYSQL环境下的中文分词技术研究
徐殿军1,
(1.渤海大学图书馆,辽宁锦州
崔宝华2
121000;2.辽宁师范大学学生处,辽宁大连116029)
摘
要:要想在上百亿的网页中找到有意义结果,最重要的是把最相关的结果显示出来,而且要排在最前面,这也称
为相关度排序.中文分词的准确与否,常常直接影响到对
搜索结果的相关度排序.对PHP编写模拟分词函数进行了研究和分析.给出了PHP+MYSQL环境下实现传统分词的实现过程.并在此基础上引人了字典的概念,因其在分词之前已提前调入内存.从而大大提高了分词的效率和准确性.在PHP+MYSQL环境下为中文的分词过程实现提供了良好的平台基础,丰富的PHP函数为实现精确的分词提供了语言和语法的支持。MYSQL轻型效据库为字典提供快速的存取.关键词:全文检索,中文分词;相关度排序;PHP;MYSQL中图分类号:G252.7文献标识码:A
随着信息高速公路的发展和普及,人们很快由信息匮乏变成被包围在信息的汪洋大海之中,如何从海量的数据中高效地获取有用知识?如何从爆炸性增长的信息中及时获取最新信息?在这种背景下,
网络信息检索
系统迅速发展.从全文检索的检索内容划分,可以分为两种检索:第一种是纯英文检索,检索的内容为纯英文,这种检索可以利用数据库提供的全文检索功能较完美地实现全文检索.第二种是中文内容的全文检索或者中英文混合的全文检索.MYSQL本身不支持中文的分词,所以,如何模拟分词是MYSQL全文索引的关键.中文分词是所有语言分词中最困难的,现在也没有彻底完美的解决
方案.中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序.中文分词的准确与否,常常直接影响到对搜索结果的相关度排序.1
目前主流的中文分词算法
把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词.现有的分词算法可分为三大类:基于字符
串匹配的分词方法、基于理解的分词方法和基于统计的分词方法.
1.1
基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词).按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法.
常用的几种机械分词方法:(1)正向最大匹配法(由左到右的方向);(2)逆向最大匹配法(由右到左的方向);(3)最少切分(使每一句中切出的词数最小).
1.2基于理解的分词方法
这种分词方法是通过让
计算机模拟人对句子的理解,达到识别词的效果,但这种方法需要大量的词法、句法、语义知识.其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象.它通常包括3个部分:分词子系统、句法语义子系统、总控部分.在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程.这种分词方法需要使用大量的语言知识和信息.由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段.
收稿日期:2007一ll一22作者简介:徐殿军(1970一)。男,辽宁锦州人.渤海大学讲师.
万方数据
58