php中文分词-免费论文

php中文分词

点数论文　 2012-4-6 版权投诉上传论文复制论文网址上传用户：会员ID191391

    第31卷第1期2008年3月
    辽宁师范大学学报（自然科学版）
    JournalofLiaoningNormalUniversity（NaturalScienceEdition）
    V01．31Mar．
    No．12008
    文章编号：1000—1735（2008）01－0057—03
    PHP＋MYSQL环境下的中文分词技术研究
    徐殿军1，
    （1．渤海大学图书馆，辽宁锦州
    崔宝华2
    121000；2．辽宁师范大学学生处，辽宁大连116029）
    摘
    要：要想在上百亿的网页中找到有意义结果，最重要的是把最相关的结果显示出来，而且要排在最前面，这也称
    为相关度排序．中文分词的准确与否，常常直接影响到对搜索结果的相关度排序．对PHP编写模拟分词函数进行了研究和分析．给出了PHP＋MYSQL环境下实现传统分词的实现过程．并在此基础上引人了字典的概念，因其在分词之前已提前调入内存．从而大大提高了分词的效率和准确性．在PHP＋MYSQL环境下为中文的分词过程实现提供了良好的平台基础，丰富的PHP函数为实现精确的分词提供了语言和语法的支持。MYSQL轻型效据库为字典提供快速的存取．关键词：全文检索，中文分词；相关度排序；PHP；MYSQL中图分类号：G252．7文献标识码：A
    随着信息高速公路的发展和普及，人们很快由信息匮乏变成被包围在信息的汪洋大海之中，如何从海量的数据中高效地获取有用知识？如何从爆炸性增长的信息中及时获取最新信息？在这种背景下，网络信息检索系统迅速发展．从全文检索的检索内容划分，可以分为两种检索：第一种是纯英文检索，检索的内容为纯英文，这种检索可以利用数据库提供的全文检索功能较完美地实现全文检索．第二种是中文内容的全文检索或者中英文混合的全文检索．MYSQL本身不支持中文的分词，所以，如何模拟分词是MYSQL全文索引的关键．中文分词是所有语言分词中最困难的，现在也没有彻底完美的解决方案．中文分词到底对搜索引擎有多大影响？对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序．中文分词的准确与否，常常直接影响到对搜索结果的相关度排序．1
    目前主流的中文分词算法
    把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词．现有的分词算法可分为三大类：基于字符
    串匹配的分词方法、基于理解的分词方法和基于统计的分词方法．
    1．1
    基于字符串匹配的分词方法
    这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识别出一个词）．按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法．常用的几种机械分词方法：（1）正向最大匹配法（由左到右的方向）；（2）逆向最大匹配法（由右到左的方向）；（3）最少切分（使每一句中切出的词数最小）．
    1．2基于理解的分词方法
    这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果，但这种方法需要大量的词法、句法、语义知识．其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象．它通常包括3个部分：分词子系统、句法语义子系统、总控部分．在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程．这种分词方法需要使用大量的语言知识和信息．由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段．
    收稿日期：2007一ll一22作者简介：徐殿军（1970一）。男，辽宁锦州人．渤海大学讲师．
    万方数据
    58
1 2 3 下一页
下载此论文注册会员原创论文及论文定作定作程序设计网络精品一起学

 提供各类程序设计和程序下载修改等提供ASP\VFP\PB\VB\ASP.NET\DELPHI系统定作修改服务

【责编:网学网上传论文】

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·论文翻译单片机温度控制应用(中文)
  ·科技论文分类
  ·基于MSP430的智能ph传感器设计
  ·基于泛中文域名的网页关键词超链接实现与应
  ·基于PLC监测感应电机控制系
  ·基于MSP430的智能ph传感器设计
  ·基于Lucene的中文字典分词模块
  ·基于LC6311实现VedioPhone
  ·基于LabVIEW和HP_VEE的程控电
- 最新文件
  
  ·汉语分词在中文软件中的广泛应用
  ·现代汉语文本的词语切分技术
  ·《现代汉语语法信息词典》的开发与应用
  ·汉语文本词性标注标记集的规范
  ·小议人工智能技术在信息检索系统中应用
  ·人工智能的研究领域与应用领域
  ·我们身边的人工智能应用
  ·人工智能概述（原创）
  ·人工智能语言--PROLOG
　友情链接

特别推荐

　最新原创论文　　　　　　　　　更多

免费论文,原创论文,参考论文,论文源代码-网学

php中文分词