基于相似度的文本聚类方法研究

基于相似度的文本聚类方法研究

点数论文 2010-10-11　版权投诉上传论文复制论文网址上传用户：highboy2012

摘要xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
随着计算机的广泛应用和Internet 的普及，人们所面对的信息量急剧增长。信息量的增加给人们带来方便，可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息，人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。
在现实世界中，文本是信息最重要的载体，事实上，研究表明信息有80%包含在文本文档中。面对大量无序的文本数据，为了便于工作的展开，人们经常遇到的一个问题就是，如何对文本进行分类、比较，评估文本的相关性和重要性，以及发现众多文本的模式与趋势。采用文本分类可以实现对大量文本的自动分类。文本分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。财经类网页是我们日常生活中关注的主要内容。本文以财经类文本的聚类实现为研究实例，提出基于文本相似度向量的聚类方法。

目录
摘要 2
一、绪论 4
1.1问题的提出 4
1.2 课题开发背景 5
1.3 系统设计思想 7
二、系统开发工具和开发平台 8
2.1 面向对象语言 8
2.2 关于VC++ 6.0 11
2.2.1编辑器方面的新特性 12
2.2.2、编译器、连接器和调试器方面的改进 13
2.3 系统运行环境 13
2.3.1软件运行平台 13
2.3.2硬件运行平台 13
三、系统分析 14
3.1 文本建模方法 14
3.2 文本聚类算法分析 15
3.2.1 划分聚类算法 15
3.2.2 层次聚类算法 16
3.2.3 基于密度的聚类算法 16
3.2.4 基于模型的聚类算法 16
3.2.5 基于网格的聚类算法 17
四、系统设计与实现 18
4.1 系统结构设计 18
4.2 界面设计 18
4.3 网页自动获取的实现 20
4.4 网页分析聚类的实现 21
五、系统测试 22
5.1 测试 22
5.2 聚类效果分析 24
结论 26
致谢 27
参考文献 28

下载
相关热词：基于相似文本方法研究
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·初中英语完形填空答题技巧与方法
  ·对教育公共投入差异与地方财政能力的研究
  ·企业基建财务管理研究
  ·发展低碳经济的公共财政政策链研究
  ·基于民间金融视角的农户增收效应析探
  ·湖北省农村民间金融的现状及发展研究
  ·现代派美术与现代设计史教学内容研究
  ·老年退行性心脏瓣膜病与心律失常的相关性研
  ·坎地沙坦和苯那普利治疗高血压病的对比研究
- 最新文件
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

基于相似度的文本聚类方法研究

摘要xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />