随着计算机的广泛应用和Internet 的普及,人们所面对的信息量急剧增长。信息量的增加给人们带来方便,可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息,人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。面对大量无序的文本数据,为了便于工作的展开,人们经常遇到的一个问题就是,如何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。采用文本分类可以实现对大量文本的自动分类。文本分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。财经类网页是我们日常生活中关注的主要内容。本文以财经类文本的聚类实现为研究实例,提出基于文本相似度向量的聚类方法。
目录
摘要 2
一、绪论 4
1.1问题的提出 4
1.2 课题开发背景 5
1.3 系统设计思想 7
二、系统开发工具和开发平台 8
2.1 面向对象语言 8
2.2 关于VC++ 6.0 11
2.2.1编辑器方面的新特性 12
2.2.2、编译器、连接器和调试器方面的改进 13
2.3 系统运行环境 13
2.3.1软件运行平台 13
2.3.2硬件运行平台 13
三、系统分析 14
3.1 文本建模方法 14
3.2 文本聚类算法分析 15
3.2.1 划分聚类算法 15
3.2.2 层次聚类算法 16
3.2.3 基于密度的聚类算法 16
3.2.4 基于模型的聚类算法 16
3.2.5 基于网格的聚类算法 17
四、系统设计与实现 18
4.1 系统结构设计 18
4.2 界面设计 18
4.3 网页自动获取的实现 20
4.4 网页分析聚类的实现 21
五、系统测试 22
5.1 测试 22
5.2 聚类效果分析 24
结论 26
致谢 27
参考文献 28