随着计算机的广泛应用和Internet 的普及,人们所面对的信息量急剧增长。信息量的增加给人们带来方便,可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息,人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。面对大量无序的文本数据,为了便于工作的展开,人们经常遇到的一个问题就是,如何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。采用文本分类可以实现对大量文本的自动分类。文本分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。财经类网页是我们日常生活中关注的主要内容。本文以财经类文本的聚类实现为研究实例,提出基于文本相似度向量的聚类方法。
目录