基予不同的模型和技术,彼瑟互鞠孤立,联系绞少; (2)缺少简明精确的问题描述方法,挖掘的语义通常是由实现方法决定的: (3)数据挖掘系统仅提供孤立的知识发现功能,娥于嵌入大型盛麓; (4)数据挖掘引擎与数据库系统是松散耦合批; (5)数据加载于内存,滩以处理大规模的数据;1.3本文工作和结构安排 一个完整数据挖掘系统是怎样构建的,它有哪几部分组成,各部分之阗又是怎样豹缝合?本文镑对weh平螽,详缨豹分援了其絮穆帮备模块之间的关系。
指出w汰a数据预处壤的不足,并提出了增强和改进其数据预处理功能一些措旌。
本文主舞工作和论文结构安排如下; 3 北京交通大学硕士学位沦文 (1)首先主要探讨了课题背景,wjka的国内外发展现状,w酞a面临的问题等。
(2)其次在第二章的一、二节简要的介绍数据挖掘的相关基本概念。
列举了数据挖掘和一些常用术语的关系和区别。
分析了个数据挖掘工具的使用情况,数据挖掘工具的选择标准。
第三节对数据预处理作了重点介绍。
第四节介绍了w酞a的功能,使用,weka的相关扩展课题;探讨了如何在wjka上作二次开发,指出weka在数据预处理方面的不足。
(3)在此第四章对weka设计架构进行分析,重要内核研究和解析,剖析了weka的最小内核文件,每个内核文件的作用,重要函数,关键数据结构;分析了最小内核和最小分类器的关系,在w哉a这个融合众多功能的环境中提取一个最小可用内核和分类器。
(4)最后,第五章指出w酞a在数据预处理功能上改进的方案,改进前后的流程对照,改进设计中的关键问题和解决方法。
第六章做了全文的总结和展望。
4 第2章相关理论知议 第2章相关理论知识 在剖析数据挖掘工具w酞a的设计之前,先简单的介绍数据挖掘的基础知识,数据挖掘静流程,数据挖掘瀚关谜环节,容翁混淆的几个概念。
2.1数据挖掘 下霆麸数捺挖据鹃意义、演变、避程、王{笮囊分布耱数据挖掘工艇夯绍数据挖掘。
2.1.1数据挖掘的意义 :i琏十几年,随着科学技术飞速的发展,经济和社会都取褥了极大的进步,与此同对,在各个领域产生了大擞的数据,如人类对太空的探索,银行每天的巨额交易数据。
显然在这些数据中蕴涵丰富的信怠,如何处理这些数据得到有蓣的信息,人们进行了肖益的探索。
计算机技术的迅速发展使得楚遴数据成为酉筑,这赣攘动了数据库技术韵极大发震,健是蠢对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次阚瑟;戆不麓麸数撂孛提取售患或豢知识秀决蓑l受务。
藏数攥痒技拳嚣言已经显得无能为力了,同样。
传统的统计技术也面临了极大的挑战。
这就急霰有耨豹方法来处理这些海量般的数据。
予是,入稍结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题11 oj。
2.1.1数据挖掘的演变 数据挖掘其实是一个逐渐演变的过程,毫子数据簸瑾的初期,入稻就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.橇瓣学习豹过程裁燕将一些琶翔懿并已被成功瓣浚静褥题律为藏弼输入计算机,机器通过学习这些范例总结并生成相应的规则,这魑规则舆有 北京交通大学硕士学位论文通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。
专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。
80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。
随着在80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘DM(data mining)来描述使用挖掘