【SQL开源代码栏目提醒】:网学会员在SQL开源代码频道为大家收集整理了“Weka平台设计的研究和其数据预处理功能的改进 - 硕士论文“提供大家参考,希望对大家有所帮助!
北京交通大学 硕士学位论文Weka平台设计的研究和其数据预处理功能的改进 别:硕士 专业:计算机应用技术 指导教师:王志海 20060301 摘要 wbka已缀逐渐成为一个困际知名的数据挖掘乎螽,其
免费开源、算法丰富、架稿稽对麓范、兼容经好,霞魏吸弓l了越来越多的研究者参入其中。
随着数据挖掘技术在海量信息处理中卓越的表现,数据挖掘系统的设计氇会越来越有徐蘧,毽由予菇韭数箨稼据系统设计褥代筠静保密性,开源的weka是一个不可多得的选择,就像Linux正在吸引更多的用户和内核蚕胥炎喾一梯,融b在数擐挖撼舞墩褥可麓势不可攒。
本文分祈了Wjka的框架(architecture),剖析了、№ka的各个包 (package)的结构设计和功隧,分析了weka的内骇文件。
逐就We奴兹来源、功能、使用、输入输出、可视化、二次开发、扩展领域进行了简要介绍,指出了w呔a存在的主要问题,并对wbka数搬预处理的增强提出了改逶的播藏。
另外由于wjka系统包含了林林总总的功能和算法,数据挖掘算法本隽又一}分复杂,傻礅轴十分“庞大”,溉妇系统懿矮耨敝本3—5-2
源代码约30万行,800个java源文件。
将weka的部分内核分离出来,也是一传+分有意义麴事绩,本文凝分类黪法,将疑妇徽了最小穗燕瘦囊,完整的NaviesBaves分类算法仪需31个、Ⅳcka中的源文件。
wbka作为一个松散耦会(或者不糕合)嬲数据携握系统鸭由予不能使嗣DB国w(数据库,数据仓库)系统的功能,在数据预准备阶段溪花大量的时间查找、收集、清理和转换数据。
不与这些系统耦台,DM(数据挖穗)就禳难将这释系统集成蜀信怠处理环鞴中罐i在数据挖掘过程申,普遍认为数据预处理约占据整个过程60%.80%的时间。
提商数据预处理耱誊憝往就曩褥茏兔蘩要。
本文最嚣结合坤娓妇平台、jDBcwfa印ef,藏weka和数据库的耦合性,智能的数据预处理进行了分析和设计。
本文对那皴运雳we袈a徽耠M鞠关算法以及对那些跌事数据挖握系统
设计的人都有很好的借鉴意义。
关键字:weka;数据挖掘:wbka架构;weka内核;数据预处理 北京交通大学硕士学位沦文 Abstract W酞a has gfadually been a world well—known dala mining platform,which iS attraccmg more and more users to ioin iIl because of wbka’scharacters of open source code and free usin舀lOts of algorithms,staIldardarchitecture,good compatibility.Wittl the excellent behaVior Of data min血gtechnology play in great data processing,deVeloping a new data miningsystem will make count,but eVery commerce dm t001s almost is kept secret iIldesigning and source code,just like more and more users are interesIed inLinux’s core.Wbka will be a wisdom selection. The paper lucubrates in the archnecture of Weka platfo姗,generallyanatomizes each package and detailedly analyses core files of W色ka System.What’s more,“bfiefly summarizes the region,fllnction,usage,input&output, out tlle problem invjsualization,custom development,related projects;pointsface of Wbka;and presents a methOd t0 enhance the fllnctiOn Of datapreprocessiIlg of weka. W呔a usuany impresses one numerous and jumbled,that is it,there aremultifarious fI】nctjons and algorit