Weka平台设计的研究和其数据预处理功能的改进

Weka平台设计的研究和其数据预处理功能的改进

Windows编程 2013-10-18　版权投诉上传资料复制论文网址上传用户：a835303774

极大发震，健是蠢对不断增加如潮水般的数据，人们不再满足于数据库的查询功能，提出了深层次阚瑟；戆不麓麸数撂孛提取售患或豢知识秀决蓑ｌ受务。

    藏数攥痒技拳嚣言已经显得无能为力了，同样。

    传统的统计技术也面临了极大的挑战。

    这就急霰有耨豹方法来处理这些海量般的数据。

    予是，入稍结合统计学、数据库、机器学习等技术，提出数据挖掘来解决这一难题１１ｏｊ。

    ２．１．１数据挖掘的演变数据挖掘其实是一个逐渐演变的过程，毫子数据簸瑾的初期，入稻就试图通过某些方法来实现自动决策支持，当时机器学习成为人们关心的焦点．橇瓣学习豹过程裁燕将一些琶翔懿并已被成功瓣浚静褥题律为藏弼输入计算机，机器通过学习这些范例总结并生成相应的规则，这魑规则舆有北京交通大学硕士学位论文通用性，使用它们可以解决某一类的问题．随后，随着神经网络技术的形成和发展，人们的注意力转向知识工程，知识工程不同于机器学习那样给计算机输入范例，让它生成出规则，而是直接给计算机输入已被代码化的规则，而计算机是通过使用这些规则来解决某些问题。

    专家系统就是这种方法所得到的成果，但它有投资大、效果不甚理想等不足。

    ８０年代人们又在新的神经网络理论的指导下，重新回到机器学习的方法上，并将其成果应用于处理大型商业数据库。

    随着在８０年代末一个新的术语，它就是数据库中的知识发现，简称ＫＤＤ（Ｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙｉｎｄａｔａｂａｓｅ）．它泛指所有从源数据中发掘模式或联系的方法，人们接受了这个术语，并用ＫＤＤ来描述整个数据发掘的过程，包括最开始的制定业务目标到最终的结果分析，而用数据挖掘ＤＭ（ｄａｔａｍｉｎｉｎｇ）来描述使用挖掘算法进行数据挖掘的予过程。

    但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成，并认为最好的策略是将统计方法与数据挖掘有机的结合起来。

     Ｆｒｉｅｄｍｎ【１Ｊ列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣：（１）超大规模数据库的出现，例如商业数据仓库和计算机自动收集的数据记录；（２）先进的计算机技术，例如更快和更大的计算能力和并行体系结构；（３）对巨大量数据的快速访问；（４）对这些数据应用精深的统计方法计算的能力。

     所以也可以说数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。

    起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。

    数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。

     数据挖掘的核心模块技术历经了数十年的发展，其中包括数理统计、人工智能、机器学习。

    今天，这些成熟的技术，加上高性能的关系数据库引擎以及广泛的数据集成，让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

    那么数据挖掘是怎么定义的呢？６篇２章相关理论知识２．１．３数据挖掘的定义在学术的角度上，数据挖掘（ｄａｔａｍｉｎｉｎｇ）是从大量历史数据中寻找其规律的技术，是统计学、数据库和人工智能技术的综合。

    关于数据挖掘的定义有很多，但目前广泛认为可能比较好的定义是ＪｉａｗｅｉＨａｎ扩展给出的【４】：数据挖掘（ＤａｔａＭｉｎｉｎ２）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    这个定义包括好几层含义：（１）数据源必须是真实的、大量的、含噪声的；（２）发现的是用户感兴趣的知识；（３）发现的知识要可接受、可理解、可运用；（４）并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

     在商业的角度上【“】，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

    简而言之，数据挖掘其实是一类深层次的数据分析方法。

    数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。

    现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。

    分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。

    但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。

    因此，数据挖掘又可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证己知的规律性，并进一步将其模型化的先进有效的方法。

    ２．１．４数据挖掘的过程和工作量数据挖掘的过程可以分为６个步骤〔１２北京交通大学硕ｆ－学位论文理解业务：从商业的角度理解项目目标和需求，将其转换成一种数据挖掘的问题定义，设计出达到目标的一个初步计划。

     理解数据：收集初步的数据，进行各种熟悉数据的活动。

    包括数据描述，数据探索和数据质量验证等。

     准备数据：将最初的原始数据构造成最终适合建模工具处理的数据集。

    包括表、记录和属性的选择，数据转换和数据清理等。

     建模：选择和应用各种建模技术，并对其参数进行优化。

     模型评估：对模型进行较为彻底的评价，并检查构建模型的每个步骤，确认其是否真正实现了预定的商业目的。

     模型部署：创建完模型并不意味着项目的结束，即使模型的目的是为了增进对数据的了解，所获得的知识也要用一种用户可以使用的方式来组织和表示。

    通常要将活动模型应用到决策制订的过程中去。

    该阶段可以简单到只生成一份报告，也可以复杂到在企业内实施一个可重复的数据挖掘过程。

     看图２．１能很好的表示这个过程。

     图２．１ｃＲＩｓＰ—ＤＭ过程模型８第２章干甘关理沧知识数据挖掘过程工作量，在数据挖掘中被研究的业务对象是整个过程的基础，它驱动了整个数据挖掘过程，也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。

    数据挖掘的过程并不是自动的，绝大多数的工作需要人工完成．图２－２给出了各步骤在整个过程中的工作量之比口Ｊ。

    可以看到，６０％的时间用在数据预处理上，这说明了数据挖掘对数据的严格要求，而后挖掘工作仅占总工作量的１０％。

     ７０６０５０４０３０２０ｌＯ０业务分析数据预处理数据挖掘结果分析图２．２数据挖掘过程工作量比例２．１．５数据挖掘的标准模型数据挖掘的标准化目前包括以下三个标准四１１４】【１５】：ｃＲＩｓＰ—ＤＭ、ＰＭＭＬ、ＯＬＥＤＢＦｏｒＤＭ。

    ｃＲＩｓＰ．ＤＭ全称是交叉行业数据挖掘过程标准（Ｃｍｓｓ—ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＰｒｏｃｅｓｓｆｏｒＤａｔａＭｉｎｉｎｇ）。

    它由ＳＰＳＳ、ＮＣＲ、以及Ｄａｉｍｌｅｒｃｈｒｙｓｌｅｒ三个公司在１９９６开始提出，是数据挖掘公司和使用数据挖掘软件的企业一起制定的数据挖掘过程的标准。

    这套标准被各个数据挖掘软件商用来指导其开发数据挖掘软件，同时也是开发数据挖掘项目的过程的标准方法。

    ＰＭＭＬ七全称是“预言

首页上一页 1 234 下一页尾页
版权说明
上一篇：基于PHP技术的个人网站设计
下一篇：英语论文网([网学网]):英语专业本科生毕业论文写作

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

Weka平台设计的研究和其数据预处理功能的改进