算法进行数据挖掘的予过程。
但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。
Friedmn【1J列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣: (1)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; (2)先进的计算机技术,例如更快和更大的计算能力和并行体系结构; (3)对巨大量数据的快速访问; (4)对这些数据应用精深的统计方法计算的能力。
所以也可以说数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。
起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行
查询和访问,进而发展到对数据库的即时遍历。
数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。
今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
那么数据挖掘是怎么定义的呢? 6 篇2章相关理论知识2.1.3数据挖掘的定义 在学术的角度上,数据挖掘(data mining)是从大量历史数据中寻找其规律的技术,是统计学、数据库和人工智能技术的综合。
关于数据挖掘的定义有很多,但目前广泛认为可能比较好的定义是JiaweiHan扩展给出的【4】:数据挖掘(Data Minin2)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这个定义包括好几层含义: (1)数据源必须是真实的、大量的、含噪声的; (2)发现的是用户感兴趣的知识; (3)发现的知识要可接受、可理解、可运用; (4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
在商业的角度上【“】,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。
数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。
现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。
分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。
但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘又可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的先进有效的方法。
2.1.4数据挖掘的过程和
工作量 数据挖掘的过程可以分为6个步骤〔12 北京交通大学硕f-学位论文 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。
理解数据:收集初步的数据,进行各种熟悉数据的活动。
包括数据描述,数据探索和数据质量验证等。
准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。
包括表、记录和属性的选择,数据转换和数据清理等。
建模:选择和应用各种建模技术,并对其参数进行优化。
模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。
通常要将活动