【SQL开源代码栏目提醒】:网学会员SQL开源代码为您提供基于MapReduce 的数据挖掘平台设计与实现 - 其它论文参考,解决您在基于MapReduce 的数据挖掘平台设计与实现 - 其它论文学习中工作中的难题,参考学习。
2013 年 2 月 计算机工程与设计 Feb. 2013第 34 卷 第 2 期 COMPUTER ENGINEERING AND DESIGN Vol. 34 No. 2 基于 MapReduce 的数据挖掘平台设计与实现 2 1, 1 3 黄 斌 ,许舒人 ,蒲 卫 1. 中国科学院软件研究所 软件工程技术中心,北京 100190 2. 中国科学院研究生院,北京 100190 3. 解放军卫生信息中心,北京 100842摘 要: MapReduce 编程模型的简单性和高性价比使得其适用于海量数据的并行处理。
然而,MapReduce 欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用 MapReduce 框架进行数据挖掘时暴露出开发效率低下,重复开发等问题。
提出了一种基于 MapReduce 的数据挖掘平台,该
设计思想为 Hadoop 作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补。
同时,基于该方法实现了一个大规模数据挖掘工具。
关键词: MapReduce 编程模型 数据挖掘 Hadoop 平台 模型驱动 可视化中图法分类号: TP301 文献标识号: A 文章编号: 1000-7024 2013 02-0495-07 Design and implementation of MapReduce-based data mining platform 2 HUANG Bin1, ,X Shu- 1 ,PU Wei3 ren ( 1. Technology Center of Software Engineering,Institute of Software,Chinese Academy of Sciences, Beijing 100190,China; 2. Graduate University,Chinese A
cademy of Sciences,Beijing 100190,China; 3. Health Information Center of PLA,Beijing 100842,China)Abstract: Profiting from its simplicity and high cost performance,MapReduce programming paradigm is suitable for massive paralleldata processing. However,MapReduces lacking supports for multiple data source,component reuse,and data visua-lization bring inproblems such as low efficiency development and redundant coding. A new design and implementation of MapReduce-based data miningplatform is proposed to give reference implementation of massive data mining,data visualization and business intelligence applicationsbased on Hadoop. Based on this proposal,a massive data mining tool is implemented.Key
words: MapReduce programming model; data mining; Hadoop platform; model-driven development; visualization 出的重要因素; 在科学研究领域,天文学的图片数据、生0 引 言 物学中的人类基因组数据以及物
理学中粒子加速器产生的 2009 年全球存储的信息总量达到为 8000 亿 Gbt。
IDC 实验 数 据 的 数 据 量 都 非 常 大,大 数 据 量 给 科 学 分 析 带 40预测到 2020 年,全球将会存储 35Zbt ( 1Zbt 2 Gbt) 的信 来困难。
息量。
社交网络、电子商务、微博、音视频分享等互联网 面对增长迅速的数据量,如何从数据中发掘有用的信领域以及研究机构科学实验源源不断地产生大量的数据, 息成为当前大多数数据挖掘系统面临的问题。
对于此类大单一数据库存储服务已经无法满足数据多元化与大规模数 数据集的数据分析与挖掘系统,Cohen 等人在文献 〔 中 1〕据挖掘的需求。
总结了这类系统需要具备的特性: 在商业领域,从商业决策、
搜索引擎、社交
网络、推 ( 1) 数据适应性: 系统可接受多种类型的数据,避免荐系统,到垃圾邮件检测与广告投放,对大规模数据进行 系统对存储的数据的类型、结构和数据完整性的强要求,及时、有效地分析已成为这些商业应用能在竞争中脱颖而 从而避免通常的数据仓库对数据的强要求带来的
问题;收稿日期: 2012- 26; 修订日期: 2012- 28 02- 04-基金项目: 国家科技重大专项核高基基金项目 ( 2010ZX01042- 001- ; 国家科技支撑计划基金项目 ( 2012BAH05F02、2011BAH15B03) 001- 05) ) )作者简介: 黄斌 ( 1986- ,男,浙江杭州人,硕士研究生,研究方向为大规模数据计算、基于云平台的商业智能等; 许舒人 ( 1961- ,男, )福建漳州人,副研究员,研究方向为软件工程研究和大型应用系统规划、设计; 蒲卫 ( 1964- ,男,吉林吉林人,高级工程师,研究方向为卫生信息化。
E-mail: huangbin09 otcaix. iscas. ac. cn 496 计算机工程与设计 2013 年 ( 2) 敏捷性: 系统能够适应数据递增且更新频繁的应 了 Hadoop 的运用场景与应用领域。
如图 1 展示了 Hadoop用场景;
软件栈 ( Hadoop software stack) ,以 Hadoop 为核心,出现 ( 3) 分析深度: 提供对数据分析多角度、多切面的分 了在数据存储、处理、访问、管理、数据连接