........................414.3 通信模型 ................................................................484.4 本章小结.........................................................................................535 系统测试与分析5.1 测试的软硬件环境 ........................................................................545.2 系统测试.........................................................................................555.3 测试结果的分析.............................................................................605.4 本章小节.........................................................................................616 全文总结与未来展望6.1 全文工作的总结.............................................................................626.2 未来研究的展望.............................................................................62致 谢......................................................................................................64参考文献................................................................................................65 IV 1 概 论 随着当今社会信息化程度越来越高,每年所产生的信息也是迅速地增加,同时也提高了人们对信息处理技术的要求,尤其是如何存储这些海量信息和对这些海量信息的处理。
最新的研究热点,云存储和云计算1,就是为了解决这些问题而提出的。
所要进行研究的 Hadoop,就是一种实现云存储和云计算的方法,已经被许多的公司所采用2。
1.1 Hadoop 的体系架构及其研究意义 Hadoop3是 Apache 中的开源项目,其所有的子项目都可以通过 Apache 开源项目得到。
在 Hadoop 中实现了一个自有的分布式文件系统Hadoop Distributed FileSystem,简称 HDFS4和一个通过 MapReduce5范式实现的框架,用来对大数据集合的分析和传输。
Hadoop 的一个重要特点是对数据的分块并在多个主机上备份,以及在数据端并行地进行应用计算。
一个 Hadoop 集群可以通过简单地增加服务器,从而扩展集群的计算能力、存储能力和 IO 的带宽。
在 Yahoo!的 Hadoop 集群中,使用了 25 000 个服务器,并且存储的应用数据达到了 25PB。
全球目前有 100 多个公司使用了 Hadoop 技术。
Hadoop 的体系架构如图 1.1 所示。
图 1.1 Hadoop 的体系架构 1 HBase 本来是在 Poweset 上开发的,现在是 Microsoft 的一部分。
它是一个分布式的、面向列的开源数据库,该技术是由 Google 的 Bigtable 技术延伸而来的。
HBase与一般的关系数据库是不同的,它不仅是一个适合于非结构化数据存储的数据库,而且是基于列的。
Hive 是由 Facebook 发起和开发的。
它是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql语句包装为 MapReduce 任务运行。
Pig 是一个运行在 Hadoop 上的并行处理架构,有了 Pig 使得普通的程序员具有了分析处理海量数据集的能力。
ZooKeeper 是一个开放源码的分布式应用程序协调服务,分布式应用程序可以基于一个简单的原语集来实现同步服务,配置维护和命名服务等。
Chukwa 和 Avro 也都是由 Yahoo!贡献的,其中 Chukwa 是基于 Hadoop 的大集群监控系统,Avro 是一个数据序列化的系统。
在 HDFS 是基于 Hadoop 的分布式文件系统, HDFS 中系统的元数据和应用数据是分开存放的。
与其它分布式文件系统 PVFS6,Lustre 和 GFS7一样,HDFS 将元数据存放在一个单独的服务器上,该服务器称为 NameNode,应用数据存放的服务器 与称为 DataNode。
Lustre 和 PVFS 不同的是,DataNode 在 HDFS 中不使用类似 RAID的数据保护机制;而是和 GFS 一样,文件的内容复制在多个 DataNode 上来保证数据的可靠性。
与其它分布式文件系统相比,HDFS 具有其特有的优点和研究价值,并且已经 如 、成为很多大型公司, Yahoo! IBM 和 Amazon 等,来进行系统开发的基础。
HDFS具有很好的扩容