Hadoop分布式文件系统_HDFS_可靠性的研究与优化_翟永东

Hadoop分布式文件系统_HDFS_可靠性的研究与优化_翟永东

Windows编程 2013-10-18　版权投诉上传资料复制论文网址上传用户：yuxu012

........................414.3 通信模型 ................................................................484.4 本章小结.........................................................................................535 系统测试与分析5.1 测试的软硬件环境 ........................................................................545.2 系统测试.........................................................................................555.3 测试结果的分析.............................................................................605.4 本章小节.........................................................................................616 全文总结与未来展望6.1 全文工作的总结.............................................................................626.2 未来研究的展望.............................................................................62致谢......................................................................................................64参考文献................................................................................................65 IV 1 概论随着当今社会信息化程度越来越高，每年所产生的信息也是迅速地增加，同时也提高了人们对信息处理技术的要求，尤其是如何存储这些海量信息和对这些海量信息的处理。

    最新的研究热点，云存储和云计算1，就是为了解决这些问题而提出的。

    所要进行研究的 Hadoop，就是一种实现云存储和云计算的方法，已经被许多的公司所采用2。

    1.1 Hadoop 的体系架构及其研究意义 Hadoop3是 Apache 中的开源项目，其所有的子项目都可以通过 Apache 开源项目得到。

    在 Hadoop 中实现了一个自有的分布式文件系统Hadoop Distributed FileSystem，简称 HDFS4和一个通过 MapReduce5范式实现的框架，用来对大数据集合的分析和传输。

    Hadoop 的一个重要特点是对数据的分块并在多个主机上备份，以及在数据端并行地进行应用计算。

    一个 Hadoop 集群可以通过简单地增加服务器，从而扩展集群的计算能力、存储能力和 IO 的带宽。

    在 Yahoo！的 Hadoop 集群中，使用了 25 000 个服务器，并且存储的应用数据达到了 25PB。

    全球目前有 100 多个公司使用了 Hadoop 技术。

    Hadoop 的体系架构如图 1.1 所示。

     图 1.1 Hadoop 的体系架构 1 HBase 本来是在 Poweset 上开发的，现在是 Microsoft 的一部分。

    它是一个分布式的、面向列的开源数据库，该技术是由 Google 的 Bigtable 技术延伸而来的。

    HBase与一般的关系数据库是不同的，它不仅是一个适合于非结构化数据存储的数据库，而且是基于列的。

     Hive 是由 Facebook 发起和开发的。

    它是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql语句包装为 MapReduce 任务运行。

     Pig 是一个运行在 Hadoop 上的并行处理架构，有了 Pig 使得普通的程序员具有了分析处理海量数据集的能力。

     ZooKeeper 是一个开放源码的分布式应用程序协调服务，分布式应用程序可以基于一个简单的原语集来实现同步服务，配置维护和命名服务等。

     Chukwa 和 Avro 也都是由 Yahoo！贡献的，其中 Chukwa 是基于 Hadoop 的大集群监控系统，Avro 是一个数据序列化的系统。

     在 HDFS 是基于 Hadoop 的分布式文件系统， HDFS 中系统的元数据和应用数据是分开存放的。

    与其它分布式文件系统 PVFS6，Lustre 和 GFS7一样，HDFS 将元数据存放在一个单独的服务器上，该服务器称为 NameNode，应用数据存放的服务器与称为 DataNode。

     Lustre 和 PVFS 不同的是，DataNode 在 HDFS 中不使用类似 RAID的数据保护机制；而是和 GFS 一样，文件的内容复制在多个 DataNode 上来保证数据的可靠性。

     与其它分布式文件系统相比，HDFS 具有其特有的优点和研究价值，并且已经如、成为很多大型公司， Yahoo！ IBM 和 Amazon 等，来进行系统开发的基础。

    HDFS具有很好的扩容

首页上一页 1 234 5 下一页尾页
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·父亲节英语作文:温馨父亲节(WarmFa
  ·传统节日（端午节）
  ·家乡的传统节日——清明节
  ·残疾人也可以拥有爱
  ·关于赛尔号7.23融合精灵的猜想可能是
  ·南方水灾英语作文:洪灾(AFloodDi
  ·关于南方水灾的英语作文:严重的水灾(Se
  ·2010成都中考作文题目:田守望者vs听
  ·2010厦门中考作文题目:打开一扇窗vs
- 最新文件
  
  ·农业部水产健康养殖渔场第三批 2662
  ·供电企业电网信息综合查询系统的开发与实践
  ·业设计中图分类号
  ·当今中国最敢说真话的四个人
  ·基于DM系统管理并应用于刑侦案件中的终端
  ·哈弗曼压缩软件(数据结构试验报告附源程序
  ·中国城乡居民收入差距原因研究文献综述
  ·浅探公司分立对中小股东的利益保护
  ·2012众合重点学科班马特民法讲义
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

Hadoop分布式文件系统_HDFS_可靠性的研究与优化_翟永东