Hadoop实战
相关资料
[
将网格计算、并行计算和虚拟化等技术融为一体的云计算技术已成为我们当下存储和处理海量数据的最佳选择之一。hadoop的开源、高性能、高容错、跨平台等特点又使其成为架构云计算平台的首选。本书以实践为主,理论与实践相结合,全面阐述了整个hadoop技术体系,适合读者系统地学习。强烈推荐!
——hadoop中文网
目前,国内的很多互联网企业都在使用或正准备使用hadoop技术,这些企业都面临着一个共同的难题:hadoop方面的人才难求。hadoop方面的人才之所以难找,一方面是因为hadoop在国内应用的时间不长,从业人员并不多;另一方面是因为hadoop技术本身较难以掌握,而且与涉及海量数据处理的实际生产环境密切相关。本书很好地把握住了当前hadoop从业者的核心需求,不仅理论知识全面,更重要的是包含大量与实际生产环境相结合的案例,极具指导意义。
——hadoop用户社区
hadoop可谓炙手可热,在全球范围内,已经有数量庞大的大中型互联网公司开始使用hadoop,国外的amazon、facebook、yahoo!,国内的腾讯、百度、淘宝、阿里巴巴等都是成功应用hadoop的典范。然而,hadoop技术本身却极为复杂,而且涉及众多其他的技术,学习门槛比较高。本书从中初级读者的需求出发,以实践为导向,全面而系统地讲解了hadoop技术本身,以及与之相关的其他各种技术。对于想系统学习hadoop和想增加实战经验的读者来说,本书不可多得!
——51cto
]
本书特色
[
内容全面,涵盖hadoop技术本身和hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目
实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强
]
内容简介
[
本书是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强。
全书一共18章:第1章全面介绍了hadoop的概念、优势、项目结构、体系结构,以及它与分布式计算的关系;第2章详细讲解了hadoop集群的安装和配置,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的应用案例,以及hadoop平台上海量数据的排序;第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了hadoop的i/o操作、hdfs的原理与基本操作,以及hadoop的各种管理操作,如集群的维护等;第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和hadoop插件的开发。
]
作者简介
[
陆嘉恒,中国人民大学副教授,新加坡国立大学博士,美国加利福尼亚大学尔湾分校(University of
California, Irvine)
博士后。专注于云计算及其相关技术的研究,对Hadoop有较深入的研究,积累了丰富的实践经验。对分布式计算和海量数据处理有深刻的认识,主持并完成了多个国家863和自然科学基金项目的研究与实施。2009年入选新世纪优秀人才,2010年入选北京科技新星。主持《云计算概论》课程获教育部-IBM精品课程称号。
]
目录
前言
第1章 hadoop简介
1.1 什么是hadoop
1.1.1 hadoop概述
1.1.2 hadoop的历史
1.1.3 hadoop的功能与作用
1.1.4 hadoop的优势
1.1.5 hadoop的应用现状和发展趋势
1.2 hadoop项目及其结构
1.3 hadoop的体系结构
1.3.1 hdfs的体系结构
1.3.2 mapreduce的体系结构
1.4 hadoop与分布式开发
1.5 hadoop计算模型——madrcduce
1.6 hadoop的数据管理
封面
书名:Hadoop实战
作者:陆嘉恒 著
页数:441
定价:¥69.0
出版社:机械工业出版社
出版日期:2011-10-01
ISBN:9787111359449
PDF电子书大小:129MB 高清扫描完整版