写给大忙人的Hadoop 2

本书特色

[

本书首先介绍了hadoop的背景知识,包括hadoop 2和yarn的工作原理和对hadoop 1的改进,然后将数据湖与传统存储比较。第2章到第8章,分别介绍了hadoop 2和核心服务的安装方法、hadoop分布式文件系统、mapreduce和yarn编程,以及利用apache pig等hadoop工具简化编程。*后两章讲述了利用apache ambari等工具管理hadoop和基本的管理程序。附录包括hadoop 2故障诊断和排除的基础知识、apache hue和apache spark安装等。本书通俗易懂,具有大量操作实例,易于上手,适合hadoop用户、管理员、开发和运维人员、程序员、架构师、分析师和数据科学工作者阅读。

]

内容简介

[

理解hadoop 2和yarn的工作原理,以及它们对配备mapreduce的hadoop第1版的改进。理解基于hadoop的数据湖和rdbms数据仓库的比较。在linux机器、虚拟的沙箱或集群中安装hadoop 2和核心服务。研究hadoop分布式文件系统(hdfs)。理解mapreduce和yarn编程的基础。利用apache pig、hive、sqoop、flume、oozie和hbase简化编程。观察应用程序运行进度、控制作业并管理工作流程。利用apache ambari高效地管理hadoop,包括建立从hdfs到nfsv3的网关、制作hdfs快照及配置yarn的攻略。学习hadoop 2故障诊断和排除的基础知识,以及学习安装apache hue和apache spark。 

]

作者简介

[

Douglas Eadline,博士,作为一个Linux 集群HPC 革命的践行者和记录者开始他的职业生涯,而现在他在记录大数据分析。从开始第一份操作文档以来,道格写了数百篇文章、白皮书,以及说明文档,涵盖高性能计算(HPC)的几乎所有方面。在2005年启动和编辑颇受欢迎的ClusterMonkey.net 网站之前,他担任ClusterWorld 杂志的主编,并曾是Linux 杂志的HPC 资深编辑。    他具有多方面的HPC 实际操作经验,包括硬件和软件设计、基准测试、存储、GPU、云计算和并行计算。    目前, 他是一名作家和 HPC 行业顾问, 并且是Limulus 个人集群项目()的领导。他是Addison-Wesley 出版的HadoopFundamentals LiveLessons 和Apache Hadoop YARN Fundamentals LiveLessons 教学视频的作者和Apache Hadoop™ YARN: Moving beyond MapReduce and Batch Processing withApache Hadoop™ 2 一书的合著者。

]

目录

1背景和概念 1定义apache hadoop 1apache hadoop的发展简史 3大数据的定义 4hadoop作为数据湖 5使用hadoop:管理员、用户或两种身份兼具 7原始的mapreduce 7apache hadoop的设计原则 8apache hadoop mapreduce示例 8mapreduce的优势 10apache hadoop v1 mapreduce操作 11使用hadoop v2 超越mapreduce 13hadoop v2 yarn操作设计 14apache hadoop项目生态系统 16总结和补充资料 182安装攻略 21核心hadoop服务 21hadoop配置文件 22规划你的资源 23硬件的选择 23软件选择 24在台式机或笔记本电脑上安装 25安装hortonworks hdp 2.2沙箱 25用apache源代码安装hadoop 32配置单节点yarn服务器的步骤 33运行简单的mapreduce示例 42安装 apache pig(可选) 42安装apache hive(可选) 43使用ambari安装hadoop 44执行ambari安装 45撤消ambari安装 59使用apache whirr在云中安装hadoop 59总结和补充资料 653hdfs基础知识 67hdfs设计的特点 67hdfs组件 68hdfs块复制 71hdfs安全模式 72机架的识别 73namenode高可用性 73hdfs namenode联邦 75hdfs检查点和备份 76hdfs快照 76hdfs nfs网关 76hdfs用户命令 77简要hdfs命令参考 77一般hdfs命令 78列出hdfs中的文件 79在hdfs中创建一个目录 80将文件复制到hdfs 80从hdfs复制文件 81在hdfs中复制文件 81删除在hdfs中的文件 81删除在hdfs中的目录 81获取hdfs状态报告 81hdfs的web图形用户界面 82在程序中使用hdfs 82hdfs java应用程序示例 82hdfs c应用程序示例 86总结和补充资料 884运行示例程序和基准测试程序 91列出可用的示例 92运行pi示例 93使用web界面监控示例 95运行基本hadoop基准测试程序 101运行terasort测试 101运行testdfsio基准 102管理hadoop mapreduce作业 103总结和补充资料 1045hadoop mapreduce框架 107mapreduce模型 107mapreduce并行数据流 110容错和推测执行 114推测执行 114hadoop mapreduce硬件 115总结和补充资料 1156mapreduce 117编译和运行hadoop wordcount的示例 117使用流式接口 122使用管道接口 125编译和运行hadoop grep链示例 127调试mapreduce 131作业的列举、清除和状态查询 131hadoop日志管理 131启用yarn日志聚合 132web界面日志查看 133命令行日志查看 133总结和附加资源 1357基本的hadoop工具 137使用apache pig 137pig示例演练 138使用apache hive 140hive示例演练 140更高级的hive示例 142使用apache sqoop获取关系型数据 145apache sqoop导入和导出方法 145apache sqoop版本更改 147sqoop示例演练 148使用apache flume获取数据流 155flume的示例演练 157使用apache oozie管理 hadoop工作流 160oozie示例演练 162使用apache hbase 170hbase数据模型概述 170hbase示例演练 171总结和补充资料 1768hadoop yarn应用程序 179yarn分布式shell 179使用yarn分布式shell 180一个简单的示例 181使用更多的容器 182带有shell参数的分布式 shell 示例 183yarn应用程序的结构 185yarn应用程序框架 187hadoop mapreduce 188apache tez 188apache giraph 189hoya: hbase on yarn 189dryad on yarn 189apache spark 189apache storm 190apache reef:可持续计算执行框架 190hamster:hadoop和mpi在同一集群 190apache flink:可扩展的批处理和流式数据处理 191apache slider:动态应用程序管理 191总结和补充资料 1929用apache ambari管理hadoop 193快速浏览 apache ambari 194仪表板视图 194服务视图 197主机视图 199管理视图 201查看视图 201admin下拉菜单 202更改hadoop属性 206总结和补充资料 21210基本的hadoop管理程序 213基本的hadoop yarn管理 214停用yarn节点 214yarn webproxy 214使用 jobhistoryserver 215管理yarn作业 215设置容器内存 215设置容器核心 216设置mapreduce属性 216基本的hdfs管理 217namenode用户界面 217将用户添加到hdfs 219在hdfs上执行fsck 220平衡hdfs 221hdfs安全模式 222停用hdfs节点 222secondarynamenode 223hdfs快照 223配置到hdfs的nfsv3网关 225容量调度程序背景知识 229hadoop 2的mapreduce兼容性 231启用应用主控程序的重新启动功能 231计算一个节点的承载容量 232运行hadoop 1的应用程序 233总结和补充资料 235附录a本书的网页和代码下载 237附录b入门流程图和故障排除指南 239入门流程图 239常见的hadoop故障排除指南 239规则1:不要惊慌 239规则2:安装并使用ambari 244规则3:检查日志 244规则4:简化情况 245规则5:在互联网上提问 245其他有用的提示 246附录c按主题列出的apache hadoop资源汇总 253常规的hadoop 信息 253hadoop安装攻略 253hdfs 254示例 255mapreduce 255mapreduce 编程 255基本工具 256yarn应用程序框架 257ambari管理 257基本的hadoop 管理 257附录d安装hue hadoop gui 259hue安装 259安装和配置hue 262启动hue 263hue用户界面 263附录e安装apache spark 267在集群上安装spark 267在整个集群中启动spark 268在伪分布式的单节点安装版本中安装和启动spark 270运行spark示例 271

封面

写给大忙人的Hadoop 2

书名:写给大忙人的Hadoop 2

作者:伊德理恩

页数:288

定价:¥69.0

出版社:电子工业出版社

出版日期:2016-06-01

ISBN:9787121288050

PDF电子书大小:158MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注