HADOOP大数据分析实战

本书特色

[

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

]

内容简介

[

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

]

目录

目 录第1章 Hadoop简介 11.1 Hadoop分布式文件系统 11.1.1 高可用性 21.1.2 内部DataNode均衡器 41.1.3 纠删码 41.1.4 端口号 41.2 MapReduce框架 51.3 YARN 61.3.1 机会型容器 71.3.2 YARN时间轴服务v.2 71.4 其他变化内容 91.4.1 *低Java版本 91.4.2 Shell脚本重写 91.4.3 覆盖客户端的JAR 101.5 安装Hadoop 3 101.5.1 准备条件 101.5.2 下载 101.5.3 安装 121.5.4 设置无密码ssh 121.5.5 设置NameNode 131.5.6 启动HDFS 131.5.7 设置YARN服务 171.5.8 纠删码 181.5.9 内部DataNode平衡器 211.5.10 安装时间轴服务v.2 211.6 本章小结 27第2章 大数据分析概述 292.1 数据分析简介 292.2 大数据简介 302.2.1 数据的多样性 312.2.2 数据的速度 322.2.3 数据的容量 322.2.4 数据的准确性 322.2.5 数据的可变性 332.2.6 可视化 332.2.7 数值 332.2 使用Apache Hadoop的分布式计算 332.4 MapReduce框架 342.5 Hive 352.5.1 下载并解压Hive二进制文件 372.5.2 安装Derby 372.5.3 使用Hive 392.5.4 SELECT语句的语法 412.5.5 INSET语句的语法 442.4.6 原始类型 442.5.7 复杂类型 452.5.8 内建运算符和函数 452.5.9 语言的功能 502.6 Apache Spark 512.7 基于Tableau的可视化操作 522.8 本章小结 54第3章 基于MapReduce的大数据处理 553.1 MapReduce框架 553.1.1 数据集 573.1.2 记录读取器 583.1.3 映射 593.1.4 组合器 593.1.5 分区器 603.1.6 混洗和排序 603.1.7 reducer任务 603.1.8 输出格式 613.2 MapReduce作业类型 613.2.1 SingleMapper作业 633.2.2 SingleMapperReducer作业 723.2.3 MultipleMappersReducer作业 773.2.4 SingleMapperReducer作业 833.2.5 应用场景 843.3 MapReduce模式 883.3.1 聚合模式 883.3.2 过滤模式 903.3.3 连接模式 913.4 本章小结 100第4章 Python-Hadoop科学计算和大数据分析 1014.1 安装操作 1014.1.1 安装Python 1014.1.2 安装Anaconda 1034.2 数据分析 1104.3 本章小结 134第5章 R-Hadoop统计数据计算 1355.1 概述 1355.1.1 在工作站上安装R并连接Hadoop中的数据 1355.1.2 在共享服务器上安装R并连接至Hadoop 1365.1.3 利用Revolution R Open 1365.1.4 利用RMR2在MapReduce内执行R 1375.2 R语言和Hadoop间的集成方法 1385.2.1 RHadoop—在工作站上安装R并将数据连接至Hadoop中 1395.2.2 RHIPE—在Hadoop MapReduce中执行R语言 1395.2.3 R和Hadoop流 1395.2.4 RHIVE—在工作站上安装R并连接至Hadoop数据 1405.2.5 ORCH—基于Hadoop的Oracle连接器 1405.3 数据分析 1405.4 本章小结 165第6章 Apache Spark批处理分析 1676.1 SparkSQL和DataFrame 1676.2 DataFrame API和SQL API 1716.2.1 旋转 1766.2.2 过滤器 1776.2.3 用户定义的函数 1786.3 模式—数据的结构 1786.3.1 隐式模式 1796.3.2 显式模式 1796.3.3 编码器 1816.4 加载数据集 1826.5 保存数据集 1836.6 聚合 1836.6.1 聚合函数 1846.6.2 窗口函数 1946.6.3 ntiles 1956.7 连接 1976.7.1 连接的内部工作机制 1996.7.2 混洗连接 1996.7.3 广播连接 1996.7.4 连接类型 2006.7.5 内部连接 2016.7.6 左外连接 2026.7.7 右外连接 2036.7.8 全外连接 2046.7.9 左反连接 2056.7.10 左半连接 2066.7.11 交叉连接 2066.7.12 连接的操作性能 2076.8 本章小结 208第7章 Apache Spark实时数据分析 2097.1 数据流 2097.1.1 “至少一次”处理 2117.1.2 “*多一次”处理 2117.1.3 “仅一次”处理 2127.2 Spark Streaming 2147.2.1 StreamingContext 2157.2.2 创建StreamingContext 2157.2.3 启用StreamingContext 2167.2.4 终止StreamingContext 2167.3 fileStream 2177.3.1 textFileStream 2177.3.2 binaryRecordsStream 2177.3.3 queueStream 2187.3.4 离散流 2197.4 转换 2227.4.1 窗口操作 2237.4.2 有状态/无状态转换 2267.5 检查点 2277.5.1 元数据检查点 2287.5.2 数据检查点 2287.6 驱动程序故障恢复 2297.7 与流平台的互操作性(Apache Kafka) 2307.7.1 基于接收器的方案 2307.7.2 Direct Stream 2327.7.3 Structured Streaming 2337.8 处理事件时间和延迟日期 2367.9 容错示意图 2377.10 本章小结 237第8章 Apache Flink批处理分析 2398.1 Apache Flink简介 2398.1.1 无界数据集的连续处理 2408.1.2 Flink、数据流模型和有界数据集 2418.2 安装Flink 2418.3 使用Flink集群UI 2488.4 批处理分析 2518.4.1 读取文件 2518.4.2 转换 2548.4.3 groupBy 2588.4.4 聚合 2608.4.5 连接 2618.4.6 写入文件 2728.5 本章小结 274第9章 Apache Flink流式处理 2759.1 流式执行模型简介 2759.2 利用DataStream API进行数据处理 2779.2.1 执行环境 2789.2.2 数据源 2789.2.3 转换 2829.3 本章小结 300第10章 大数据可视化技术 30110.1 数据可视化简介 30110.2 Tableau 30210.3 图表类型 31310.3.1 线状图 31410.3.2 饼图 31410.3.3 柱状图 31510.3.4 热图 31610.4 基于Python的数据可视化 31710.5 基于R的数据可视化 31910.6 大数据可视化工具 32010.7 本章小结 321第11章 云计算简介 32311.1 概念和术语 32311.1.1 云 32311.1.2 IT资源 32411.1.3 本地环境 32411.1.4 云使用者和云供应商 32411.1.5 扩展 32411.2 目标和收益 32511.2.1 可扩展性的提升 32611.2.2 可用性和可靠性的提升 32611.3 风险和挑战 32711.3.1 安全漏洞 32711.3.2 减少运营治理控制 32811.3.3 云提供商之间有限的可移植性 32811.4 角色和边界 32811.4.1 云供应商 32811.4.2 云使用者 32811.4.3 云服务持有者 32811.4.4 云资源管理员 32911.5 云特征 32911.5.1 按需使用 33011.5.2 无处不在的访问 33011.5.3 多租户机制(和资源池机制) 33011.5.4 弹性 33011.5.5 监测应用状态 33011.5.6 弹性计算 33111.6 云交付模型 33111.6.1 基础设施即服务 33111.6.2 平台即服务 33111.6.3 软件即服务 33211.6.4 整合云交付模型 33211.7 云部署模型 33311.7.1 公共云 33311.7.2 社区云 33411.7.3 私有云 33411.7.4 混合云 33411.8 本章小结 335第12章 使用亚马逊Web服务 33712.1 Amazon Elastic Compute Cloud 33712.1.1 弹性Web计算 33712.1.2 对操作的完整控制 33812.1.3 灵活的云托管服务 33812.1.4 集成 33812.1.5 高可靠性 33812.1.6 安全性 33812.1.7 经济性 33812.1.8 易于启动 33912.1.9 亚马云及其镜像 33912.2 启用多个AMI实例 34012.2.1 实例 34012.2.2 AMI 34012.2.3 区域和可用区 34012.2.4 区域和可用区概念 34112.2.5 区域 34112.2.6 可用区 34112.2.7 可用区域 34212.2.8 区域和端点 34212.2.9 实例类型 34312.2.10 Amazon EC2和亚马逊虚拟私有云 34312.3 AWS Lambda 34412.4 Amazon S3简介 34512.4.1 Amazon S3功能 34512.4.2 全面的安全和协从能力 34612.4.3 就地查询 34612.4.4 灵活的管理机制 34612.4.5 *受支持的平台以及*大的生态系统 34712.4.6 简单、方便的数据传输机制 34712.4.7 备份和恢复 34712.4.8 数据存档 34712.4.9 数据湖和数据分析 34812.4.10 混合云存储 34812.4.11 原生云应用程序数据 34812.4.12 灾难恢复 34812.5 Amazon DynamoDB 34912.6 Amazon Kinesis Data Streams 34912.6.1 加速日志和数据提要的输入和处理 35012.6.2 实时度量和报告机制 35012.6.3 实时数据分析 35012.6.4 复杂的数据流处理 35012.6.5 Kinesis Data Streams的优点 35012.7 AWS Glue 35112.8 Amazon EMR 35212.9 本章小结 363

封面

HADOOP大数据分析实战

书名:HADOOP大数据分析实战

作者:[美] 斯里达尔?奥拉 著 李垚 译

页数:363

定价:¥129.0

出版社:清华大学出版社

出版日期:2018-07-01

ISBN:9787302527893

PDF电子书大小:137MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注