从零开始学HADOOP大数据分析(视频教学版)_PDF下载[100MB-百度云]温春水毕洁馨

本书特色

[

资深专家12年一线开发经验总结，业内7位大咖点评力荐
采用“理论讲解→环境搭建→项目案例实战”的科学编排体系
赠送20小时（118段）高质量、高价值大数据核心技术配套教学视频
全面涵盖Hadoop的14个基础组件：HDFS、ZooKeeper 、MapReduce、YARN、Hive、HBase、Flume、Sqoop、Kafka、Redis、Spark及Mahout等
详解30个中小案例及4个项目实战案例，提高读者的实际动手能力
赠送教学PPT，方便教学与学习
7位重量级大咖力荐：
见知集团董事长张之戈
中软国际CTO 徐建民资深专家12年一线开发经验总结，业内7位大咖点评力荐
采用“理论讲解→环境搭建→项目案例实战”的科学编排体系
赠送20小时（118段）高质量、高价值大数据核心技术配套教学视频
全面涵盖Hadoop的14个基础组件：HDFS、ZooKeeper 、MapReduce、YARN、Hive、HBase、Flume、Sqoop、Kafka、Redis、Spark及Mahout等
详解30个中小案例及4个项目实战案例，提高读者的实际动手能力
赠送教学PPT，方便教学与学习
7位重量级大咖力荐：
见知集团董事长张之戈
中软国际CTO 徐建民
慧科集团研究院院长陈滢
微软高级架构师韩亮
51CTO学院总监张宝龙
CDA数据分析师协会理事赵坚毅
大唐网络副总裁张文杰
本书内容速览：
Hadoop基础知识
初识Hadoop
Hadoop的安装与配置
Hadoop分布式文件系统
基于Hadoop 3的HDFS高可用
Hadoop核心技术
Hadoop的分布式协调服务——ZooKeeper
分布式离线计算框架——MapReduce
Hadoop的集群资源管理系统——YARN
Hadoop的数据仓库框架——Hive
大数据快速读写——HBase
海量日志采集工具——Flume
Hadoop和关系型数据库间的数据传输工具——Sqoop
分布式消息队列——Kafka
开源的内存数据库——Redis
Ambari和CDH
快速且通用的集群计算系统——Spark
Hadoop项目案例实战
基于电商产品的大数据业务分析系统实战
用户画像分析实战
基于个性化的视频推荐系统实战
电信离网用户挽留实战
本书超值配套资源：
20小时配套教学视频
案例源代码文件
教学PPT
本书4大实战案例
基于电商产品的大数据业务分析系统实战
用户画像分析实战
基于个性化的视频推荐系统实战
电信离网用户挽留实战

本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习，作者特意为本书录制了20小时同步配套教学视频。
本书共19章，分为3篇。第1篇Hadoop基础知识，涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop 3的HDFS高可用等相关内容；第2篇Hadoop核心技术，涵盖的内容有Hadoop的分布式协调服务——ZooKeeper；分布式离线计算框架——MapReduce；Hadoop的集群资源管理系统——YARN；Hadoop的数据仓库框架——Hive；大数据快速读写——HBase；海量日志采集工具——Flume；Hadoop和关系型数据库间的数据传输工具——Sqoop；分布式消息队列——Kafka；开源内存数据库——Redis；Ambari和CDH；快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战，主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例，以提高读者的大数据项目开发水平。
本书内容全面，实用性强，适合作为Hadoop大数据分析与挖掘的入门读物，也可作为Java程序员的进阶读物。另外，本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言，本书也是一本不可多得的教学用书。

]

内容简介

[

本书针对愿意加入大数据行业的初学者量身定做，以简练风趣的语言介绍了大数据程核心技术及相关案例。内容包括了数据的基本概念、Hadoop的安装与配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis，每个知识点配有可运行的案例，同时结合企业实际案例，让读者能够掌握从大数据环境搭建到大数据核心技术，并且进一步熟悉企业案例的分析及开发过程，从而轻松进入到大数据领域。本书实用性强，很好适合Hadoop大数据分析入门读者阅读，也适合相关院校作为大数据分析与挖掘的教材使用。

]

作者简介

[

温春水毕业于中国人民大学，获硕士学位。历任森途国信新工科研究院院长、大唐网络和三点一刻大数据技术总监，负责大数据技术架构。12年以上的IT从业经验，其中从事IT培训超过5年，直接授课学员超过3万人。受邀为燕山石化和中国石油等企业完成Python及大数据技术等企业内训；受聘面向哈尔滨工业大学、南开大学、天津大学、华南农业大学、山东科技大学、北京交通大学、西安交通大学、天津师范大学和北京航空航天大学等高校的本科生及研究生讲授项目管理、需求分析、软件体系设计和项目开发等课程。

毕洁馨亚信科技高级开发工程师。参与过北京联通看板中心及专线透明化建设，另外还参与过相关公司的门店客流分析平台和分布式网络爬虫等多个项目的开发工作。目前致力于大数据和人工智能方向的前沿技术研究。

]

◆ 目录 ◆（只展示二级目录，三级目录未展示）
第1篇 Hadoop基础知识
第1章初识Hadoop 2
1.1 大数据初探 2
1.2 Hadoop简介 5
1.3 小结 6
第2章 Hadoop的安装与配置 7
2.1 虚拟机的创建 7
2.2 安装Linux系统 10
2.3 配置网络信息 11
2.4 克隆服务器 12
2.5 SSH免密码登录 13
2.6 安装和配置JDK 15
2.7 Hadoop环境变量配置 16
2.8 Hadoop分布式安装 17
2.9 小结 21
第3章 Hadoop分布式文件系统 22
3.1 DFS介绍 22
3.2 HDFS介绍 23
3.3 Hadoop中HDFS的常用命令 30
3.4 HDFS的应用 31
3.5 小结 36
第4章基于Hadoop 3的HDFS高可用 37
4.1 Hadoop 3.x的发展 37
4.2 Hadoop 3 HDFS完全分布式搭建 39
4.3 什么是HDFS高可用 47
4.4 搭建HDFS高可用 50
4.5 小结 58
第2篇 Hadoop核心技术
第5章 Hadoop的分布式协调服务——ZooKeeper 60
5.1 ZooKeeper的核心概念 60
5.2 ZooKeeper的安装与运行 61
5.3 ZooKeeper服务器端的常用命令 63
5.4 客户端连接ZooKeeper的相关操作 64
5.5 使用Java API访问ZooKeeper 67
5.6 小结 73
第6章分布式离线计算框架——MapReduce 74
6.1 MapReduce概述 74
6.3 MapReduce实例 79
6.4 温度排序实例 86
6.5 小结 94
第7章 Hadoop的集群资源管理系统——YARN 95
7.1 为什么要使用YARN 95
7.2 YARN的基本架构 96
7.3 YARN工作流程 97
7.4 YARN搭建 98
7.5 小结 100
第8章 Hadoop的数据仓库框架——Hive 101
8.1 Hive的理论基础 101
8.2 Hive的配置与安装 109
8.3 Hive表的操作 113
8.4 表的分区与分桶 115
8.5 内部表与外部表 118
8.6 内置函数与自定义函数 121
8.7 通过Java访问Hive 124
8.8 Hive优化 125
8.9 小结 127
第9章大数据快速读写——HBase 128
9.1 关于NoSQL 128
9.2 HBase基础 130
9.3 HBase安装 135
9.4 HBase的Shell操作 138
9.5 Java API访问HBase实例 139
9.6 小结 142
第10章海量日志采集工具——Flume 143
10.1 什么是Flume 143
10.2 Flume的特点 143
10.3 Flume架构 144
10.4 Flume的主要组件 144
10.5 Flume安装 148
10.6 Flume应用典型实例 149
10.7 通过exec命令实现数据收集 153
10.8 小结 158
第11章 Hadoop和关系型数据库间的数据传输工具——Sqoop 159
11.1 什么是Sqoop 159
11.2 Sqoop工作机制 159
11.3 Sqoop的安装与配置 161
11.4 Sqoop数据导入实例 163
11.5 Sqoop数据导出实例 172
11.6 小结 173
第12章分布式消息队列——Kafka 174
12.1 什么是Kafka 174
12.2 Kafka的架构和主要组件 174
12.3 Kafka的下载与集群安装 177
12.4 Kafka应用实例 181
12.5 小结 184
第13章开源的内存数据库——Redis 185
13.1 Redis简介 185
13.2 Redis安装与配置 186
13.3 客户端登录 187
13.4 Redis的数据类型 188
13.5 小结 197
第14章 Ambari和CDH 198
14.1 Ambari的安装与集群管理 198
14.2 CDH的安装与集群管理 216
14.3 小结 227

第15章快速且通用的集群计算系统——Spark 228
15.1 Spark基础知识 228
15.2 弹性分布式数据集RDD 230
15.3 Spark作业运行机制 232
15.4 运行在YARN上的Spark 233
15.5 Spark集群安装 234
15.6 Spark实例详解 241
15.7 小结 246
第3篇 Hadoop项目案例实战
第16章基于电商产品的大数据业务分析系统实战 248
16.1 项目背景、实现目标和项目需求 248
16.2 功能与流程 249
16.3 数据收集 252
16.4 数据预处理 257
16.5 数据分析——创建外部表 261
16.6 建立模型 264
16.7 数据可视化 268
16.8 小结 272
第17章用户画像分析实战 273
17.1 项目背景 273
17.2 项目目标与项目开发过程 274
17.3 核心代码解读 277
17.4 项目部署 293
17.5 小结 294

第18章基于个性化的视频推荐系统实战 295
18.1 项目背景 295
18.2 项目目标与推荐系统简介 295
18.3 推荐系统项目架构 302
18.4 推荐系统模型构建 303
18.5 核心代码 304
18.6 小结 314
第19章电信离网用户挽留实战 315
19.1 商业理解 315
19.2 数据理解 316
19.3 数据整理 318
19.4 数据清洗 319
19.5 数据转换 324
19.6 建模 327
19.7 评估 335
19.8 部署 338
19.9 用户离网案例代码详解 339
19.10 小结 346

封面

从零开始学HADOOP大数据分析(视频教学版)

书名:从零开始学HADOOP大数据分析(视频教学版)

作者:温春水毕洁馨

页数:346

定价:¥89.0

出版社:机械工业出版社

出版日期:2018-09-01

ISBN:9787111619314

PDF电子书大小:100MB 高清扫描完整版

百度云下载：http://www.chendianrong.com/pdf

从零开始学HADOOP大数据分析(视频教学版)

相关资料

本书特色

内容简介

作者简介

目录

封面

发表评论