机械工业出版社HADOOP大数据挖掘从入门到进阶实战(视频教学版)

本书特色

[

本书采用“理论 实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。

]

内容简介

[

本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。

]

目录

目录前言第1章 集群及开发环境搭建11.1 环境准备11.1.1 基础软件下载11.1.2 准备Linux操作系统21.2 安装Hadoop41.2.1 基础环境配置41.2.2 Zookeeper部署71.2.3 Hadoop部署91.2.4 效果验证211.2.5 集群架构详解241.3 Hadoop版Hello World251.3.1 Hadoop Shell介绍251.3.2 WordCount初体验271.4 开发环境281.4.1 搭建本地开发环境281.4.2 运行及调试预览311.5 小结34第2章 实战:快速构建一个Hadoop项目并线上运行352.1 构建一个简单的项目工程352.1.1 构建Java Project结构工程352.1.2 构建Maven结构工程362.2 操作分布式文件系统(HDFS)392.2.1 基本的应用接口操作392.2.2 在高可用平台上的使用方法422.3 利用IDE提交MapReduce作业432.3.1 在单点上的操作432.3.2 在高可用平台上的操作462.4 编译应用程序并打包512.4.1 编译Java Project工程并打包512.4.2 编译Maven工程并打包552.5 部署与调度582.5.1 部署应用582.5.2 调度任务592.6 小结60第3章 Hadoop套件实战613.1 Sqoop——数据传输工具613.1.1 背景概述613.1.2 安装及基本使用623.1.3 实战:在关系型数据库与分布式文件系统之间传输数据643.2 Flume——日志收集工具663.2.1 背景概述673.2.2 安装与基本使用673.2.3 实战:收集系统日志并上传到分布式文件系统(HDFS)上723.3 HBase——分布式数据库743.3.1 背景概述743.3.2 存储架构介绍753.3.3 安装与基本使用753.3.4 实战:对HBase业务表进行增、删、改、查操作793.4 Zeppelin——数据集分析工具853.4.1 背景概述853.4.2 安装与基本使用853.4.3 实战:使用解释器操作不同的数据处理引擎883.5 Drill——低延时SQL查询引擎923.5.1 背景概述933.5.2 安装与基本使用933.5.3 实战:对分布式文件系统(HDFS)使用SQL进行查询953.5.4 实战:使用SQL查询HBase数据库993.5.5 实战:对数据仓库(Hive)使用类实时统计、查询操作1013.6 Spark——实时流数据计算1043.6.1 背景概述1043.6.2 安装部署及使用1053.6.3 实战:对接Kafka消息数据,消费、计算及落地1083.7 小结114第4章 Hive编程——使用SQL提交MapReduce任务到Hadoop集群1154.1 环境准备与Hive初识1154.1.1 背景介绍1154.1.2 基础环境准备1164.1.3 Hive结构初识1164.1.4 Hive与关系型数据库(RDBMS)1184.2 安装与配置Hive1184.2.1 Hive集群基础架构1194.2.2 利用HAProxy实现Hive Server负载均衡1204.2.3 安装分布式Hive集群1234.3 可编程方式1264.3.1 数据类型1264.3.2 存储格式1284.3.3 基础命令1294.3.4 Java编程语言操作数据仓库(Hive)1314.3.5 实践Hive Streaming1344.4 运维和监控1384.4.1 基础命令1384.4.2 监控工具Hive Cube1404.5 小结143第5章 游戏玩家的用户行为分析——特征提取1445.1 项目应用概述1445.1.1 场景介绍1445.1.2 平台架构与数据采集1455.1.3 准备系统环境和软件1475.2 分析与设计1485.2.1 整体分析1485.2.2 指标与数据源分析1495.2.3 整体设计1515.3 技术选型1535.3.1 套件选取简述1545.3.2 套件使用简述1545.4 编码实践1575.4.1 实现代码1575.4.2 统计结果处理1635.4.3 应用调度1695.5 小结174第6章 Hadoop平台管理与维护1756.1 Hadoop分布式文件系统(HDFS)1756.1.1 HDFS特性1756.1.2 基础命令详解1766.1.3 解读NameNode Standby1796.2 Hadoop平台监控1826.2.1 Hadoop日志1836.2.2 常用分布式监控工具1876.3 平台维护1966.3.1 安全模式1966.3.2 节点管理1986.3.3 HDFS快照2006.4 小结203第7章 Hadoop异常处理解决方案2047.1 定位异常2047.1.1 跟踪日志2047.1.2 分析异常信息2087.1.3 阅读开发业务代码2097.2 解决问题的方式2107.2.1 搜索关键字2117.2.2 查看Hadoop JIRA2127.2.3 阅读相关源码2137.3 实战案例分析2167.3.1 案例分析1:启动HBase失败2167.3.2 案例分析2:HBase表查询失败2197.3.3 案例分析3:Spark的临时数据不自动清理2227.4 小结223第8章 初识Hadoop核心源码2248.1 基础准备与源码编译2248.1.1 准备环境2248.1.2 加载源码2288.1.3 编译源码2308.2 初识Hadoop 22338.2.1 Hadoop的起源2338.2.2 Hadoop 2源码结构图2348.2.3 Hadoop模块包2358.3 MapReduce框架剖析2368.3.1 **代MapReduce框架2368.3.2 第二代MapReduce框架2388.3.3 两代MapReduce框架的区别2398.3.4 第二代MapReduce框架的重构思路2408.4 序列化2418.4.1 序列化的由来2428.4.2 Hadoop序列化2438.4.3 Writable实现类2458.5 小结247第9章 Hadoop通信机制和内部协议2489.1 Hadoop RPC概述2489.1.1 通信模型2489.1.2 Hadoop RPC特点2509.2 Hadoop R

封面

机械工业出版社HADOOP大数据挖掘从入门到进阶实战(视频教学版)

书名:机械工业出版社HADOOP大数据挖掘从入门到进阶实战(视频教学版)

作者:编者:邓杰

页数:402

定价:¥99.0

出版社:机械工业出版社

出版日期:2018-06-01

ISBN:9787111600107

PDF电子书大小:111MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注