Hadoop大数据实战权威指南

本书特色

[

大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,*篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就*的部分销售数据应用大数据进行处理分析。

]

作者简介

[

黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,教育部计算机科学与技术专业教学指导委员会”物联网工程专业教学研究专家组”成员。

]

目录

目 录**篇 大数据的基本概念和技术第1章 绪论 31.1 时代背景 31.1.1 全球大数据浪潮 31.1.2 我国的大数据国家战略 51.2 大数据的概念 71.2.1 概念 71.2.2 特征 81.3 技术支撑体系 91.3.1 概览 91.3.2 大数据采集层 91.3.3 大数据存储层 101.3.4 大数据分析(处理与服务)层 111.3.5 大数据应用层 111.3.6 垂直视图 131.4 大数据人才及其能力要求 141.4.1 首席数据官 141.4.2 数据科学家(数据分析师) 151.4.3 大数据开发工程师 161.4.4 大数据运维工程师 171.5 本章小结 17第2章 Hadoop大数据关键技术 192.1 Hadoop生态系统 192.1.1 架构的基本理论 192.1.2 主要组件及其关系 212.2 数据采集 242.2.1 结构化数据采集工具 242.2.2 日志文件采集工具与技术 252.3 大数据存储技术 292.3.1 相关概念 292.3.2 分布式文件存储系统 342.3.3 数据库与数据仓库 382.4 分布式计算框架 432.4.1 离线计算框架 432.4.2 实时流计算平台 502.5 数据分析平台与工具 572.5.1 面向大数据的数据挖掘与分析工具 572.5.2 机器学习 612.6 本章小结 66第二篇 Hadoop大数据平台搭建与基本应用第3章 Linux操作系统与集群搭建 693.1 Linux操作系统 693.1.1 概述 693.1.2 特点 703.1.3 Linux的组成 723.2 Linux安装与集群搭建 753.2.1 安装VMware Workstation 753.2.2 在VMware上安装Linux(CentOS7) 793.3 集群的配置 913.3.1 设置主机名 913.3.2 网络设置 933.3.3 关闭防火墙 983.3.4 安装JDK 993.3.5 免密钥登录配置 1023.4 Linux基本命令 1053.5 本章小结 112第4章 HDFS安装与基本应用 1134.1 HDFS概述 1134.1.1 特点 1134.1.2 主要组件与架构 1144.2 HDFS架构分析 1144.2.1 数据块 1144.2.2 NameNode 1154.2.3 DataNode 1164.2.4 SecondaryNameNode 1174.2.5 数据备份 1174.2.6 通信协议 1184.2.7 可靠性保证 1184.3 文件操作过程分析 1194.3.1 读文件 1194.3.2 写文件 1204.3.3 删除文件 1224.4 Hadoop HDFS安装与配置 1224.4.1 解压Hadoop安装包 1224.4.2 配置Hadoop环境变量 1234.4.3 配置Yarn环境变量 1244.4.4 配置核心组件文件 1254.4.5 配置文件系统 1254.4.6 配置yarn-site.xml文件 1264.4.7 配置MapReduce计算框架文件 1284.4.8 配置Master的slaves文件 1294.4.9 复制Master上的Hadoop到Slave节点 1294.5 Hadoop集群的启动 1304.5.1 配置操作系统环境变量 1304.5.2 创建Hadoop数据目录 1314.5.3 格式化文件系统 1324.5.4 启动和关闭Hadoop 1334.5.5 验证Hadoop是否启动成功 1334.6 Hadoop集群的基本应用 1364.6.1 HDFS基本命令 1364.6.2 在Hadoop集群中运行程序 1394.7 本章小结 141第5章 MapReduce与Yarn 1435.1 MapReduce程序的概念 1435.1.1 基本编程模型 1435.1.2 计算过程分析 1445.2 深入理解Yarn 1475.2.1 Yarn的基本架构 1475.2.2 Yarn的工作流程 1515.3 在Linux平台安装Eclipse 1525.3.1 Eclipse简介 1535.3.2 安装并启动Eclipse 1545.4 开发MapReduce程序的基本方法 1555.4.1 为Eclipse安装Hadoop插件 1565.4.2 WordCount:**个MapReduce程序 1605.5 本章小结 175第6章 Hive和HBase的安装与应用 1776.1 在CentOS7下安装MySQL 1776.1.1 下载或复制MySQL安装包 1776.1.2 执行安装命令 1786.1.3 启动MySQL 1796.1.4 登录MySQL 1796.1.5 使用MySQL 1816.1.6 问题与解决办法 1826.2 Hive安装与应用 1836.2.1 下载并解压Hive安装包 1836.2.2 配置Hive 1846.2.3 启动并验证Hive 1876.2.4 Hive的基本应用 1896.3 ZooKeeper集群安装 1906.3.1 ZooKeeper简介 1906.3.2 安装ZooKeeper 1916.3.3 配置ZooKeeper 1916.3.4 启动和测试 1936.4 HBase的安装与应用 1956.4.1 解压并安装HBase 1956.4.2 配置HBase 1966.4.3 启动并验证HBase 1996.4.4 HBase的基本应用 2006.4.5 应用HBase中常见问题及其解决办法 2036.5 本章小结 204第7章 Sqoop和Kafka的安装与应用 2057.1 安装部署Sqoop 2057.1.1 下载或复制Sqoop安装包 2057.1.2 解压并安装Sqoop 2067.1.3 配置Sqoop 2067.1.4 启动并验证Sqoop 2087.1.5 测试Sqoop与MySQL的连接 2097.2 安装部署Kafka集群 2117.2.1 下载或复制Kafka安装包 2117.2.2 解压缩Kafka安装包 2117.2.3 配置Kafka集群 2117.2.4 Kafka的初步应用 2137.3 本章小结 218第8章 Spark集群安装与开发环境配置 2198.1 深入理解Spark 2198.1.1 Spark系统架构 2198.1.2 关键概念 2218.2 安装与配置Scala 2248.2.1 下载Scala安装包 2258.2.2 安装Scala 2258.2.3 启动并应用Scala 2268.3 Spark集群的安装与配置 2268.3.1 安装模式 2268.3.2 Spark的安装 2278.3.3 启动并验证Spark 2308.3.4 几点说明 2348.4 开发环境安装与配置 2368.4.1 IDEA简介 2368.4.2 IDEA的安装 2368.4.3 IDEA的配置 2388.5 本章小结 243第9章 Spark应用基础 2459.1 Spark程序的运行模式 2459.1.1 Spark on Yarn-cluster 2459.1.2 Spark on Yarn-client 2469.2 Spark应用设计 2479.2.1 分布式估算圆周率 2489.2.2 基于Spark MLlib的贷款风险预测 2659.3 本章小结 285第三篇 数据处理与项目开发术第10章 交互式数据处理 28910.1 数据预处理 28910.1.1 查看数据 28910.1.2 数据扩展 29110.1.3 数据过滤 29210.1.4 数据上传 29310.2 创建数据仓库 29410.2.1 创建Hive数据仓库的基本命令 29410.2.2 创建Hive分区表 29610.3 数据分析 29910.3.1 基本统计 29910.3.2 用户行为分析 30110.3.3 实时数据 30310.4 本章小结 304第11章 协同过滤推荐系统 30511.1 推荐算法概述 30511.1.1 基于人口统计学的推荐 30511.1.2 基于内容的推荐 30611.1.3 协同过滤推荐 30711.2 协同过滤推荐算法分析 30811.2.1 基于用户的协同过滤推荐 30811.2.2 基于物品的协同过滤推荐 31011.3 Spark MLlib推荐算法应用 31211.3.1 ALS算法原理 31211.3.2 ALS的应用设计 31511.4 本章小结 329第12章 销售数据分析系统 33112.1 数据采集 33112.1.1 在Windows下安装JDK 33112.1.2 在Windows下安装Eclipse 33412.1.3 将WebCollector项目导入Eclipse 33512.1.4 在Windows下安装MySQL 33612.1.5 连接JDBC 33912.1.6 运行爬虫程序 34012.2 在HBase集群上准备数据 34212.2.1 将数据导入到MySQL 34212.2.2 将MySQL表中的数据导入到HBase表中 34412.3 安装Phoenix中间件 34712.3.1 Phoenix架构 34712.3.2 解压安装Phoenix 34812.3.3 Phoenix环境配置 34912.3.4 使用Phoenix 35012.4 基于Web的前端开发 35312.4.1 将Web前端项目导入Eclipse 35312.4.2 安装Tomcat 35512.4.3 在Eclipse中配置Tomcat 35512.4.4 在Web浏览器中查看执行结果 35912.5 本章小结 361

封面

Hadoop大数据实战权威指南

书名:Hadoop大数据实战权威指南

作者:黄东军

页数:380

定价:¥68.0

出版社:电子工业出版社

出版日期:2017-07-01

ISBN:9787121318214

PDF电子书大小:97MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注