Hadoop与大数据挖掘

本书特色

[

这是一本适合教学和零基础自学的Hadoop与大数据挖掘的教程,即便你完全没有Hadoop编程基础和大数据挖掘基础,根据本书中的理论知识和上机实践,也能迅速掌握如何使用Hadoop进行大数据挖掘。全书主要分为两篇:基础篇(1-7章),首先从宏观上介绍了大数据相关概念和技术,然后逐一对Hadoop、Hive、HBase、Pig、Spark、Oozie等一系列大数据技术的概念、原理、架构,以及企业应用方法进行了详细介绍,同时配有大量的案例。掌握了这些内容,就具备了大数据技术的基础;挖掘实战篇(第8章),主要是一个企业级大数据应用项目——电子商务智能推荐系统。通过分析应用背景、构建系统,使读者了解针对系统的每一层应用使用什么大数据技术来解决问题。涉及的流程有数据采集、数据预处理、模型构建等,在每一个流程中会进行大数据相关技术实践,运用实际数据来进行分析,使读者切身感受到利用大数据技术解决问题的魅力。

]

目录

Contents 目录前言**篇 基础篇第1章 浅谈大数据21.1 大数据概述31.2 大数据平台41.3 本章小结5第2章 大数据存储与运算利器—Hadoop62.1 Hadoop概述62.1.1 Hadoop简介62.1.2 Hadoop存储—HDFS82.1.3 Hadoop计算—MapReduce112.1.4 Hadoop资源管理—YARN132.1.5 Hadoop生态系统142.2 Hadoop配置及IDE配置172.2.1 准备工作172.2.2 环境配置182.2.3 集群启动关闭与监控242.2.4 动手实践:一键式Hadoop集群启动关闭252.2.5 动手实践:Hadoop IDE配置262.3 Hadoop集群命令282.3.1 HDFS常用命令hdfs dfs302.3.2 动手实践:hdfs dfs命令实战312.3.3 MapReduce常用命令mapred job322.3.4 YARN常用命令yarn jar322.3.5 动手实践:运行MapReduce任务332.4 Hadoop编程开发332.4.1 HDFS Java API操作332.4.2 MapReduce原理352.4.3 动手实践:编写Word Count程序并打包运行442.4.4 MapReduce组件分析与编程实践462.5 K-Means算法原理及HadoopMapReduce实现532.5.1 K-Means算法原理532.5.2 动手实践:K-Means算法实现552.5.3 Hadoop K-Means算法实现思路552.5.4 Hadoop K-Means编程实现572.6 TF-IDF算法原理及HadoopMapReduce实现672.6.1 TF-IDF算法原理672.6.2 Hadoop TF-IDF编程思路672.6.3 Hadoop TF-IDF编程实现682.7 本章小结79第3章 大数据查询—Hive813.1 Hive概述813.1.1 Hive体系架构823.1.2 Hive数据类型863.1.3 Hive安装873.1.4 动手实践:Hive安装配置913.1.5 动手实践:HiveQL基础—SQL913.2 HiveQL语句933.2.1 数据库操作943.2.2 Hive表定义943.2.3 数据导入1003.2.4 数据导出1033.2.5 HiveQL查询1043.3 动手实践:基于Hive的学生信息查询1083.4 基于Hive的航空公司客户价值数据预处理及分析1093.4.1 背景与挖掘目标1093.4.2 分析方法与过程1113.5 本章小结115第4章 大数据快速读写—HBase1164.1 HBase概述1164.2 配置HBase集群1184.2.1 Zookeeper简介及配置1184.2.2 配置HBase1214.2.3 动手实践:HBase安装及运行1224.2.4 动手实践:ZooKeeper获取HBase状态1224.3 HBase原理与架构组件1234.3.1 HBase架构与组件1234.3.2 HBase数据模型1274.3.3 读取/写入HBase数据1284.3.4 RowKey设计原则1294.3.5 动手实践:HBase数据模型验证1314.4 HBase Shell操作1324.4.1 HBase常用Shell命令1324.4.2 动手实践:HBase Shell操作1364.5 Java API &MapReduce与HBase交互1374.5.1 搭建HBase开发环境1374.5.2 使用Java API操作HBase表1444.5.3 动手实践:HBase Java API使用1474.5.4 MapReduce与HBase交互1474.5.5 动手实践:HBase表导入导出1504.6 基于HBase的冠字号查询系统1514.6.1 案例背景1514.6.2 功能指标1514.6.3 系统设计1524.6.4 动手实践:构建基于HBase的冠字号查询系统1624.7 本章小结175第5章 大数据处理—Pig1765.1 Pig概述1765.1.1 Pig Latin简介1775.1.2 Pig数据类型1795.1.3 Pig与Hive比较1795.2 配置运行Pig1805.2.1 Pig配置1815.2.2 Pig运行模式1815.3 常用Pig Latin操作1825.3.1 数据加载1825.3.2 数据存储1845.3.3 Pig参数替换1855.3.4 数据转换1865.4 综合实践1945.4.1 动手实践:访问统计信息数据处理1945.4.2 动手实践:股票交易数据处理1955.5 本章小结196第6章 大数据快速运算与挖掘—Spark1976.1 Spark概述1976.2 Spark安装集群1996.2.1 3种运行模式1996.2.2 动手实践:配置Spark独立集群1996.2.3 3种运行模式实例2016.2.4 动手实践:Spark Streaming实时日志统计2056.2.5 动手实践:Spark开发环境—Intellij IDEA配置2076.3 Spark架构与核心原理2126.3.1 Spark架构2126.3.2 RDD原理2136.3.3 深入理解Spark核心原理2156.4 Spark编程技巧2186.4.1 Scala基础2186.4.2 Spark基础编程2186.5 如何学习Spark MLlib2256.5.1 确定应用2276.5.2 ALS算法直观描述2286.5.3 编程实现2296.5.4 问题解决及模型调优2336.6 动手实践:基于Spark ALS电影推荐系统2346.6.1 动手实践:生成算法包2356.6.2 动手实践:完善推荐系统2396.7 本章小结250第7章 大数据工作流—Oozie2527.1 Oozie简介2527.2 编译配置并运行Oozie2537.2.1 动手实践:编译Oozie2537.2.2 动手实践:Oozie Server/client配置2547.3 Oozie WorkFlow实践2577.3.1 定义及提交工作流2577.3.2 动手实践:MapReduce Work-Flow定义及调度2607.3.3 动手实践:Pig WorkFlow定义及调度2637.3.4 动手实践:Hive WorkFlow定义及调度2657.3.5 动手实践:Spark WorkFlow定义及调度2677.3.6 动手实践:Spark On Yarn定义及调度2687.4 Oozie Coordinator实践2707.4.1 动手实践:基于时间调度2707.4

封面

Hadoop与大数据挖掘

书名:Hadoop与大数据挖掘

作者:张良均

页数:322

定价:¥69.0

出版社:机械工业出版社

出版日期:2017-05-01

ISBN:9787111567875

PDF电子书大小:32MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注