Hadoop与大数据挖掘_PDF下载[32MB-百度云]张良均

本书特色

[

这是一本适合教学和零基础自学的Hadoop与大数据挖掘的教程，即便你完全没有Hadoop编程基础和大数据挖掘基础，根据本书中的理论知识和上机实践，也能迅速掌握如何使用Hadoop进行大数据挖掘。全书主要分为两篇：基础篇（1-7章），首先从宏观上介绍了大数据相关概念和技术，然后逐一对Hadoop、Hive、HBase、Pig、Spark、Oozie等一系列大数据技术的概念、原理、架构，以及企业应用方法进行了详细介绍，同时配有大量的案例。掌握了这些内容，就具备了大数据技术的基础；挖掘实战篇（第8章），主要是一个企业级大数据应用项目——电子商务智能推荐系统。通过分析应用背景、构建系统，使读者了解针对系统的每一层应用使用什么大数据技术来解决问题。涉及的流程有数据采集、数据预处理、模型构建等，在每一个流程中会进行大数据相关技术实践，运用实际数据来进行分析，使读者切身感受到利用大数据技术解决问题的魅力。

]

Contents 目录前言**篇　基础篇第1章　浅谈大数据21.1　大数据概述31.2　大数据平台41.3　本章小结5第2章　大数据存储与运算利器—Hadoop62.1　Hadoop概述62.1.1　Hadoop简介62.1.2　Hadoop存储—HDFS82.1.3　Hadoop计算—MapReduce112.1.4　Hadoop资源管理—YARN132.1.5　Hadoop生态系统142.2　Hadoop配置及IDE配置172.2.1　准备工作172.2.2　环境配置182.2.3　集群启动关闭与监控242.2.4　动手实践：一键式Hadoop集群启动关闭252.2.5　动手实践：Hadoop IDE配置262.3　Hadoop集群命令282.3.1　HDFS常用命令hdfs dfs302.3.2　动手实践：hdfs dfs命令实战312.3.3　MapReduce常用命令mapred job322.3.4　YARN常用命令yarn jar322.3.5　动手实践：运行MapReduce任务332.4　Hadoop编程开发332.4.1　HDFS Java API操作332.4.2　MapReduce原理352.4.3　动手实践：编写Word Count程序并打包运行442.4.4　MapReduce组件分析与编程实践462.5　K-Means算法原理及HadoopMapReduce实现532.5.1　K-Means算法原理532.5.2　动手实践：K-Means算法实现552.5.3　Hadoop K-Means算法实现思路552.5.4　Hadoop K-Means编程实现572.6　TF-IDF算法原理及HadoopMapReduce实现672.6.1　TF-IDF算法原理672.6.2　Hadoop TF-IDF编程思路672.6.3　Hadoop TF-IDF编程实现682.7　本章小结79第3章　大数据查询—Hive813.1　Hive概述813.1.1　Hive体系架构823.1.2　Hive数据类型863.1.3　Hive安装873.1.4　动手实践：Hive安装配置913.1.5　动手实践：HiveQL基础—SQL913.2　HiveQL语句933.2.1　数据库操作943.2.2　Hive表定义943.2.3　数据导入1003.2.4　数据导出1033.2.5　HiveQL查询1043.3　动手实践：基于Hive的学生信息查询1083.4　基于Hive的航空公司客户价值数据预处理及分析1093.4.1　背景与挖掘目标1093.4.2　分析方法与过程1113.5　本章小结115第4章　大数据快速读写—HBase1164.1　HBase概述1164.2　配置HBase集群1184.2.1　Zookeeper简介及配置1184.2.2　配置HBase1214.2.3　动手实践：HBase安装及运行1224.2.4　动手实践：ZooKeeper获取HBase状态1224.3　HBase原理与架构组件1234.3.1　HBase架构与组件1234.3.2　HBase数据模型1274.3.3　读取/写入HBase数据1284.3.4　RowKey设计原则1294.3.5　动手实践：HBase数据模型验证1314.4　HBase Shell操作1324.4.1　HBase常用Shell命令1324.4.2　动手实践：HBase Shell操作1364.5　Java API &MapReduce与HBase交互1374.5.1　搭建HBase开发环境1374.5.2　使用Java API操作HBase表1444.5.3　动手实践：HBase Java API使用1474.5.4　MapReduce与HBase交互1474.5.5　动手实践：HBase表导入导出1504.6　基于HBase的冠字号查询系统1514.6.1　案例背景1514.6.2　功能指标1514.6.3　系统设计1524.6.4　动手实践：构建基于HBase的冠字号查询系统1624.7　本章小结175第5章　大数据处理—Pig1765.1　Pig概述1765.1.1　Pig Latin简介1775.1.2　Pig数据类型1795.1.3　Pig与Hive比较1795.2　配置运行Pig1805.2.1　Pig配置1815.2.2　Pig运行模式1815.3　常用Pig Latin操作1825.3.1　数据加载1825.3.2　数据存储1845.3.3　Pig参数替换1855.3.4　数据转换1865.4　综合实践1945.4.1　动手实践：访问统计信息数据处理1945.4.2　动手实践：股票交易数据处理1955.5　本章小结196第6章　大数据快速运算与挖掘—Spark1976.1　Spark概述1976.2　Spark安装集群1996.2.1　3种运行模式1996.2.2　动手实践：配置Spark独立集群1996.2.3　3种运行模式实例2016.2.4　动手实践：Spark Streaming实时日志统计2056.2.5　动手实践：Spark开发环境—Intellij IDEA配置2076.3　Spark架构与核心原理2126.3.1　Spark架构2126.3.2　RDD原理2136.3.3　深入理解Spark核心原理2156.4　Spark编程技巧2186.4.1　Scala基础2186.4.2　Spark基础编程2186.5　如何学习Spark MLlib2256.5.1　确定应用2276.5.2　ALS算法直观描述2286.5.3　编程实现2296.5.4　问题解决及模型调优2336.6　动手实践：基于Spark ALS电影推荐系统2346.6.1　动手实践：生成算法包2356.6.2　动手实践：完善推荐系统2396.7　本章小结250第7章　大数据工作流—Oozie2527.1　Oozie简介2527.2　编译配置并运行Oozie2537.2.1　动手实践：编译Oozie2537.2.2　动手实践：Oozie Server/client配置2547.3　Oozie WorkFlow实践2577.3.1　定义及提交工作流2577.3.2　动手实践：MapReduce Work-Flow定义及调度2607.3.3　动手实践：Pig WorkFlow定义及调度2637.3.4　动手实践：Hive WorkFlow定义及调度2657.3.5　动手实践：Spark WorkFlow定义及调度2677.3.6　动手实践：Spark On Yarn定义及调度2687.4　Oozie Coordinator实践2707.4.1　动手实践：基于时间调度2707.4

封面

Hadoop与大数据挖掘

书名:Hadoop与大数据挖掘

作者:张良均

页数:322

定价:¥69.0

出版社:机械工业出版社

出版日期:2017-05-01

ISBN:9787111567875

PDF电子书大小:32MB 高清扫描完整版

百度云下载：http://www.chendianrong.com/pdf

Hadoop与大数据挖掘

本书特色

目录

封面

发表评论