经典原版书库SPARK数据分析:基于PYTHON语言(英文版)/(澳)杰夫瑞.艾文

本书特色

[

本书重点关注Spark项目的基本知识,从Spark核心开始,然后拓展到各种Spark扩展、Spark相关项目、Spark子项目,以及Spark所处的丰富的生态系统里各种别的开源技术,比如Hadoop、Kafka、Cassandra等。

]

内容简介

[

本书重点关注Spark项目的基本知识,从Spark核心开始,然后拓展到各种Spark扩展、Spark相关项目、Spark子项目,以及Spark所处的丰富的生态系统里各种别的开源技术,比如Hadoop、Kafka、Cassandra等。

]

目录

**部分 Spark基础第1章 大数据、Hadoop、Spark介绍31.1 大数据、分布式计算、Hadoop简介31.1.1 大数据与Hadoop简史41.1.2 Hadoop详解51.2 Apache Spark简介111.2.1 Apache Spark背景111.2.2 Spark的用途121.2.3 Spark编程接口121.2.4 Spark程序的提交类型121.2.5 Spark应用程序的输入输出类型141.2.6 Spark中的RDD141.2.7 Spark与Hadoop141.3 Python函数式编程151.3.1 Python函数式编程用到的数据结构151.3.2 Python对象序列化181.3.3 Python函数式编程基础211.4 本章小结23第2章 部署Spark252.1 Spark部署模式252.1.1 本地模式262.1.2 Spark独立集群262.1.3 基于YARN运行Spark272.1.4 基于Mesos运行Spark282.2 准备安装Spark282.3 获取Spark292.4 在Linux或Mac OS X上安装Spark302.5 在Windows上安装Spark322.6 探索Spark安装目录342.7 部署多节点的Spark独立集群352.8 在云上部署Spark372.8.1 AWS372.8.2 GCP392.8.3 Databricks402.9 本章小结41第3章 理解Spark集群架构433.1 Spark应用中的术语433.1.1 Spark驱动器443.1.2 Spark工作节点与执行器473.1.3 Spark主进程与集群管理器493.2 使用独立集群的Spark应用513.3 在YARN上运行Spark应用的部署模式513.3.1 客户端模式523.3.2 集群模式533.3.3 回顾本地模式543.4 本章小结55第4章 Spark编程基础574.1 RDD简介574.2 加载数据到RDD594.2.1 从文件创建RDD594.2.2 从文本文件创建RDD的方法614.2.3 从对象文件创建RDD644.2.4 从数据源创建RDD644.2.5 从JSON文件创建RDD674.2.6 通过编程创建RDD694.3 RDD操作704.3.1 RDD核心概念704.3.2 基本的RDD转化操作754.3.3 基本的RDD行动操作794.3.4 键值对RDD的转化操作834.3.5 MapReduce与单词计数练习904.3.6 连接操作934.3.7 在Spark中连接数据集984.3.8 集合操作1014.3.9 数值型RDD的操作1034.4 本章小结106第二部分 基础拓展第5章 Spark核心API高级编程1095.1 Spark中的共享变量1095.1.1 广播变量1105.1.2 累加器1145.1.3 练习:使用广播变量和累加器1175.2 Spark中的数据分区1185.2.1 分区概述1185.2.2 掌控分区1195.2.3 重分区函数1215.2.4 针对分区的API方法1235.3 RDD的存储选项1255.3.1 回顾RDD谱系1255.3.2 RDD存储选项1265.3.3 RDD缓存1295.3.4 持久化RDD1295.3.5 选择何时持久化或缓存RDD1325.3.6 保存RDD检查点1325.3.7 练习:保存RDD检查点1345.4 使用外部程序处理RDD1365.5 使用Spark进行数据采样1375.6 理解Spark应用与集群配置1395.6.1 Spark环境变量1395.6.2 Spark配置属性1435.7 Spark优化1465.7.1 早过滤,勤过滤1475.7.2 优化满足结合律的操作1475.7.3 理解函数和闭包的影响1495.7.4 收集数据的注意事项1505.7.5 使用配置参数调节和优化应用1505.7.6 避免低效的分区1515.7.7  应用性能问题诊断1535.8 本章小结157第6章 使用Spark进行SQL与NoSQL编程1596.1 Spark SQL简介1596.1.1 Hive简介1606.1.2 Spark SQL架构1646.1.3 DataFrame入门1666.1.4 使用DataFrame1776.1.5 DataFrame缓存、持久化与重新分区1856.1.6 保存DataFrame输出1866.1.7 访问Spark SQL1896.1.8 练习:使用Spark SQL1926.2 在Spark中使用NoSQL系统1936.2.1 NoSQL简介1946.2.2 在Spark中使用HBase1956.2.3 练习:在Spark中使用HBase1986.2.4 在Spark中使用Cassandra2006.2.5 在Spark中使用DynamoDB2026.2.6 其他NoSQL平台2046.3 本章小结204第7章 使用Spark处理流数据与消息2077.1 Spark Streaming简介2077.1.1 Spark Streaming架构2087.1.2 DStream简介2097.1.3 练习:Spark Streaming入门2167.1.4 状态操作2177.1.5 滑动窗口操作2197.2 结构化流处理2217.2.1 结构化流处理数据源2227.2.2 结构化流处理的数据输出池2237.2.3 输出模式2247.2.4 结构化流处理操作2257.3 在Spark中使用消息系统2267.3.1 Apache Kafka2277.3.2 练习:在Spark中使用Kafka2327.3.3 亚马逊Kinesis2357.4 本章小结238第8章 Spark数据科学与机器学习简介2418.1 Spark与R语言2418.1.1 R语言简介2428.1.2 通过R语言使用Spark2488.1.3 练习:在RStudio中使用SparkR2558.2 Spark机器学习2578.2.1 机器学习基础2578.2.2 使用Spark MLlib进行机器学习2608.2.3 练习:使用Spark MLlib实现推荐器2658.2.4 使用Spark ML进行机器学习2698.3 利用笔记本使用Spark2738.3.1 利用Jupyter(IPython)笔记本使用Spark2738.3.2 利用Apache Zeppelin笔记本使用Spark2768.4 本章小结277ContentsI: Spark Foundations 1 Introducing Big Data, Hadoop, and Spark 3Introduction to

封面

经典原版书库SPARK数据分析:基于PYTHON语言(英文版)/(澳)杰夫瑞.艾文

书名:经典原版书库SPARK数据分析:基于PYTHON语言(英文版)/(澳)杰夫瑞.艾文

作者:[澳]杰夫瑞·艾文(Jeffrey Av

页数:277

定价:¥79.0

出版社:机械工业出版社

出版日期:2019-03-01

ISBN:9787111620037

PDF电子书大小:145MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注