Spark零基础实战

本书特色

[

Spark是业界公认的近几年发展快、受关注度的一体化多元化的大数据计算技术,可以同时满足不同业务场景和不同数据规模的大数据计算的需要。
本书首先通过代码实战的方式对学习Spark前必须掌握的Scala内容进行讲解并结合Spark源码的阅读来帮助读者快速学习Scala函数式编程与面向对象完美结合的编程艺术,接着对Hadoop和Spark集群安装部署以及Spark在不同集成开发环境的开发实战作出了详细的讲解,然后基于大量的实战案例来讲解Spark核心RDD编程并深度解密RDD的密码,并且通过实战的方式详解了TopN在Spark RDD中的实现,为了让读者彻底了解Spark,本书用了大量的篇幅详细解密了Spark的高可用性、内核架构、运行机制等内容。
Spark零基础实战这本书定位于零基础的学员,也可以作为有一定大数据Hadoop经验的从业者以及对大数据非常感兴趣的学生的本Spark入门书籍。

]

内容简介

[

编写内容具有创新点及实用性。
(1)新,基于Spark 1.6.0版本的书籍,
(2)书籍彻底细腻地解析Spark入门所需的Scala语言基础、Spark环境搭建、Spark应用实战,并以此为基础给出进一步的扩展知识;
(3)配备教学视频,方便学习者多媒体方式学习;
(4)全面覆盖各种源码、部署及开发环境的搭建,基于Scala与Java语言双语言给出实战案例及其深入解析。

]

作者简介

[

王家林,DT大数据梦工厂/Spark亚太研究院,DT大数据梦工厂创始人/Spark亚太研究院院长及首席专家,DT 大数据梦工厂创始人和首席专家,Spark 亚太研究院院长和首席专家,移动互联网和大数据技术领域集大成者,多家公司的技术顾问,业界技术培训专家。
大数据技术公益推广人,大数据在线教育世界技术专家,Spark 大数据中国区培训专家。彻底研究了Spark 从0.5.0 到1.6.1 中共22 个版本的Spark 源码,目前致力于开发全球优化的Spark 中国版本。尤其擅长Spark 在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark 生产环境下任意类型(例如Shuffle 和各种内存问题)的Spark 程序的深度性能优化。
从2014 年6 月24 日起,已开启免费的Spark 公开课《决胜大数据时代Spark100 期公益大讲堂》。在2015 年12 月27 日成立DT 大数据梦工厂,开启IMF(Impossible Mission Force)行动,率先在全球开展以Spark 为核心的,免费为社会培养100 万企业级实战高级大数据人才行动计划,截止目前已有数千人参与到这个行动之中。
曾负责某公司的类Hadoop 框架开发工作,是Hadoop 一站式解决方案的提供者,同时也是云计算和分布式大数据处理的较早实践者之一,在实践中用Hadoop 解决不同领域的大数据的高效处理和存储。致力于Android、HTML5、Hadoop 等的软、硬、云整合的一站式解决方案专家。王家林,DT大数据梦工厂/Spark亚太研究院,DT大数据梦工厂创始人/Spark亚太研究院院长及首席专家,DT 大数据梦工厂创始人和首席专家,Spark 亚太研究院院长和首席专家,移动互联网和大数据技术领域集大成者,多家公司的技术顾问,业界技术培训专家。
大数据技术公益推广人,大数据在线教育世界技术专家,Spark 大数据中国区培训专家。彻底研究了Spark 从0.5.0 到1.6.1 中共22 个版本的Spark 源码,目前致力于开发全球优化的Spark 中国版本。尤其擅长Spark 在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark 生产环境下任意类型(例如Shuffle 和各种内存问题)的Spark 程序的深度性能优化。
从2014 年6 月24 日起,已开启免费的Spark 公开课《决胜大数据时代Spark100 期公益大讲堂》。在2015 年12 月27 日成立DT 大数据梦工厂,开启IMF(Impossible Mission Force)行动,率先在全球开展以Spark 为核心的,免费为社会培养100 万企业级实战高级大数据人才行动计划,截止目前已有数千人参与到这个行动之中。
曾负责某公司的类Hadoop 框架开发工作,是Hadoop 一站式解决方案的提供者,同时也是云计算和分布式大数据处理的较早实践者之一,在实践中用Hadoop 解决不同领域的大数据的高效处理和存储。致力于Android、HTML5、Hadoop 等的软、硬、云整合的一站式解决方案专家。
2007 年国内较早从事于Android 系统移植、软硬整合、框架修改、应用程序软件开发以及Android 系统测试和应用软件测试的技术专家。
2015年12月,在电视媒体录制了《大数据的奥秘》,《大数据时代的九大神器》等视频光盘。
? 2016年1月至今,直播培训课程Hadoop,MySQL,Linux,Scala,Java,Spark零基础到高级企业级实战,Spark源码解析及性能优化,JVM性能调优,机器学习从零基础到企业级实战持续中。信息

]

目录

第1章Scala光速入门11.1Scala基础与语法入门实战11.1.1Scala基本数据类型11.1.2Scala变量声明21.1.3算术操作符介绍21.1.4条件语句51.1.5循环61.1.6异常控制81.2Scala中Array、Map等数据结构实战101.2.1定长数组和可变数组101.2.2数组常用算法101.2.3Map映射111.2.4Tuple元组121.2.5List列表12第1章Scala光速入门11.1Scala基础与语法入门实战11.1.1Scala基本数据类型11.1.2Scala变量声明21.1.3算术操作符介绍21.1.4条件语句51.1.5循环61.1.6异常控制81.2Scala中Array、Map等数据结构实战101.2.1定长数组和可变数组101.2.2数组常用算法101.2.3Map映射111.2.4Tuple元组121.2.5List列表121.2.6Set集合141.2.7Scala集合方法大全151.2.8综合案例及Spark源码解析171.3小结18第2章Scala面向对象彻底精通及Spark源码阅读192.1Scala面向对象详解192.1.1Scala中的class、object初介绍192.1.2主构造器与辅助构造器222.1.3类的字段和方法彻底精通232.1.4抽象类、接口的实战详解242.1.5Scala Option类详解262.1.6object的提取器272.1.7Scala的样例类实战详解272.2Scala综合案例及Spark源码解析282.3小结29第3章Scala函数式编程彻底精通及Spark源码阅读303.1函数式编程概述303.2函数定义353.3函数式对象373.4本地函数413.5头等函数423.6函数字面量和占位符433.6.1Scala占位符433.6.2函数字面量433.6.3部分应用函数443.7闭包和Curring463.8高阶函数493.9从Spark源码角度解析Scala函数式编程553.10小结57第4章Scala模式匹配、类型系统彻底精通与Spark源码阅读584.1模式匹配语法584.2模式匹配实战594.2.1模式匹配基础实战594.2.2数组、元祖实战594.2.3Option实战604.2.4提取器604.2.5Scala异常处理与模式匹配614.2.6sealed密封类624.3类型系统624.3.1泛型624.3.2边界634.3.3协变与逆变634.4Spark源码阅读644.5小结65第5章Scala隐式转换等彻底精通及Spark源码阅读665.1隐式转换665.1.1隐式转换的使用条件665.1.2隐式转换实例665.2隐式类685.3隐式参数详解685.4隐式值695.5Spark源码阅读解析695.6小结70第6章并发编程及Spark源码阅读716.1并发编程彻底详解716.1.1actor工作模型716.1.2发送消息726.1.3回复消息746.1.4actor创建746.1.5用上下文context创建actor756.1.6用ActorSystem创建actor766.1.7用匿名类创建actor766.1.8actor生命周期776.1.9终止actor786.1.10actor实战806.2小结82第7章源码编译837.1Windows下源码编译837.1.1下载Spark源码837.1.2Sbt方式847.1.3Maven方式897.1.4需要注意的几个问题907.2Ubuntu下源码编译927.2.1下载Spark源码937.2.2Sbt方式957.2.3Maven方式967.2.4make�瞕istribution.sh脚本方式987.2.5需要注意的几个问题997.3小结100第8章Hadoop分布式集群环境搭建1018.1搭建Hadoop单机环境1018.1.1安装软件下载1018.1.2Ubuntu系统的安装1018.1.3Hadoop集群的安装和设置1098.1.4Hadoop单机模式下运行WordCount示例1138.2Hadoop伪分布式环境1158.2.1Hadoop伪分布式环境搭建1158.2.2Hadoop伪分布式模式下运行WordCount示例1178.3Hadoop完全分布式环境1208.3.1Hadoop完全分布式环境搭建1208.3.2Hadoop完全分布式模式下运行WordCount示例1238.4小结125第9章精通Spark集群搭建与测试1279.1Spark集群所需软件的安装1279.1.1安装JDK1279.1.2安装Scala1309.2Spark环境搭建1329.2.1Spark单机与单机伪分布式环境1329.2.2Spark Standalone集群环境搭建与配置1359.2.3Spark Standalone环境搭建的验证1369.3Spark集群的测试1379.3.1通过spark�瞫hell脚本进行测试1379.3.2通过spark�瞫ubmit脚本进行测试1459.4小结145第10章Scala IDE开发Spark程序实战解析14610.1Scala IDE安装14610.1.1Ubuntu系统下安装14610.1.2Windows系统下安装14710.2ScalaIDE开发重点步骤详解14810.3Wordcount创建实战15210.4Spark源码导入Scala IDE15410.5小结164第11章实战详解IntelliJ IDEA下的Spark程序开发16511.1IDEA安装16511.1.1Ubuntu系统下安装16511.1.2Windows系统下安装16711.2IDEA开发重点步骤详解16811.2.1环境配置16811.2.2项目创建17011.2.3Spark包引入17411.3Wordcount创建实战17411.4IDEA导入Spark源码17711.5小结183第12章Spark简介18412.1Spark发展历史18412.2Spark在国内外的使用18512.3Spark生态系统简介18812.3.1Hadoop生态系统18912.3.2BDAS生态系统19512.3.3其他19912.4小结199第13章Spark RDD解密20013.1浅谈RDD20013.2创建RDD的几种常用方式20413.3Spark RDD API解析及其实战20613.4RDD的持久化解析及其实战21713.5小结218第14章Spark程序之分组TopN开发实战解析21914.1分组TopN动手实战21914.1.1Java之分组TopN开发实战21914.1.2Scala之分组TopN开发实战22614.2Scala之分组TopN运行原理解密23214.2.1textFile23214.2.2map23414.2.3groupByKey23414.3小结237第15章MasterHA工作原理解密23815.1Spark需要Master HA的原因23815.2Spark Master HA的实现23815.3Spark和ZOOKEEPER的协同工作机制24015.4ZOOKEEPER实现应用实战24215.5小结247第16章Spark内核架构解密24816.1Spark的运行过程24816.1.1SparkContext的创建过程24816.1.2Driver的注册过程24916.1.3Worker中任务的执行25416.1.4任务的调度过程25516.1.5Job执行结果的产生25716.2小结259第17章Spark运行原理实战解析26017.1用户提交程序Driver端解析26017.1.1SparkConf解析26317.1.2SparkContext解析26417.1.3DAGScheduler创建27117.1.4TaskScheduler创建27217.1.5SchedulerBackend创建27317.1.6Stage划分与TaskSet生成27417.1.7任务提交28017.2Spark运行架构解析28317.2.1Spark基本组件介绍28317.2.2Spark的运行逻辑28517.3Spark在不同集群上的运行架构29117.3.1Spark在Standalone模式下的运行架构29117.3.2Spark on yarn的运行架构29417.3.3Spark在不同模式下的应用实战29717.4Spark运行架构的实战解析30017.5小结307信息

封面

Spark零基础实战

书名:Spark零基础实战

作者:王家林

页数:307

定价:¥68.0

出版社:化学工业出版社

出版日期:2016-11-01

ISBN:9787122280176

PDF电子书大小:149MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注