Spark核心源码分析与开发实战
本书特色
[
本书是一本全面介绍spark以及spark生态系统相关技术的书籍。主要内容包括spark系统概述、spark安装和集群的部署、rdd的编程实践、spark的运行模式、spark的运行机制以及spark的四大子框架(spark sql、spark streaming、spark graphx、mllib)的详细讲解。本书通过理论和实践相结合的方式对spark的核心框架和生态圈做了详细的解读,不仅对spark的原理进行详细阐述,还结合spark的源码和案例操作展示了spark框架的所具有的优雅和丰富的表现力。本书适合大数据从业者、spark技术爱好者阅读。相信通过学习本书,读者能够熟悉和掌握spark这一当前流行的大数据计算框架,并将其投入到实践中去。
]
内容简介
[
大数据培训名师、spark大数据畅销书《大数据spark企业级实战》作者王家林新作。内容全面覆盖spark技术及其生态系统,通过源码分析详解spark四大子框架。秉承“实战”类图书特点,解析大量代码的编写操作,具有较强的可操作性,便于读者学习和理解。
]
目录
第1章spark系统概述1��1spark是什么1��2spark生态系统bdas1��2��1spark core1��2��2spark sql1��2��3spark streaming1��2��4spark graphx1��2��5mllib1��2��6tachyon1��2��7blinkdb思考题第2章spark安装和集群部署2��1搭建hadoop分布式集群2��1��1安装vmware虚拟机2��1��2安装ubuntu的镜像文件2��1��3安装jdk2��1��4搭建另外两台ubuntu系统并配置ssh免密码登录2��1��5安装hadoop和搭建hadoop分布式集群2��2spark安装和集群部署2��2��1安装scala2��2��2安装spark和集群部署2��3测试spark集群2��3��1通过spark提供的示例localpi测试spark集群2��3��2通过spark shell测试spark集群思考题第3章spark rdd与spark api编程实践3��1rdd介绍3��1��1rdd是spark的核心抽象3��1��2rdd的特征3��2rdd的操作分类3��2��1输入操作3��2��2转换操作3��2��3行动操作3��2��4控制操作3��3spark shell下的spark api编程实践3��3��1local模式下实践map、filter和collect方法3��3��2集群模式下实践textfile、sortbykey和 saveastextfile方法3��3��3集群模式下实践union、join、reduce和lookup方法3��3��4搜狗日志数据分析实践3��4基于intellij idea使用spark api开发应用程序3��4��1搭建和设置intellij idea开发环境3��4��2在intellij idea下开发并部署spark应用程序3��4��3使用sbt编译spark应用程序3��4��4使用maven构建spark应用程序3��4��5spark工具思考题第4章spark的运行模式4��1spark的运行模式概览4��1��1spark的基本工作流程4��1��2spark应用程序部署4��2local模式4��2��1local模式实例部署及运行演示4��2��2local模式内部实现原理4��3standalone模式4��3��1standalone模式实例部署及运行演示4��3��2standalone模式内部实现原理4��4yarn-cluster模式4��4��1yarn-cluster模式实例部署及运行演示4��4��2yarn-cluster模式内部实现原理4��5yarn-client模式4��5��1yarn-client模式实例部署及运行演示4��5��2yarn-client模式内部实现原理4��6mesos模式4��6��1mesos模式实例部署及运行演示4��6��2mesos模式内部实现原理思考题第5章spark的运行机制5��1spark集群的架构5��2spark的作业和任务调度5��2��1spark application提交5��2��2作业(job)提交5��2��3dagscheduler划分stage并提交5��2��4taskscheduler提交task5��2��5executor运行task并返回结果5��2��6driver的处理5��3容错机制5��3��1lineage机制5��3��2checkpoint机制5��4storage存储模块5��4��1storage模块整体架构5��4��2缓存实现原理5��4��3缓存策略5��5spark的消息传递机制akka5��5��1akka架构解析5��5��2akka驱动下的start-all�眘h源码解析5��6shuffle机制5��6��1shuffle的原理 5��6��2shuffle的写操作5��6��3shuffle的读操作5��7共享变量5��7��1广播变量5��7��2累加器5��8spark性能调优5��8��1数据序列化5��8��2内存优化5��8��3其他优化方法思考题第6章spark sql6��1spark sql原理和实现6��1��1spark sql简介6��1��2spark sql运行架构6��1��3hive在spark上的使用6��1��4源码解析sql语句和hiveql语句的执行过程6��2spark sql的操作实例6��2��1文本文件操作以及dsl操作6��2��2parquet文件以及json文件操作6��2��3hive数据操作演示(订单交易数据操作)6��2��4spark sql处理交通数据实战思考题第7章spark streaming7��1spark streaming运行原理7��1��1spark streaming简介7��1��2编程模型dstream7��1��3容错和持久化7��1��4性能调优7��1��5监控应用7��2源码解析spark streaming的运行过程7��2��1streamingcontext初始化并启动7��2��2数据接收7��2��3数据处理7��3spark streaming操作实例演示7��3��1文本数据操作实例演示7��3��2网络数据操作实例——销售模拟器演示7��3��3有状态(stateful)操作实例演示7��3��4window操作实例演示7��3��5sparkstreaming处理多源数据实战思考题第8章spark graphx8��1图的定义和应用8��1��1图的定义8��1��2图的应用8��2spark graphx简介8��2��1弹性分布式属性图8��2��2spark graphx图的切分和存储策略8��2��3spark graphx图的操作8��3spark graphx架构8��3��1pregel图计算框架8��3��2spark graphx的实现8��3��3spark graphx图算法的实现方法8��4spark graphx图操作实例8��4��1基于spark graphx的属性图的操作实例8��4��2spark graphx图算法操作实例思考题第9章mllib9��1机器学习简介9��1��1机器学习的定义9��1��2机器学习的分类9��1��3机器学习的常用算法9��2mllib的简介9��2��1什么是mllib9��2��2mllib的架构9��2��3mllib的数据类型9��2��4mllib的算法9��3mllib常用算法操作实践9��3��1k-means算法解析和实践9��3��2协同过滤算法分析和案例实践思考题
封面
书名:Spark核心源码分析与开发实战
作者:王家林
页数:432
定价:¥75.0
出版社:机械工业出版社
出版日期:2016-03-05
ISBN:9787111528609
PDF电子书大小:72MB 高清扫描完整版
资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!