Spark原理.机制及应用

本书特色

[

本书是一本以spark1.4为基础,详细介绍了spark技术的概况、内部机制和企业界的应用情况。作者结合国内外众多资料和项目经验,力求深入浅出地讲解spark技术的生态应用和发展状况,此外还选取了sparksummit中的典型案例进行解析,为读者全面展现spark技术在企业界的应用情况。本书适合spark技术初学者、spark技术爱好者、spark运维工程师和开源软件爱好者,也可以作为相关培训学校和大专院校相关专业的教学用书。

]

内容简介

[

spark是一个高效的分布式计算系统,相比hadoop,它在性能上比hadoop要高100倍。spark提供比hadoop更上层的api,同样的算法在spark中实现往往只有hadoop的1/10或者1/100的长度。spark较大的集群来自腾讯――8000个节点,而单个较大的job分别是阿里巴巴和databricks――1pb,震撼人心!同时,截止2015年6月,spark的contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行。本书是国内(包括github社区)较新的基于spark 1.4版本的技术书籍,涵盖spark技术的环境搭建、rdd实操应用、内部机制、调优和企业应用等内容,具体如下。1)基于intellij idea的运行、开发和编译环境的详细搭建过程。2)详细介绍spark技术基础概念和应用实践。3)基于spark 1.4官方文档对spark四大应用框架进行解读。4)基于源码深入剖析spark的资源调度、任务调度和shuffle过程。5)深入解读近两年spark峰会和国内企业分享的典型应用案例。本书的编写系统完整,力争以通俗易懂的语言全方位精细解读spark技术,本书主要针对大数据技术初学者,包括但不限于大学生、研究生和工程师。此外,spark应用开发人员、运维工程师和开源软件爱好者也可以将本书作为参考用书。本书共分为概念、开发、机制和应用四篇,概念篇介绍spark的背景概念和环境配置方法,开发篇介绍了spark核心开发、四大应用框架和调优策略,机制篇则对spark的rdd、调度和shuffle等机制进行解读,应用篇针对spark在业界的典型应用进行阐述。 

]

作者简介

[

刘驰,博士,现任北京理工大学软件学院教授,软件服务工程系系主任。入选“北京理工大学杰出中青年支持与发展计划”。主持了国家自然科学基金、工信部电子商务集成试点工程等多项国家省部级重点项目。分别于清华大学和英国帝国理工学院获得学士和博士学位,后历任德国电信研究院(柏林)博士后研究员、美国IBM TJ Watson研究中心研究员和IBM中国研究院研究主管。研究方向为:物联网、云计算和大数据技术。

]

目录

目 录前言**篇 概 念 篇第1章 spark概述21.1 spark初见21.1.1 spark的发展史及近况21.1.2 spark的特点51.1.3 spark的作用61.1.4 spark的体系结构61.1.5 spark的发展趋势61.2 spark框架71.2.1 批处理框架71.2.2 流处理框架81.3 spark的生态系统81.4 spark的数据存储111.5 本章小结11第2章 spark环境配置122.1 spark运行环境配置122.1.1 先决条件122.1.2 下载与运行 spark132.1.3 使用交互式 shell142.1.4 搭建sparkstandalone集群162.2 spark开发环境配置182.2.1 spark独立应用程序182.2.2 构建ide开发环境242.3 spark编译环境配置292.3.1 使用maven编译项目源码302.3.2 使用idea搭建源码编译与阅读环境312.4 本章小结35第二篇 开 发 篇第3章 spark核心开发373.1 spark编程模型概述373.2 sparkcontext383.2.1 sparkcontext的作用383.2.2 sparkcontext的创建383.2.3 使用shell413.2.4 应用实践413.3 rdd简介423.3.1 rdd创建423.3.2 rdd转换操作433.3.3 rdd动作操作443.3.4 rdd惰性计算443.3.5 rdd持久化443.3.6 rdd检查点453.4 共享变量453.4.1 广播变量453.4.2 累加器463.5 spark核心开发实践463.5.1 单值型trasnformation算子463.5.2 键值对型transformation算子583.5.3 action算子643.6 本章小结72第4章 spark四大应用技术框架734.1 spark sql734.1.1 spark sql入门734.1.2 数据源754.1.3 性能调优814.1.4 分布式sql引擎824.1.5 shark迁移至sparksql指南824.1.6 hive的兼容性834.1.7 spark sql数据类型854.2 spark streaming864.2.1 spark streaming简介874.2.2 入门实例874.2.3 基本概念894.3 spark graphx974.3.1 spark graphx简介974.3.2 属性图984.3.3 图操作1004.3.4 pregel api1084.3.5 图构造器1104.3.6 顶点与边相关rdd1114.3.7 *优化表示1134.3.8 图算法1144.3.9 example1164.4 spark mllib1164.4.1 spark mllib简介1164.4.2 数据类型1174.4.3 基本统计分析1214.4.4 分类与回归1234.4.5 协同过滤1364.4.6 聚类1384.4.7 降维1394.4.8 特征提取与转换1414.4.9 频繁模式挖掘1464.4.10 *优化算法1474.4.11 导出pmml模式1494.5 sparkr1504.5.1 sparkr dataframe1504.5.2 dataframe的相关操作1524.5.3 从sparkr运行sql查询153第5章 spark系统配置与调优1545.1 spark运行监控1545.2 spark配置参数1585.2.1 应用属性1595.2.2 运行环境属性1595.2.3 shuffle操作

封面

Spark原理.机制及应用

书名:Spark原理.机制及应用

作者:刘驰

页数:264

定价:¥49.0

出版社:机械工业出版社

出版日期:2016-03-01

ISBN:9787111529286

PDF电子书大小:52MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注