Spark 大数据处理原理.算法与实例

本书特色

[

本书以时下*为流行的Hadoop所存在的缺陷为出发点,深入浅出地介绍了下一代大数据处理核心技术Spark的优势和必要性,并以*简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境。在此基础上,本书以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理、算子使用、算法设计和优化手段,为读者提供了一个快速由浅入深掌握Spark基础能力和高级技巧的参考书籍。
本书共六章,涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性、快速体验Spark的指引、Spark架构和原理、RDD算子使用方法和示例、Spark算法设计实例、Spark程序优化方法。
本书适合需要使用Spark进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,亦可作为高校研究生和本科生教材。

]

内容简介

[

Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark开发者提高学习效率。

]

作者简介

[

刘军,男,1976年生人,博士,副教授,硕士生导师,北京邮电大学数据科学中心主任。
2003年至2007年任职于IBM中国研究院,担任高级研究员及部门经理,建立IBM中国研究院电信融合网络管理研究方向,主持研发Websphere及Tivoli电信产品线中多项关键技术,期间发表多篇国际会议及刊物论文,并申请获得多项美国专利。
2007年至2012年创办欢城(北京)科技有限公司,开创中国无端网络游戏产业,并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项,2008年获中国互联网协会“最具运营价值Webgame”奖项,
2012年至今在北京邮电大学信息与通信工程学院任教,研究方向为电信及互联网大数据分析、高速数据流挖掘算法,并牵头组建北京邮电大学数据科学中心。开设研究生课程《海量数据处理中的云计算》,发表大数据分析相关SCI/EI检索论文十余篇,并独著《Hadoop大数据处理》一书,该书被哈工大、中南大学等多所高校的相关课程作为教材使用。

]

目录

目录第1章从Hadoop到Spark1.1Hadoop——大数据时代的火种1.1.1大数据的由来1.1.2Google解决大数据计算问题的方法1.1.3Hadoop的由来与发展1.2Hadoop的局限性1.2.1Hadoop运行机制1.2.2Hadoop的性能问题1.2.3针对Hadoop的改进1.3大数据技术新星——Spark1.3.1Spark的出现与发展1.3.2Spark协议族1.3.3Spark的应用及优势目录第1章从Hadoop到Spark1.1Hadoop——大数据时代的火种1.1.1大数据的由来1.1.2Google解决大数据计算问题的方法1.1.3Hadoop的由来与发展1.2Hadoop的局限性1.2.1Hadoop运行机制1.2.2Hadoop的性能问题1.2.3针对Hadoop的改进1.3大数据技术新星——Spark1.3.1Spark的出现与发展1.3.2Spark协议族1.3.3Spark的应用及优势第2章体验Spark2.1安装和使用Spark2.1.1安装Spark2.1.2了解Spark目录结构2.1.3使用Spark Shell2.2编写和运行Spark程序2.2.1安装Scala插件2.2.2编写Spark程序2.2.3运行Spark程序2.3Spark Web UI2.3.1访问实时Web UI2.3.2从实时UI查看作业信息第3章Spark原理3.1Spark工作原理3.2Spark架构及运行机制3.2.1Spark系统架构与节点角色3.2.2Spark作业执行过程3.2.3应用初始化3.2.4构建RDD有向无环图3.2.5RDD有向无环图拆分3.2.6Task调度3.2.7Task执行第4章RDD算子4.1创建算子4.1.1基于集合类型数据创建RDD4.1.2基于外部数据创建RDD4.2变换算子4.2.1对Value型RDD进行变换4.2.2对Key/ Value型RDD进行变换4.3行动算子4.3.1数据运算类行动算子4.3.2存储型行动算子4.4缓存算子第5章Spark算法设计5.1过滤5.2去重计数5.3相关计数5.4相关系数5.5数据联结5.6Top�睰5.7K�瞞eans5.8关联规则挖掘5.9kNN5.10朴素贝叶斯分类第6章善用Spark6.1合理分配资源6.2控制并行度6.3利用持久化6.4选择恰当的算子6.5利用共享变量6.5.1累加器变量6.5.2广播变量6.6利用序列化技术6.7关注数据本地性6.8内存优化策略6.9集成外部工具参考文献信息

封面

Spark 大数据处理原理.算法与实例

书名:Spark 大数据处理原理.算法与实例

作者:刘军

页数:199

定价:¥49.0

出版社:清华大学出版社

出版日期:2016-09-01

ISBN:9787302449959

PDF电子书大小:134MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注