大数据技术与应用丛书SPARK大数据分析与实战

本书特色

[

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Spark框架开发流式计算系统。掌握Spark相关技术,能够很好地适应企业开发的技术需要,为离线、实时数据处理平台的开发奠定基础。 本书附有配套源代码、教学PPT、题库、教学视频、教学补充案例、教学设计等资源。为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,大数据课程的专用教材,是一本适合广大计算机编程爱好者的优秀读物。

]

内容简介

[

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Spark框架开发流式计算系统。掌握Spark相关技术,能够很好地适应企业开发的技术需要,为离线、实时数据处理平台的开发奠定基础。
本书附有配套源代码、教学PPT、题库、教学视频、教学补充案例、教学设计等资源。为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
本书可作为高等院校本、专科计算机相关专业,大数据课程的专用教材,是一本适合广大计算机编程爱好者的很好读物。

]

目录

目录第1章Scala语言基础11.1初识Scala11.1.1Scala概述11.1.2Scala的下载安装21.1.3在IDEA开发工具中下载安装Scala插件41.1.4开发**个Scala程序61.2Scala的基础语法91.2.1声明值和变量91.2.2数据类型91.2.3算术和操作符重载101.2.4控制结构语句101.2.5方法和函数131.3Scala的数据结构151.3.1数组151.3.2元组181.3.3集合191.4Scala面向对象的特性241.4.1类与对象241.4.2继承251.4.3单例对象和伴生对象261.4.4特质281.5Scala的模式匹配与样例类291.5.1模式匹配301.5.2样例类311.6本章小结311.7课后习题32第2章Spark基础332.1初识Spark33目录Spark大数据分析与实战2.1.1Spark概述332.1.2Spark的特点342.1.3Spark应用场景352.1.4Spark与Hadoop对比362.2搭建Spark开发环境372.2.1环境准备372.2.2Spark的部署方式372.2.3Spark集群安装部署382.2.4Spark HA集群部署412.3Spark运行架构与原理452.3.1基本概念452.3.2Spark集群运行架构452.3.3Spark运行基本流程462.4体验**个Spark程序472.5启动Spark�睸hell492.5.1运行Spark�睸hell命令492.5.2运行Spark�睸hell读取HDFS文件502.6IDEA开发WordCount程序522.6.1以本地模式执行Spark程序522.6.2集群模式执行Spark程序542.7本章小结582.8课后习题59第3章Spark RDD弹性分布式数据集603.1RDD简介603.2RDD的创建方式613.2.1从文件系统加载数据创建RDD613.2.2通过并行集合创建RDD623.3RDD的处理过程633.3.1转换算子633.3.2行动算子673.3.3编写WordCount词频统计案例703.4RDD的分区713.5RDD的依赖关系713.6RDD机制733.6.1持久化机制733.6.2容错机制753.7Spark的任务调度763.7.1DAG的概念763.7.2RDD在Spark中的运行流程763.8本章小结783.9课后习题78第4章Spark SQL结构化数据文件处理804.1Spark SQL的基础知识804.1.1Spark SQL的简介804.1.2Spark SQL架构814.2DataFrame的基础知识824.2.1DataFrame简介824.2.2DataFrame的创建834.2.3DataFrame的常用操作864.3Dataset的基础知识894.3.1Dataset简介894.3.2Dataset对象的创建894.4RDD转换为DataFrame904.4.1反射机制推断Schema904.4.2编程方式定义Schema924.5Spark SQL操作数据源944.5.1操作MySQL944.5.2操作Hive数据集964.6本章小结994.7课后习题99第5章HBase分布式数据库1015.1HBase的基础知识1015.1.1HBase的简介1015.1.2HBase的数据模型1025.2HBase的集群部署1035.3HBase的基本操作1075.3.1HBase的Shell操作1075.3.2HBase的Java API操作1125.4深入学习HBase原理1205.4.1HBase架构1215.4.2物理存储1225.4.3寻址机制1235.4.4HBase读写数据流程1245.5HBase和Hive的整合1255.6本章小结1305.7课后习题130第6章Kafka分布式发布订阅消息系统1326.1Kafka的基础知识1326.1.1消息传递模式简介1326.1.2Kafka简介1336.2Kafka工作原理1346.2.1Kafka核心组件介绍1346.2.2Kafka工作流程分析1366.3Kafka集群部署与测试1386.3.1安装Kafka1386.3.2启动Kafka服务1406.4Kafka生产者和消费者实例1416.4.1基于命令行方式使用Kafka1416.4.2基于Java API方式使用Kafka1436.5Kafka Streams1486.5.1Kafka Streams概述1496.5.2Kafka Streams开发单词计数应用1496.6本章小结1536.7课后习题153第7章Spark Streaming实时计算框架1557.1实时计算的基础知识1557.1.1什么是实时计算1557.1.2常用的实时计算框架1557.2Spark Streaming的基础知识1567.2.1Spark Streaming简介1567.2.2Spark Streaming工作原理1577.3Spark的DStream1577.3.1DStream简介1577.3.2DStream编程模型1587.3.3DStream转换操作1587.3.4DStream窗口操作1647.3.5DStream输出操作1687.3.6DStream实例——实现网站热词排序1707.4Spark Streaming整合Kafka实战1737.4.1KafkaUtils.createDstream方式1737.4.2KafkaUtils.createDirectStream方式1777.5本章小结1807.6课后习题180第8章Spark MLlib 机器学习算法库1828.1初识机器学习1828.1.1什么是机器学习1828.1.2机器学习的应用1838.2Spark机器学习库MLlib的概述1848.2.1MLlib的简介1848.2.2Spark机器学习工作流程1858.3数据类型1868.3.1本地向量1868.3.2标注点1868.3.3本地矩阵1878.4Spark MLlib基本统计1888.4.1摘要统计1888.4.2相关统计1898.4.3分层抽样1908.5分类1918.5.1线性支持向量机1918.5.2逻辑回归1928.6案例——构建推荐系统1938.6.1推荐模型分类1948.6.2利用MLlib实现电影推荐1948.7本章小结2008.8课后习题200第9章综合案例——Spark实时交易数据统计2029.1系统概述2029.1.1系统背景介绍2029.1.2系统架构设计2029.1.3系统预览2039.2Redis数据库2039.2.1Redis介绍2049.2.2Redis部署与启动2049.2.3Redis操作及命令2059.3模块开发——构建工程结构2069.4模块开发——构建订单系统2119.4.1模拟订单数据2119.4.2向Kafka集群发送订单数据2129.5模块开发——分析订单数据2159.6模块开发——数据展示2199.6.1搭建Web开发环境2199.6.2实现数据展示功能2219.6.3可视化平台展示2279.7本章小结228

封面

大数据技术与应用丛书SPARK大数据分析与实战

书名:大数据技术与应用丛书SPARK大数据分析与实战

作者:黑马程序员

页数:0

定价:¥49.0

出版社:清华大学出版社

出版日期:2018-03-01

ISBN:9787302534327

PDF电子书大小:138MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注