Spark SQL大数据实例开发教程

本书特色

[

Spark SQL是Spark生态环境中核心和基础的组件,是掌握Spark的关键所在。本书完全从企业级开发的角度出发,结合多个企业级应用案例,深入剖析Spark SQL。全书共分为8章,包括:认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。
本书可以使读者对Spark SQL有深入彻底的理解,本书适合于Spark学习爱好者,是学习Spark SQL的入门和提高教材,也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。

]

目录

录前言第1章认识Spark SQL1.1Spark SQL概述1.1.1Spark SQL与DataFrame1.1.2DataFrame与RDD的差异1.1.3Spark SQL的发展历程1.2从零起步掌握Hive1.2.1Hive的本质是什么1.2.2Hive安装和配置1.2.3使用Hive分析搜索数据1.3Spark SQL on Hive安装与配置1.3.1安装Spark SQL1.3.2安装MySQL1.3.3启动Hive Metastore1.4Spark SQL初试1.4.1通过spark-shell来使用Spark SQL1.4.2Spark SQL的命令终端1.4.3Spark的Web UI1.5本章小结第2章DataFrame原理与常用操作2.1DataFrame编程模型2.2DataFrame基本操作实战2.2.1数据准备2.2.2启动交互式界面2.2.3数据处理与分析2.3通过RDD来构建DataFrame2.4缓存表(列式存储)2.5DataFrame API应用示例2.6本章小结第3章Spark SQL 操作多种数据源3.1通用的加载/保存功能3.1.1Spark SQL加载数据3.1.2Spark SQL保存数据3.1.3综合案例——电商热销商品排名3.2Spark SQL操作Hive示例3.3Spark SQL操作JSON数据集示例3.4Spark SQL操作HBase示例3.5Spark SQL操作MySQL示例3.5.1安装并启动MySQL3.5.2准备数据表3.5.3操作MySQL表3.6Spark SQL操作MongoDB示例3.6.1安装配置MongoDB3.6.2启动MongoDB3.6.3准备数据3.6.4Spark SQL操作MongoDB3.7本章小结第4章Parquet列式存储4.1Parquet概述4.1.1Parquet的基本概念4.1.2Parquet数据列式存储格式应用举例4.2Parquet的Block配置及数据分片4.2.1Parquet的Block的配置4.2.2Parquet 内部的数据分片4.3Parquet序列化4.3.1Spark实施序列化的目的4.3.2Parquet两种序列化方式4.4本章小结第5章Spark SQL内置函数与窗口函数5.1Spark SQL内置函数5.1.1Spark SQL内置函数概述5.1.2Spark SQL内置函数应用实例5.2Spark SQL窗口函数5.2.1Spark SQL窗口函数概述5.2.2Spark SQL窗口函数分数查询统计案例5.2.3Spark SQL窗口函数NBA常规赛数据统计案例5.3本章小结第6章Spark SQL UDF与UDAF6.1UDF概述6.2UDF示例6.2.1Hobby_count函数6.2.2Combine函数6.2.3Str2Int函数6.2.4Wsternstate函数6.2.5ManyCustomers函数6.2.6StateRegion函数6.2.7DiscountRatio函数6.2.8MakeStruct函数6.2.9MyDateFilter函数6.2.10MakeDT函数6.3UDAF概述6.4UDAF示例6.4.1ScalaAggregateFunction函数6.4.2GeometricMean函数6.4.3CustomMean函数6.4.4BelowThreshold函数6.4.5YearCompare函数6.4.6WordCount函数6.5本章小结第7章Thrift Server7.1Thrift概述7.1.1Thrift的基本概念7.1.2Thrift的工作机制7.1.3Thrift的运行机制7.1.4一个简单的Thrift 实例7.2Thrift Server的启动过程7.2.1Thrift Sever启动详解7.2.2HiveThriftServer2类的解析7.3Beeline操作7.3.1Beeline连接方式7.3.2在Beeline中进行SQL查询操作7.3.3通过Web控制台查看用户进行的操作7.4Thrift Server应用示例7.4.1示例源代码7.4.2关键代码行解析7.4.3测试运行7.4.4运行结果解析7.4.5Spark Web控制台查看运行日志7.5本章小结第8章Spark SQL综合应用案例8.1综合案例实战——电商网站日志多维度数据分析8.1.1数据准备8.1.2数据说明8.1.3数据创建8.1.4数据导入8.1.5数据测试和处理8.2综合案例实战——电商网站搜索排名统计8.2.1案例概述8.2.2数据准备8.2.3实现用户每天搜索前3名的商品排名统计8.3本章小结

封面

Spark SQL大数据实例开发教程

书名:Spark SQL大数据实例开发教程

作者:王家林

页数:254页

定价:¥59.0

出版社:机械工业出版社

出版日期:2018-03-01

ISBN:9787111591979

PDF电子书大小:120MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注