Spark大数据分析实战

本书特色

[

这是一本根据应用场景讲解如何通过spark进行大数据分析与应用构建的著作,以实战为导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三,直接应用。
 本书首先从技术层面讲解了spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的大数据场景下的数据分析。在每个场景中,首先是对场景进行抽象与概括,然后将spark融入其中构建数据分析算法与应用,*后结合其他开源系统或工具构建更为丰富的数据分析流水线。

]

目录

目  录?contents前 言第1章 spark简介 11.1 初识spark 11.2 spark生态系统bdas 31.3 spark架构与运行逻辑 41.4 弹性分布式数据集 61.4.1 rdd简介 61.4.2 rdd算子分类 81.5 本章小结 17第2章 spark开发与环境配置 182.1 spark应用开发环境配置 182.1.1 使用intellij开发spark程序 182.1.2 使用sparkshell进行交互式数据分析 232.2 远程调试spark程序 242.3 spark编译 262.4 配置spark源码阅读环境 292.5 本章小结 29第3章 bdas简介 303.1 sql on spark 303.1.1 为什么使用spark sql 313.1.2 spark sql架构分析 323.2 spark streaming 353.2.1 spark streaming简介 353.2.2 spark streaming架构 383.2.3 spark streaming原理剖析 383.3 graphx 453.3.1 graphx简介 453.3.2 graphx的使用简介 453.3.3 graphx体系结构 483.4 mllib 503.4.1 mllib简介 503.4.2 mllib中的聚类和分类 523.5 本章小结 57第4章 lamda架构日志分析流水线 584.1 日志分析概述 584.2 日志分析指标 614.3 lamda架构 624.4 构建日志分析数据流水线 644.4.1 用flume进行日志采集 644.4.2 用kafka将日志汇总 684.4.3 用spark streaming进行实时日志分析 704.4.4 spark sql离线日志分析 754.4.5 用flask将日志kpi可视化 784.5 本章小结 81第5章 基于云平台和用户日志的推荐系统 825.1 azure云平台简介 825.1.1 azure网站模型 835.1.2 azure数据存储 845.1.3 azure queue消息传递 845.2 系统架构 855.3 构建node.js应用 865.3.1 创建azure web应用 875.3.2 构建本地node.js网站 905.3.3 发布应用到云平台 905.4 数据收集与预处理 915.4.1 通过js收集用户行为日志 925.4.2 用户实时行为回传到azure queue 945.5 spark streaming实时分析用户日志 965.5.1 构建azure queue的spark streaming receiver 965.5.2 spark streaming实时处理azure queue日志 975.5.3 spark streaming数据存储于azure table 985.6 mllib离线训练模型 995.6.1 加载训练数据 995.6.2 使用rating rdd训练als模型 1005.6.3 使用als模型进行电影推荐 1015.6.4 评估模型的均方差 1015.7 本章小结 102第6章 twitter情感分析 1036.1 系统架构 1036.2 twitter数据收集 1046.2.1 设置 1046.2.2 spark streaming接收并输出tweet 1096.3 数据预处理与cassandra存储 1116.3.1 添加sbt依赖 1116.3.2 创建cassandra schema 1126.3.3 数据存储于cassandra 1126.4 spark streaming热点twitter分析 1136.5 spark streaming在线情感分析 1156.6 spark sql进行twitter分析 1186.6.1 读取cassandra数据 1186.6.2 查看json数据模式 1186.6.3 spark sql分析twitter 1196.7 twitter可视化 1236.8 本章小结 125第7章 热点新闻分析系统 1267.1 新闻数据分析 1267.2 系统架构 1267.3 爬虫抓取网络信息 1277.3.1 scrapy简介 1277.3.2 创建基于scrapy的新闻爬虫 1287.3.3 爬虫分布式化 1337.4 新闻文本数据预处理 1347.5 新闻聚类 1357.5.1 数据转换为向量(向量空间模型vsm) 1357.5.2 新闻聚类 1367.5.3 词向量同义词查询 1387.5.4 实时热点新闻分析 1387.6 spark elastic search构建全文检索引擎 1397.6.1 部署elastic search 1397.6.2 用elastic search索引mongodb数据 1417.6.3 通过elastic search检索数据 1437.7 本章小结 145第8章 构建分布式的协同过滤推荐系统 1468.1 推荐系统简介 1468.2 协同过滤介绍 1478.2.1 基于用户的协同过滤算法user-based cf 1488.2.2 基于项目的协同过滤算法item-based cf 1498.2.3 基于模型的协同过滤推荐model-based cf 1508.3 基于spark的矩阵运算实现协同过滤算法 1528.3.1 spark中的矩阵类型 1528.3.2 spark中的矩阵运算 1538.3.3 实现user-based协同过滤的示例 1538.3.4 实现item-based协同过滤的示例 1548.3.5 基于奇异值分解实现model-based协同过滤的示例 1558.4 基于spark的mllib实现协同过滤算法 1558.4.1 mllib的推荐算法工具 1558.4.2 mllib协同过滤推荐示例 1568.5 案例:使用mllib协同过滤实现电影推荐 1578.5.1 movielens数据集 1578.5.2 确定**的协同过滤模型参数 1588.5.3 利用**模型进行电影推荐 1608.6 本章小结 161第9章 基于spark的社交网络分析 1629.1 社交网络介绍 1629.1.1 社交网络的类型 1629.1.2 社交网络的相关概念 1639.2 社交网络中社团挖掘算法 1649.2.1 聚类分析和k均值算法简介 1659.2.2 社团挖掘的衡量指标 1659.2.3 基于谱聚类的社团挖掘算法 1669.3 spark中的k均值算法 1689.3.1 spark中与k均值有关的对象和方法 1689.3.2 spark下k均值算法示例 1689.4 案例:基于spark的facebook社团挖掘 1699.4.1 snap社交网络数据集介绍 1699.4.2 基于spark的社团挖掘实现 1709.5 社交网络中的链路预测算法 1729.5.1 分类学习简介 1729.5.2 分类器的评价指标 1739.5.3 基于logistic回归的链路预测算法 1749.6 spark mllib中的logistic回归 1749.6.1 分类器相关对象 1749.6.2 模型验证对象 1759.6.3 基于spark的logistic回归示例 1759.7 案例:基于spark的链路预测算法 1779.7.1 snap符号社交网络epinions数据集 1779.7.2 基于spark的链路预测算法 1779.8 本章小结 179第10章 基于spark的大规模新闻主题分析 18010.1 主题模型简介 18010.2 主题模型lda 18110.2.1 lda模型介绍 18110.2.2 lda的训练算法 18310.3 spark中的lda模型 18510.3.1 mllib对lda的支持 18510.3.2 spark中lda模型训练示例 18610.4 案例:newsgroups新闻的主题分析 18910.4.1 newsgroups数据集介绍 19010.4.2 交叉验证估计新闻的主题个数 19010.4.3 基于主题模型的文本聚类算法 19310.4.4 基于主题模型的文本分类算法 19510.5 本章小结 196第11章 构建分布式的搜索引擎 19711.1 搜索引擎简介 19711.2 搜索排序概述 19811.3 查询无关模型pagerank 19911.4 基于spark的分布式pagerank实现 20011.4.1 pagerank的mapreduce实现 20011.4.2 spark的分布式图模型graphx 20311.4.3 基于graphx的pagerank实现 20311.5 案例:googleweb graph的pagerank计算 20411.6 查询相关模型ranking svm 20611.7 spark中支持向量机的实现 20811.7.1 spark中的支持向量机模型 20811.7.2 使用spark测试数据演示支持向量机的训练 20911.8 案例:基于mslr数据集的查询排序 21111.8.1 microsoft learning to rank数据集介绍 21111.8.2 基于spark的ranking svm实现 21211.9 本章小结 213

封面

Spark大数据分析实战

书名:Spark大数据分析实战

作者:高彦杰

页数:211

定价:¥59.0

出版社:机械工业出版社

出版日期:2016-01-01

ISBN:9787111523079

PDF电子书大小:66MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注