数据算法-Hadoop/Spark大数据处理技术

本书特色

[

本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。
本书主要内容包括:
■ 完成超大量交易的购物篮分析。
■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
■ 使用超大基因组数据完成DNA和RNA测序。
■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
■ 推荐算法和成对文档相似性。
■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。
本书主要内容包括:
■ 完成超大量交易的购物篮分析。
■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
■ 使用超大基因组数据完成DNA和RNA测序。
■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
■ 推荐算法和成对文档相似性。
■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。
■ 等位基因频率和DNA挖掘。
■ 社交网络分析(推荐系统、三角形计数和情感分析)。信息

]

内容简介

[

如果你准备深入研究MapReduce框架来处理大数据集,这本书非常实用,通过提供丰富的算法和工具,它会循序渐进地带你探索MapReduce世界,用Apache Hadoop或Apache Spark构建分布式MapReduce应用时通常都需要用到这些算法和工具。每一章分别提供一个实例来解决一个大规模计算问题,如构建推荐系统。你会了解如何用代码实现适当的MapReduce解决方案,而且可以在你的项目中具体应用这些解决方案。

]

作者简介

[

Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。

]

目录

序 1前言 3第1章二次排序:简介 19二次排序问题解决方案 21MapReduce/Hadoop的二次排序解决方案 25Spark的二次排序解决方案 29第2章二次排序:详细示例 42二次排序技术 43二次排序的完整示例 46运行示例——老版本Hadoop API 50运行示例——新版本Hadoop API 52第3章 Top 10 列表 54Top N 设计模式的形式化描述 55MapReduce/Hadoop实现:唯一键 56序 1前言 3第1章二次排序:简介 19二次排序问题解决方案 21MapReduce/Hadoop的二次排序解决方案 25Spark的二次排序解决方案 29第2章二次排序:详细示例 42二次排序技术 43二次排序的完整示例 46运行示例——老版本Hadoop API 50运行示例——新版本Hadoop API 52第3章 Top 10 列表 54Top N 设计模式的形式化描述 55MapReduce/Hadoop实现:唯一键 56Spark实现:唯一键 62Spark实现:非唯一键 73使用takeOrdered()的Spark Top 10 解决方案 84MapReduce/Hadoop Top 10 解决方案:非唯一键 91第4章左外连接 96左外连接示例 96MapReduce左外连接实现 99Spark左外连接实现 105使用leftOuterJoin()的Spark实现 117第5章反转排序 127反转排序模式示例 128反转排序模式的MapReduce/Hadoop实现 129运行示例 134第6章移动平均 137示例1:时间序列数据(股票价格) 137示例2:时间序列数据(URL访问数) 138形式定义 139POJO移动平均解决方案 140MapReduce/Hadoop移动平均解决方案 143第7章购物篮分析 155MBA目标 155MBA的应用领域 157使用MapReduce的购物篮分析 157Spark解决方案 166运行Spark实现的YARN 脚本 179第8章共同好友 182输入 183POJO共同好友解决方案 183MapReduce算法 184解决方案1: 使用文本的Hadoop实现 187解决方案2: 使用ArrayListOfLongsWritable 的Hadoop实现 189Spark解决方案 191第9章使用MapReduce实现推荐引擎 201购买过该商品的顾客还购买了哪些商品 202经常一起购买的商品 206推荐连接 210第10章基于内容的电影推荐 225输入 226MapReduce阶段1 226MapReduce阶段2和阶段3 227Spark电影推荐实现 234第11章使用马尔可夫模型的智能邮件营销 .253马尔可夫链基本原理 254使用MapReduce的马尔可夫模型 256Spark解决方案 269第12章 K-均值聚类 282什么是K-均值聚类? 285聚类的应用领域 285K-均值聚类方法非形式化描述:分区方法 286K-均值距离函数 286K-均值聚类形式化描述 287K-均值聚类的MapReduce解决方案 288K-均值算法Spark实现 292第13章 k-近邻 296kNN分类 297距离函数 297kNN示例 298kNN算法非形式化描述 299kNN算法形式化描述 299kNN的类Java非MapReduce 解决方案 299Spark的kNN算法实现 301第14章朴素贝叶斯 315训练和学习示例 316条件概率 319深入分析朴素贝叶斯分类器 319朴素贝叶斯分类器:符号数据的MapReduce解决方案 322朴素贝叶斯分类器Spark实现 332使用Spark和Mahout 347第15章情感分析 349情感示例 350情感分数:正面或负面 350一个简单的MapReduce情感分析示例 351真实世界的情感分析 353第16章查找、统计和列出大图中的所有三角形 354基本的图概念 355三角形计数的重要性 356MapReduce/Hadoop解决方案 357Spark解决方案 364第17章 K-mer计数 375K-mer计数的输入数据 376K-mer计数应用 376K-mer计数MapReduce/Hadoop解决方案 377K-mer计数Spark解决方案 378第18章 DNA测序 390DNA测序的输入数据 392输入数据验证 393DNA序列比对 393DNA测试的MapReduce算法 394第19章 Cox回归 413Cox模型剖析 414使用R的Cox回归 415Cox回归应用 416Cox回归 POJO解决方案 417MapReduce输入 418使用MapReduce的Cox回归 419第20章 Cochran-Armitage趋势检验 426Cochran-Armitage算法 427Cochran-Armitage应用 432MapReduce解决方案 435第21章等位基因频率 443基本定义 444形式化问题描述 448等位基因频率分析的MapReduce解决方案 449MapReduce解决方案, 阶段1 449MapReduce解决方案,阶段2 459MapReduce解决方案, 阶段3 463染色体X 和Y的特殊处理 466第22章 T检验 468对bioset完成T检验 469MapReduce问题描述 472输入 472期望输出 473MapReduce解决方案 473Spark实现 476第23章皮尔逊相关系数 488皮尔逊相关系数公式 489皮尔逊相关系数示例 491皮尔逊相关系数数据集 492皮尔逊相关系数POJO 解决方案 492皮尔逊相关系数MapReduce解决方案 493皮尔逊相关系数的Spark 解决方案 496运行Spark程序的YARN 脚本 516使用Spark计算斯皮尔曼相关系数 517第24章 DNA碱基计数 520FASTA 格式 521FASTQ 格式 522MapReduce解决方案:FASTA 格式 522运行示例 524MapReduce解决方案: FASTQ 格式 528Spark 解决方案: FASTA 格式 533Spark解决方案: FASTQ 格式 537第25章 RNA测序 543数据大小和格式 543MapReduce工作流 544RNA测序分析概述 544RNA测序MapReduce算法 548第26章基因聚合 553输入 554输出 554MapReduce解决方案(按单个值过滤和按平均值过滤) 555基因聚合的Spark解决方案 567Spark解决方案:按单个值过滤 567Spark解决方案:按平均值过滤 576第27章线性回归 586基本定义 587简单示例 587问题描述 588输入数据 589期望输出 590使用SimpleRegression的MapReduce解决方案 590Hadoop实现类 593使用R线性模型的MapReduce解决方案 593第28章 MapReduce和幺半群 600概述 600幺半群的定义 602幺半群和非幺半群示例 603MapReduce示例:非幺半群 606MapReduce示例:幺半群 608使用幺半群的Spark示例 612使用幺半群的结论 618函子和幺半群 619第29章小文件问题 622解决方案1:在客户端合并小文件 623解决方案2:用CombineFileInputFormat解决小文件问题 629其他解决方案 634第30章 MapReduce的大容量缓存 635实现方案 636缓存问题形式化描述 637一个精巧、可伸缩的解决方案 637实现LRUMap缓存 640使用LRUMap的MapReduce解决方案 646第31章 Bloom过滤器 651Bloom过滤器性质 651一个简单的Bloom过滤器示例 653信息

封面

数据算法-Hadoop/Spark大数据处理技术

书名:数据算法-Hadoop/Spark大数据处理技术

作者:马哈默德.帕瑞斯安

页数:696

定价:¥128.0

出版社:中国电力出版社

出版日期:2016-10-01

ISBN:9787512395947

PDF电子书大小:136MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注