ALLUXIO:大数据统一存储原理与实践

相关资料

[

Alluxio能够面向集群计算框架(如Apache Spark和Hadoop MapReduce)提供一个抽象现有不同存储特点的存储层,从而支撑大数据存储系统的快速演进。这一点与IP层支撑了互联网的快速演进很类似。
Ion Stoica 加州大学伯克利分校教授,Apache Spark联合创始人
DataBricks公司联合创始人兼首席执行官,加州大学伯克利分校AMPLab共同负责人

大数据分析正在驱动分布式内存去满足实时流处理、交互式查询分析及图计算的新需求。我们很高兴能够与Alluxio社区的开发者一起工作,特别是优化Alluxio基于Intel平台的解决方案,这将帮助我们为客户创造出更具创新性且高性能的云和大数据解决方案。
Michael Greene 英特尔公司副总裁

作为世界上较大的互联网公司之一,百度不断面临着管理PB级规模数据带来的挑战。通过采用Alluxio等创新技术,我们能够帮助用户快速抽取出有意义、有价值的数据。我们部署的一个Alluxio集群超过了1000台workers,这也是世界上较大的Alluxio集群之一。Alluxio的层次化存储功能为我们提供了很好的管理大规模数据的灵活性。我们观察到,在支持交互式查询系统等业务时,能够取得平均10倍、*30倍的性能提升,这有效地提升了做出重要商业决策的速度。
James Peng pony.ai创始人兼CEO,百度前首席架构师

随着云计算业务的发展,阿里巴巴集团管理着越来越多的大型数据中心。通过阿里云OSS与Alluxio的整合,以及其他阿里云服务产品的支撑,我们的用户可以利用新潮的硬件技术,以*的性能运行重要作业。我们一直在为Alluxio开源社区做贡献,并且相信Alluxio会在未来的大数据架构中扮演重要的角色。
章文嵩 滴滴出行高级副总裁,阿里云前副总裁
LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人

Alluxio是源自于AMPLab的一个具有重大影响力的开源项目。为了能够支撑不断拓展的大数据应用案例,存储层正在快速演进,Alluxio技术在其中扮演着具有重大颠覆性的角色。
Michael Franklin 加州大学伯克利分校AMPLab负责人

]

本书特色

[

Alluxio 这一以内存为中心的分布式虚拟文件系统,*初诞生于加州大学伯克利分校的 AMPLab,其开源社区在目前大数据生态系统中发展很快。本书以广泛使用的 Alluxio 1.8.1 版本为基础进行编写,是一本全面介绍 Alluxio 相关技术原理与实践案例的书籍。本书主要内容包括 Alluxio 系统快速入门、Alluxio 系统架构及读写工作机制、Alluxio 与底层存储系统的集成、Alluxio 与上层计算框架的集成、Alluxio 基本功能和高级功能的介绍与使用。此外,本书还详细介绍了 Alluxio 的应用案例与生产实践,并详细解读了 Alluxio 的核心框架和技术应用,旨在为大数据从业人员和大数据存储技术爱好者提供一个深入学习的平台,也可用作开源社区开发者指南。

]

内容简介

[

Alluxio 这一以内存为中心的分布式虚拟文件系统,很初诞生于加州大学伯克利分校的 AMPLab,其开源社区在目前大数据生态系统中发展很快。本书以广泛使用的 Alluxio 1.8.1 版本为基础进行编写,是一本全面介绍 Alluxio 相关技术原理与实践案例的书籍。本书主要内容包括 Alluxio 系统快速入门、Alluxio 系统架构及读写工作机制、Alluxio 与底层存储系统的集成、Alluxio 与上层计算框架的集成、Alluxio 基本功能和不错功能的介绍与使用。此外,本书还详细介绍了 Alluxio 的应用案例与生产实践,并详细解读了 Alluxio 的核心框架和技术应用,旨在为大数据从业人员和大数据存储技术爱好者提供一个深入学习的平台,也可用作开源社区开发者指南。

]

作者简介

[

范斌,Alluxio开源项目的管理委员会成员和源码维护者,也是Alluxio公司的创始成员并现任开源副总裁。加入Alluxio项目之前, 范斌就职于谷歌山景城, 从事下一代大规模分布式存储系统的研究与开发, 并获得谷歌基础设施技术奖(Technical Infrastructure Award)。范斌2013年获得卡内基梅隆大学(Carnegie Mellon University)计算机系博士学位,博士期间从事分布式系统算法和实现,是CuckooFilter,MemC3以及高性能的多线程KV库libcuckoo的第一作者或联合作者,并在SIGCOMM,SOSP,NSDI,CoNEXT等顶级学术会议以及IEEE Transactions on Networking等顶级学术期刊上发表论文。范斌著有多项专利,其学术研究成果在Alluxio、谷歌、Facebook、英特尔、微软等高科技公司得到落地使用。顾荣,南京大学计算机科学与技术系助理研究员,并且是Alluxio项目的管理委员会成员和源码维护者,于2016年获得南京大学计算机专业博士学位,主要研究领域为大数据处理技术与系统,发表国际期刊会议论文20余篇,包括IEEE TPDS、JPDC、IEEE ICDE、IEEE IPDPS、IEEE BigData、IEEE ICPADS等。部分研究成果已经在英特尔、百度、华泰证券、苏宁易购、华为、字节跳动等公司得到了落地使用,还有部分成果被主流开源大数据系统Apache Spark和Alluxio官方版本集成发布。顾荣还担任多个学术期刊的审稿人、江苏省计算机学会大数据专委会秘书长、中国计算机学会系统软件专委会委员。

]

目录

第 1 章 Alluxio 系统快速入门 ………………………………………………………………………………… 1
1.1 Alluxio 背景概述 ……………………………………………………………………………………….. 1
1.1.1 Alluxio 系统功能简介 ……………………………………………………………………… 4
1.1.2 Alluxio 项目发展历史 ……………………………………………………………………… 5
1.2 获取/编译 Alluxio 软件 ………………………………………………………………………………. 6
1.2.1 下载预编译的 Alluxio 可执行包 ………………………………………………………. 6
1.2.2 编译 Alluxio 源代码 ………………………………………………………………………… 6
1.3 Alluxio 的搭建部署及程序运行 ………………………………………………………………… 10
1.3.1 单机模式 ………………………………………………………………………………………. 10
1.3.2 集群模式 ………………………………………………………………………………………. 13
1.3.3 高可用集群模式 ……………………………………………………………………………. 16
第 2 章 Alluxio 系统架构及读写工作机制 …………………………………………………………….. 22
2.1 Alluxio 的构架简介与基本特征 ………………………………………………………………… 22
2.1.1 提升远程存储读写性能 …………………………………………………………………. 23
2.1.2 统一持久化数据访问接口 ……………………………………………………………… 24
2.1.3 数据的快速复用和共享 …………………………………………………………………. 26
2.2 Alluxio 的系统功能组件 …………………………………………………………………………… 27
2.2.1 Alluxio Master 组件 ……………………………………………………………………….. 27
2.2.2 Alluxio Worker 组件 ………………………………………………………………………. 29
2.2.3 Alluxio Client 组件 ………………………………………………………………………… 30
2.3 Alluxio 读写场景的行为分析 ……………………………………………………………………. 31
2.3.1 Alluxio 的读场景数据流 ………………………………………………………………… 31
2.3.2 Alluxio 的写场景数据流 ………………………………………………………………… 37
第 3 章 Alluxio 与底层存储系统的集成 ………………………………………………………………… 40
3.1 配置 HDFS 作为 Alluxio 底层存储 ……………………………………………………………. 40
3.1.1 准备步骤与基本配置流程 ……………………………………………………………… 41
3.1.2 高级参数配置 ……………………………………………………………………………….. 43
3.1.3 使用 HDFS 在本地运行 Alluxio ……………………………………………………… 44
3.2 配置 Secure HDFS 作为 Alluxio 底层存储 …………………………………………………. 44
3.2.1 准备步骤与基本配置流程 ……………………………………………………………… 45
3.2.2 使用安全认证模式 HDFS 在本地运行 Alluxio ………………………………… 46
3.3 配置 AWS S3 作为 Alluxio 底层存储 ………………………………………………………… 47
3.3.1 准备步骤与基本配置流程 ……………………………………………………………… 47
3.3.2 高级参数配置 ……………………………………………………………………………….. 49
3.3.3 使用 S3 在本地运行 Alluxio …………………………………………………………… 51
3.4 配置 Google GCS 作为 Alluxio 底层存储 ………………………………………………….. 52
3.4.1 准备步骤与基本配置流程 ……………………………………………………………… 52
3.4.2 高级参数配置 ……………………………………………………………………………….. 53
3.4.3 使用 GCS 本地运行 Alluxio …………………………………………………………… 54
3.5 配置 Azure BLOB Store 作为 Alluxio 底层存储系统 …………………………………. 55
3.5.1 准备步骤与基本配置流程 ……………………………………………………………… 55
3.5.2 使用 Azure BLOB Store 本地运行 Alluxio ………………………………………. 57
第 4 章 Alluxio 与上层计算框架的集成 ………………………………………………………………… 58
4.1 Alluxio 的管理员操作命令 ……………………………………………………………………….. 58
4.1.1 操作命令列表 ……………………………………………………………………………….. 59
4.1.2 操作命令示例 ……………………………………………………………………………….. 59
4.2 Alluxio 的用户操作命令 …………………………………………………………………………… 61
4.2.1 操作命令列表 ……………………………………………………………………………….. 62
4.2.2 操作命令示例 ……………………………………………………………………………….. 65
4.3 Alluxio 与 Hadoop 操作命令行的集成 ………………………………………………………. 78
4.3.1 前期准备与配置 ……………………………………………………………………………. 78
4.3.2 具体使用示例 ……………………………………………………………………………….. 79
4.4 Alluxio 与 Hadoop MapReduce 的集成 ………………………………………………………. 79
4.4.1 前期准备与配置 ……………………………………………………………………………. 80
4.4.2 具体使用示例 ……………………………………………………………………………….. 82
4.5 Alluxio 与 Spark 的集成 …………………………………………………………………………… 83
4.5.1 前期准备与配置 ……………………………………………………………………………. 83
4.5.2 使用 Alluxio 作为输入/输出源 ……………………………………………………….. 85
4.5.3 Alluxio 与 Spark 集成常见问题分析与解决 …………………………………….. 86
4.6 Alluxio 与 Hive 的集成 …………………………………………………………………………….. 89
4.6.1 安装并配置 Hive 环境 …………………………………………………………………… 89
4.6.2 使用 Alluxio 存储部分 Hive 表 ………………………………………………………. 90
4.6.3 使用 Alluxio 作为默认文件系统(存储全部数据) ………………………… 93
4.6.4 检查 Hive 和 Alluxio 的集成情况(支持 Hive 2.x) ……………………….. 95
4.7 Alluxio 与 Presto 的集成 …………………………………………………………………………… 96
4.7.1 前期准备 ………………………………………………………………………………………. 96
4.7.2 部署分发 Alluxio 客户端 jar 包 ………………………………………………………. 98
4.7.3 Presto 操作命令示例 ……………………………………………………………………… 98
4.8 Alluxio 与 TensorFlow 的集成 ………………………………………………………………… 100
4.8.1 深度学习面临的数据挑战 ……………………………………………………………. 100
4.8.2 基于 Alluxio

封面

ALLUXIO:大数据统一存储原理与实践

书名:ALLUXIO:大数据统一存储原理与实践

作者:范斌

页数:220

定价:¥79.0

出版社:电子工业出版社

出版日期:2018-05-01

ISBN:9787121367823

PDF电子书大小:112MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注