离线和实时大数据开发实战

本书特色

[

本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。

]

目录

目  录?Contents前言**篇 数据大图和数据平台大图第1章 数据大图 21.1 数据流程 21.1.1 数据产生 31.1.2 数据采集和传输 51.1.3 数据存储处理 61.1.4 数据应用 71.2 数据技术 81.2.1 数据采集传输主要技术 91.2.2 数据处理主要技术 101.2.3 数据存储主要技术 121.2.4 数据应用主要技术 131.3 数据相关从业者和角色 141.3.1 数据平台开发、运维工程师 141.3.2 数据开发、运维工程师 151.3.3 数据分析工程师 151.3.4 算法工程师 161.3.5 业务人员 161.4 本章小结 17第2章 数据平台大图 182.1 离线数据平台的架构、技术和设计 192.1.1 离线数据平台的整体架构 192.1.2 数据仓库技术 202.1.3 数据仓库建模技术 232.1.4 数据仓库逻辑架构设计 262.2 实时数据平台的架构、技术和设计 272.2.1 实时数据平台的整体架构 282.2.2 流计算技术 292.2.3 主要流计算开源框架 292.3 数据管理 322.3.1 数据探查 322.3.2 数据集成 332.3.3 数据质量 332.3.4 数据屏蔽 342.4 本章小结 35第二篇 离线数据开发:大数据开发的主战场第3章 Hadoop原理实践 383.1 开启大数据时代的Hadoop 383.2 HDFS和MapReduce优缺点分析 403.2.1 HDFS 413.2.2 MapReduce 423.3 HDFS和MapReduce基本架构 433.4 MapReduce内部原理实践 463.4.1 MapReduce逻辑开发 463.4.2 MapReduce任务提交详解 473.4.3 MapReduce内部执行原理详解 483.5 本章小结 52第4章 Hive原理实践 534.1 离线大数据处理的主要技术:Hive 534.1.1 Hive出现背景 534.1.2 Hive基本架构 554.2 Hive SQL 564.2.1 Hive 关键概念 574.2.2 Hive 数据库 594.2.3 Hive 表DDL 604.2.4 Hive表DML 634.3 Hive SQL执行原理图解 654.3.1 select 语句执行图解 664.3.2 group by语句执行图解 674.3.3 join语句执行图解 694.4 Hive函数 734.5 其他SQL on Hadoop技术 744.6 本章小结 76第5章 Hive优化实践 775.1 离线数据处理的主要挑战:数据倾斜 775.2 Hive优化 795.3 join无关的优化 795.3.1 group by引起的倾斜优化 795.3.2 count distinct优化 805.4 大表join小表优化 805.5 大表join大表优化 825.5.1 问题场景 825.5.2 方案1:转化为mapjoin 835.5.3 方案2:join时用case when语句 845.5.4 方案3:倍数B表,再取模join 845.5.5 方案4:动态一分为二 875.6 本章小结 89第6章 维度建模技术实践 906.1 大数据建模的主要技术:维度建模 906.1.1 维度建模关键概念 916.1.2 维度建模一般过程 956.2 维度表设计 966.2.1 维度变化 966.2.2 维度层次 996.2.3 维度一致性 1006.2.4 维度整合和拆分 1016.2.5 维度其他 1026.3 深入事实表 1046.3.1 事务事实表 1046.3.2 快照事实表 1066.3.3 累计快照事实表 1076.3.4 无事实的事实表 1086.3.5 汇总的事实表 1086.4 大数据的维度建模实践 1096.4.1 事实表 1096.4.2 维度表 1106.5 本章小结 110第7章 Hadoop数据仓库开发实战 1117.1 业务需求 1127.2 Hadoop数据仓库架构设计 1137.3 Hadoop数据仓库规范设计 1147.3.1 命名规范 1157.3.2 开发规范 1157.3.3 流程规范 1167.4 FutureRetailer数据仓库构建实践 1187.4.1 商品维度表 1187.4.2 销售事实表 1207.5 数据平台新架构——数据湖 1217.6 本章小结 123第三篇 实时数据开发:大数据开发的未来第8章 Storm流计算开发 1278.1 流计算技术的鼻祖:Storm技术 1288.1.1 Storm基本架构 1298.1.2 Storm关键概念 1308.1.3 Storm并发 1328.1.4 Storm核心类和接口 1338.2 Storm实时开发示例 1338.2.1 语句生成spout 1348.2.2 语句分割bolt 1358.2.3 单词计数bolt 1368.2.4 上报bolt 1368.2.5 单词计数topology 1378.2.6 单词计数并发配置 1398.3 Storm高级原语Trident 1428.3.1 Trident引入背景 1428.3.2 Trident基本思路 1428.3.3 Trident流操作 1438.3.4 Trident的实时开发实例 1458.4 Storm关键技术 1478.4.1 spout的可靠性 1478.4.2 bolt的可靠性 1488.4.3 Storm反压机制 1498.5 本章小结 150第9章 Spark Streaming流计算开发 1519.1 Spark生态和核心概念 1519.1.1 Spark概览 1519.1.2 Spark核心概念 1539.1.3 Spark生态圈 1579.2 Spark生态的流计算技术:Spark Streaming 1589.2.1 Spark Streaming基本原理 1599.2.2 Spark Streaming核心API 1599.3 Spark Streaming的实时开发示例 1619.4 Spark Streaming调优实践 1629.5 Spark Streaming关键技术 1649.5.1 Spark Streaming可靠性语义 1649.5.2 Spark Streaming反压机制 1659.6 本章小结 166第10章 Flink流计算开发 16710.1 流计算技术新贵:Flink 16710.1.1 Flink技术栈 16810.1.2 Flink关键概念和基本原理 16910.2 Flink API 17210.2.1 API概览 17210.2.2 DataStream API 17310.3 Flink实时开发示例 18010.4 Flink关键技术详解 18210.4.1 容错机制 18210.4.2 水位线 18410.4.3 窗口机制 18510.4.4 撤回 18710.4.5 反压机制 18710.5 本章小结 188第11章 Beam技术 18911.1 意图一统流计算的Beam 19011.1.1 Beam的产生背景 19011.1.2 Beam技术 19111.2 Beam技术核心:Beam Model 19311.3 Beam SDK 19611.3.1 关键概念 19611.3.2 Beam SDK 19711.4 Beam窗口详解 20211.4.1 窗口基础 20211.4.2 水位线与延迟数据 20311.4.3 触发器 20411.5 本章小结 205第12章 Stream SQL实时开发实战 20612.1 流计算SQL原理和架构 20712.2 流计算SQL:未来主要的实时开发技术 20812.3 Stream SQL 20912.3.1 Stream SQL源表 20912.3.2 Stream SQL结果表 20912.3.3 Stream SQL维度表 21012.3.4 Stream SQL临时表 21112.3.5 Stream SQL DML 21112.4 Stream SQL的实时开发实战 21212.4.1 select操作 21212.4.2 join操作 21412.4.3 聚合操作 21812.5 撤回机制 22112.6 本章小结 222参考文献 224

封面

离线和实时大数据开发实战

书名:离线和实时大数据开发实战

作者:朱松岭

页数:223

定价:¥59.0

出版社:机械工业出版社

出版日期:2018-05-01

ISBN:9787111596783

PDF电子书大小:45MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注