大数据丛书深入理解FLINK:实时大数据处理实践

本书特色

[

本书介绍了当下*流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。

]

内容简介

[

本书介绍了当下很流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。

]

作者简介

[

国内首批持牌个人征信机构北京华道征信大数据高级架构师、技术总监,主持同业征信事业部系统与数据研发工作,负责消费信贷业务系统架构设计、风控模型架构设计、大数据风控服务平台架构设计;承担大数据与人工智能在金融领域应用的研究工作。曾就职于人行征信中心应收账款融资登记团队,主持央行动产融资登记服务系统与数据分析系统研发,领导国内动产融资登记服务领域行业门户网站(中登网)建设。

]

目录

第 1 章 流式数据架构理论 ……………………………………………………………………. 1 1.1 大数据处理架构演进历程 ………………………………………………………………. 11.2 案例分析 ……………………………………………………………………………………….. 81.2.1 SK 电信驾驶安全性评分 ………………………………………………………. 81.2.2 流式机器学习应用 ……………………………………………………………… 121.3 流式数据架构基本概念 ………………………………………………………………… 171.3.1 流 ………………………………………………………………………………………. 171.3.2 时间 …………………………………………………………………………………… 181.3.3 窗口 …………………………………………………………………………………… 211.3.4 水印 …………………………………………………………………………………… 231.3.5 触发器 ……………………………………………………………………………….. 231.3.6 数据处理模式 …………………………………………………………………….. 231.3.7 如何理解流式数据架构的内在机制 …………………………………….. 271.4 根据事件时间开滚动窗口 …………………………………………………………….. 281.4.1 what:转换/where:窗口 ………………………………………………….. 291.4.2 when:水印 ……………………………………………………………………….. 291.4.3 when:触发器 ……………………………………………………………………. 321.4.4 when:迟到生存期 …………………………………………………………….. 341.4.5 how:累加模式 ………………………………………………………………….. 351.5 一致性 …………………………………………………………………………………………. 371.5.1 有状态计算 ………………………………………………………………………… 371.5.2 exactly-once 语义 ………………………………………………………………… 381.5.3 异步屏障快照 …………………………………………………………………….. 391.5.4 保存点 ……………………………………………………………………………….. 441.6 思考题 …………………………………………………………………………………………. 45第 2 章 编程基础 ………………………………………………………………………………. 46 2.1 Flink 概述 ……………………………………………………………………………………. 462.2 让轮子转起来 ………………………………………………………………………………. 472.2.1 本书约定 ……………………………………………………………………………. 472.2.2 搭建单机版环境 …………………………………………………………………. 482.2.3 配置 IDEA …………………………………………………………………………. 512.3 编程模型 ……………………………………………………………………………………… 532.3.1 分层组件栈 ………………………………………………………………………… 532.3.2 流式计算模型 …………………………………………………………………….. 542.3.3 流处理编程 ………………………………………………………………………… 572.4 运行时 …………………………………………………………………………………………. 622.4.1 运行时结构 ………………………………………………………………………… 622.4.2 任务调度 ……………………………………………………………………………. 662.4.3 物理执行计划 …………………………………………………………………….. 692.5 思考题 …………………………………………………………………………………………. 70第 3 章 流处理 API ……………………………………………………………………………. 71 3.1 流处理 API 概述…………………………………………………………………………… 713.2 时间处理 ……………………………………………………………………………………… 733.2.1 时间 …………………………………………………………………………………… 733.2.2 水印 …………………………………………………………………………………… 743.2.3 周期性水印生成器 ……………………………………………………………… 753.2.4 间歇性水印生成器 ……………………………………………………………… 773.2.5 递增式水印生成器 ……………………………………………………………… 783.3 算子 …………………………………………………………………………………………….. 793.3.1 算子函数 ……………………………………………………………………………. 803.3.2 数据分区 ……………………………………………………………………………. 833.3.3 资源共享 ……………………………………………………………………………. 853.3.4 RichFunction ………………………………………………………………………. 853.3.5 输出带外数据 …………………………………………………………………….. 863.4 窗口 …………………………………………………………………………………………….. 863.4.1 窗口分类 ……………………………………………………………………………. 873.4.2 窗口函数 ……………………………………………………………………………. 903.4.3 触发器 ……………………………………………………………………………….. 943.4.4 清除器 ……………………………………………………………………………….. 963.4.5 迟到生存期 ………………………………………………………………………… 963.5 连接器 …………………………………………………………………………………………. 973.5.1 HDFS 连接器 ……………………………………………………………………… 983.5.2 Kafka …………………………………………………………………………………. 993.5.3 异步 I/O ……………………………………………………………………………. 1023.6 状态管理 ……………………………………………………………………………………. 1043.6.1 状态分类 ………………………………………………………………………….. 1043.6.2 托管的 Keyed State ……………………………………………………………. 1043.6.3 状态后端配置 …………………………………………………………………… 1063.7 检查点 ……………………………………………………………………………………….. 1073.8 思考题 ……………………………………………………………………………………….. 108第 4 章 批处理 API ………………………………………………………………………….. 109 4.1 批处理 API 概述…………………………………………………………………………. 1094.1.1 程序结构 ………………………….

封面

大数据丛书深入理解FLINK:实时大数据处理实践

书名:大数据丛书深入理解FLINK:实时大数据处理实践

作者:余海峰

页数:304

定价:¥89.0

出版社:电子工业出版社

出版日期:2019-04-01

ISBN:9787121360459

PDF电子书大小:143MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注