敏捷数据科学-用Hadoop创建数据分析应用

相关资料

[

“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”
—— mat kelcey matpalm.com博主

]

本书特色

[

《敏捷数据科学:用hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在hadoop 上构建数据分析应用;用python、apache pig 及d3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学:用hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。

]

内容简介

[

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在hadoop上构建数据分析应用。
使用诸如python、apache pig和d3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 heroku 中以 app 形式运行。
■ 用敏捷式大数据开发方法论创建分析应用
■ 用数据-价值栈,在一系列敏捷周期中创建价值
■ 用多种数据结构从单个数据集中提取特征,获取洞察
■ 用图表可视化数据,通过交互性报表从不同角度展示数据
■ 用历史数据进行预测,将预测转化为行动
■ 在每个迭代周期过后获取用户反馈,确保项目方向正确

]

作者简介

[

作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。
译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。

]

目录

第1 部分 起步 ……………………………………………………… 1第1 章 理论 ………………………………………………………… 3敏捷大数据 ………………………………………………………………………………………………3big words 定义 …………………………………………………………………………………………4敏捷大数据团队 ………………………………………………………………………………………..5认识机遇和问题 ………………………………………………………………………………….6敏捷大数据流程 ……………………………………………………………………………………… 11代码检查和结对编程 ……………………………………………………………………………….12敏捷的场所:开发的效率 …………………………………………………………………………13协作空间 ………………………………………………………………………………………….14私人空间 ………………………………………………………………………………………….14个人空间 ………………………………………………………………………………………….14用大幅打印件明确表达想法 ……………………………………………………………………..15第2 章 数据 ……………………………………………………… 17电子邮件 ………………………………………………………………………………………………..17处理原始数据 …………………………………………………………………………………………18原始的电子邮件 ………………………………………………………………………………..18结构化与半结构化数据 ………………………………………………………………………18sql ……………………………………………………………………………………………………….20nosql …………………………………………………………………………………………………..24序列化 ……………………………………………………………………………………………..24从演变的模式中抽取和展示特征 …………………………………………………………25数据流水线 ………………………………………………………………………………………26数据透视 ………………………………………………………………………………………………..27社交网络 ………………………………………………………………………………………….28时间序列 ………………………………………………………………………………………….30自然语言 ………………………………………………………………………………………….31概率 …………………………………………………………………………………………………33小结 ………………………………………………………………………………………………………35第3 章 敏捷开发工具 …………………………………………… 37可扩展性= 简洁………………………………………………………………………………………37敏捷大数据处理 ………………………………………………………………………………………38设置运行python 的虚拟环境 …………………………………………………………………….39使用avro 对事件进行序列化 ……………………………………………………………………40在python 中使用avro ……………………………………………………………………….40收集数据 ………………………………………………………………………………………………..42使用pig 处理数据……………………………………………………………………………………44安装pig ……………………………………………………………………………………………45使用mongodb 发布数据 …………………………………………………………………………49安装mongodb ………………………………………………………………………………….49安装mongodb 的java 驱动程序 ………………………………………………………..50安装mongo-hadoop ……………………………………………………………………………50用pig 向mongodb 推送数据 ……………………………………………………………..50使用elasticsearch 搜索数据 ……………………………………………………………………..52安装 …………………………………………………………………………………………………52使用wonderdog 整合elasticsearch 和pig ……………………………………………53对工作流程的反思 …………………………………………………………………………………..55轻量级的web 应用 ………………………………………………………………………………….56python 和 flask …………………………………………………………………………………56展示数据 ………………………………………………………………………………………………..58安装bootstrap …………………………………………………………………………………..58启用bootstrap …………………………………………………………………………………..59使用d3.js 和nvd3.js 可视化数据 …………………………………………………………63小结 ………………………………………………………………………………………………………64第4 章 在云端 ……………………………………………………. 65引言 ………………………………………………………………………………………………………65github …………………………………………………………………………………………………..67dotcloud …………………………………………………………………………………………………67dotcloud echo 服务 ……………………………………………………………………………68python 工作者服务 …………………………………………………………………………….71amazon web services ………………………………………………………………………………71simple storage service ……………………………………………………………………….71elastic mapreduce …………………………………………………………………………….72mongodb 即服务 ………………………………………………………………………………79辅助工具(instrumentation) ……………………………………………………………………..81google analytics ……………………………………………………………………………….81mortar data ………………………………………………………………………………………82第2 部分 登上金字塔 …………………………………………… 85第5 章 收集和展示数据 ……………………………………….. 89整合软件栈 …………………………………………………………………………………………….90收集并序列化收件箱 ……………………………………………………………………………….90处理和发布邮件数据 ……………………………………………………………………………….91在浏览器中显示邮件 ……………………………………………………………………………….93用flask 和pymongo 处理邮件数据 ……………………………………………………..94使用jinja2 渲染html5 页面 …………………………………………………………….94敏捷检查点 …………………………………………………………………………………………….98生成电子邮件清单 …………………………………………………………………………………..99用mongodb 显示邮件 ………………………………………………………………………99对数据展示的分析 ………………………………………………………………………….. 101搜索邮件 ……………………………………………………………………………………………… 106使用pig,elasticsearch 和wonderdog 构建索引 ………………………………… 106在网页中搜索邮件数据 ……………………………………………………………………. 107结论 ……………………………………………………………………………………………………. 108第6 章 使用图表可视化数据 ………………………………… 111优秀的图表 ………………………………………………………………………………………….. 112抽取实体:邮件地址 …………………………………………………………………………….. 112抽取邮件 ……………………………………………………………………………………….. 112对时间进行可视化 ………………………………………………………………………………… 116结论 ……………………………………………………………………………………………………. 122第7 章 利用报表探索数据 …………………………………… 123为数据添加联系 ……………………………………………………………………………………. 126用tf-idf 从邮件中提取关键字 ……………………………………………………………… 133小结 ……………………………………………………………………………………………………. 138第8 章 预测 …………………………………………………….. 141预测电子邮件的回复率 ………………………………………………………………………….. 142个性化 …………………………………………………………………………………………………. 147小结 ……………………………………………………………………………………………………. 148第9 章 驱动行动 ……………………………………………….. 149好邮件的属性 ………………………………………………………………………………………. 150使用朴素贝叶斯方法进行更好的预测 ……………………………………………………… 150p(reply | from ∩ to) ……………………………………………………………………………. 150p(reply | token) ……………………………………………………………………………………. 151实时预测 ……………………………………………………………………………………………… 153记录事件日志 ………………………………………………………………………………………. 157小结 ……………………………………………………………………………………………………. 157索引 ………………………………………………………………… 159

封面

敏捷数据科学-用Hadoop创建数据分析应用

书名:敏捷数据科学-用Hadoop创建数据分析应用

作者:朱尔尼

页数:184

定价:¥49.0

出版社:电子工业出版社

出版日期:2014-07-01

ISBN:9787121236198

PDF电子书大小:107MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注