机械工业出版社大数据技术丛书SPARK机器学习:核心技术与实践

本书特色

[

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。

]

内容简介

[

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。

]

作者简介

[

About the Authors?关 于 作 者
Alex Tellez是一名终身的数据黑客/爱好者,对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验,包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能/机器学习会议上进行过多次演讲,同时也在大学讲授关于神经网络的课程。闲暇时间,Alex喜欢和家人在一起,骑自行车,并利用机器学习来满足他对法国葡萄酒的好奇心!
首先,我要感谢Michal与我一起编写本书。同样作为的机器学习(Machine Learning,以下简称ML)爱好者、自行车爱好者、跑者和父亲,在一年来共同努力的过程中,我们对彼此有了更深的了解。换句话说,没有Michal的支持和鼓励,本书是不可能完成的。
接下来,我要感谢我的妈妈、爸爸和哥哥Andres,从我出生天直到现在的每一步,你们都陪伴在我的周围。毋庸置疑,我的哥哥仍会是我的英雄,是我永远仰望的人,是我的指路灯。当然,还要感谢我美丽的妻子Denise和女儿Miya,在每个夜晚和周末给予我写作上的关心和支持。我无法描述你们对我而言意味着多少,你们是我保持持续创作的灵感和动力。对我的女儿Miya,我的希望是,有一天当你拿起这本书时,会意识到你的老爸并不像看起来那么傻。About the Authors?关 于 作 者
Alex Tellez是一名终身的数据黑客/爱好者,对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验,包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能/机器学习会议上进行过多次演讲,同时也在大学讲授关于神经网络的课程。闲暇时间,Alex喜欢和家人在一起,骑自行车,并利用机器学习来满足他对法国葡萄酒的好奇心!
首先,我要感谢Michal与我一起编写本书。同样作为的机器学习(Machine Learning,以下简称ML)爱好者、自行车爱好者、跑者和父亲,在一年来共同努力的过程中,我们对彼此有了更深的了解。换句话说,没有Michal的支持和鼓励,本书是不可能完成的。
接下来,我要感谢我的妈妈、爸爸和哥哥Andres,从我出生天直到现在的每一步,你们都陪伴在我的周围。毋庸置疑,我的哥哥仍会是我的英雄,是我永远仰望的人,是我的指路灯。当然,还要感谢我美丽的妻子Denise和女儿Miya,在每个夜晚和周末给予我写作上的关心和支持。我无法描述你们对我而言意味着多少,你们是我保持持续创作的灵感和动力。对我的女儿Miya,我的希望是,有一天当你拿起这本书时,会意识到你的老爸并不像看起来那么傻。
后,我也要感谢你——读者,感谢你对这个令人兴奋的领域以及难以置信的技术感兴趣。无论你是一名经验丰富的ML专家,还是希望立足的新人,你都会找到适合自己的内容,我希望你能像Michal和我一样,从本书中获得很多。
Max Pumperla是一名数据科学家和工程师,专注于深度学习及其应用。他目前在Skymind担任深度学习工程师,并且是aetros.com的联合创始人。Max是几个Python软件包的作者和维护者,包括elephas,一个使用Spark的分布式深度学习库。他的开源足迹包括对许多流行的机器学习库的贡献,如keras、deeplearning4j和hyperopt。他拥有汉堡大学的代数几何博士学位。
Michal Malohlava是Sparkling Water的创建者、极客和开发者,Java、Linux、编程语言爱好者,拥有10年以上的软件开发经验。他于2012年在布拉格的查尔斯大学获得博士学位,并在普渡大学攻读博士后。
在学习期间,他关注利用模型驱动方法和领域特定语言构建分布式、嵌入式、实时和模块化系统,参与了各种系统的设计和开发,包括SOFA和分形组件系统以及jPapabench控制系统。
现在,他的主要兴趣是大数据计算。他参与了高级大数据计算平台H2O的开发,并将其嵌入到Spark引擎中作为Sparkling Water项目发布。
我要感谢我的妻子Claire,感谢她对于我的爱和鼓励。

]

目录

目  录?Contents译者序关于作者前言第1章 大规模机器学习和Spark入门 11.1 数据科学 21.2 数据科学家:21世纪*炫酷的职业 21.2.1 数据科学家的一天 31.2.2 大数据处理 41.2.3 分布式环境下的机器学习算法 41.2.4 将数据拆分到多台机器 61.2.5 从Hadoop MapReduce到Spark 61.2.6 什么是Databricks 71.2.7 Spark包含的内容 81.3 H2O.ai简介 81.4 H2O和Spark MLlib的区别 101.5 数据整理 101.6 数据科学:一个迭代过程 111.7 小结 11第2章 探索暗物质:希格斯玻色子 122.1 Ⅰ型错误与Ⅱ型错误 122.1.1 寻找希格斯玻色子 132.1.2 LHC和数据的创建 132.1.3 希格斯玻色子背后的理论 142.1.4 测量希格斯玻色子 142.1.5 数据集 142.2 启动Spark与加载数据 152.2.1 标记点向量 222.2.2 创建训练和测试集合 242.2.3 **个模型:决策树 262.2.4 下一个模型:集合树 322.2.5 *后一个模型:H2O深度学习 372.2.6 构建一个3层DNN 392.3 小结 45第3章 多元分类的集成方法 463.1 数据 473.2 模型目标 483.2.1 挑战 483.2.2 机器学习工作流程 483.2.3 使用随机森林建模 613.3 小结 78第4章 使用NLP和Spark Streaming预测电影评论 804.1 NLP简介 814.2 数据集 824.3 特征提取 854.3.1 特征提取方法:词袋模型 854.3.2 文本标记 864.4 特征化——特征哈希 894.5 我们来做一些模型训练吧 924.5.1 Spark决策树模型 934.5.2 Spark朴素贝叶斯模型 944.5.3 Spark随机森林模型 954.5.4 Spark GBM模型 964.5.5 超级学习器模型 974.6 超级学习器 974.6.1 集合所有的转换 1014.6.2 使用超级学习器模型 1054.7 小结 105第5章 word2vec预测和聚类 1075.1 词向量的动机 1085.2 word2vec解释 1085.2.1 什么是单词向量 1085.2.2 CBOW模型 1105.2.3 skip-gram模型 1115.2.4 玩转词汇向量 1125.2.5 余弦相似性 1135.3 doc2vec解释 1135.3.1 分布式内存模型 1135.3.2 分布式词袋模型 1145.4 应用word2vec并用向量探索数据 1165.5 创建文档向量 1185.6 监督学习任务 1195.7 小结 123第6章 从点击流数据中抽取模式 1256.1 频繁模式挖掘 1266.2 使用Spark MLlib进行模式挖掘 1306.2.1 使用FP-growth进行频繁模式挖掘 1316.2.2 关联规则挖掘 1366.2.3 使用prefix span进行序列模式挖掘 1386.2.4 在MSNBC点击流数据上进行模式挖掘 1416.3 部署模式挖掘应用 1476.4 小结 154第7章 使用GraphX进行图分析 1557.1 基本的图理论 1567.1.1 图 1567.1.2 有向和无向图 1567.1.3 阶和度 1577.1.4 有向无环图 1587.1.5 连通分量 1597.1.6 树 1607.1.7 多重图 1607.1.8 属性图 1617.2 GraphX分布式图计算引擎 1627.2.1 GraphX中图的表示 1637.2.2 图的特性和操作 1657.2.3 构建和加载图 1707.2.4 使用Gephi可视化图结构 1727.2.5 图计算进阶 1787.2.6 GraphFrame 1817.3 图算法及其应用 1837.3.1 聚类 1837.3.2 顶点重要性 1857.4 GraphX在上下文中 1887.5 小结 189第8章 Lending Club借贷预测 1908.1 动机 1908.1.1 目标 1918.1.2 数据 1928.1.3 数据字典 1928.2 环境准备 1938.3 数据加载 1938.4 探索——数据分析 1948.4.1 基本清理 1948.4.2 预测目标 2008.4.3 使用模型评分 2218.4.4 模型部署 2248.5 小结 229

封面

机械工业出版社大数据技术丛书SPARK机器学习:核心技术与实践

书名:机械工业出版社大数据技术丛书SPARK机器学习:核心技术与实践

作者:[美]亚历克斯·特列斯

页数:229

定价:¥69.0

出版社:机械工业出版社

出版日期:2017-06-01

ISBN:9787111598466

PDF电子书大小:152MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注