套路!机器学习北美数据科学的私房课

相关资料

[

推荐序一

伴随着计算机硬件、数据获取和存储技术、分布式算法的飞速发展,以及海量数据的积累,数据科学成为近年来飞速发展的学科。但确切地说,数据科学还不是一门定义完善的学科。直到*近两年,大学里才慢慢开始建立数据科学相关的项目和学位。林荟博士的著作及时地填补了“如何成为成功的数据科学家”领域的空白。由于数据科学家的就业市场非常火热,很多领域的人才都想通过提升自身技术水平和经验成为真正的数据科学家。但正如林博士在书中指出的“数据科学家=数据 科学 艺术家”一样,想成为成功的数据科学家,各个领域的人才需要通过大量的学习和实践来弥补自身的欠缺。比如传统的统计学家和计量经济师需要熟悉编程、数据库操作和大数据分布式计算架构。对于刚刚毕业的理工科硕士和博士,积累利用真实数据解决实际问题的经验,提高书面和口头表达能力,提升团队协作能力和自身的影响力是至关重要的。
林博士的著作首先系统地阐述了什么是数据科学以及成为成功数据科学家的必要条件。然后通过具体的数据和例子来引导读者一步步地理解和学习如何获取这些必要的条件成为真正的数据科学家。本书中各个章节的数据和具体操作都由开源系统的R语言来实现。读者可以下载所有的数据和代码,通过自己运行这些代码来加深对每个章节知识的理解,并且可以很快灵活地学以致用来解决学习和工作中遇到的数据科学相关的项目。
对数据科学家而言,很大一部分精力是要花在数据的理解、整合和预处理上面。林博士通过自己在数据科学领域多年的经验来仔细讲解如何理解和预处理数据,这是本书的亮点之一。没有很好地理解数据,没有透彻地了解具体要解决的问题,就不可能找到好的解决方法。接着林博士用语言生动诙谐的例子介绍了在数据科学中常见的模型和方法。读者可以通过相关例子和代码来高效理解这些模型和方法,并可以快速地学以致用。虽然几乎所有的算法都有相应的程序包来实现,但作为成功的数据科学家,理解模型的理论背景和基础是必需的。因为只有理解了这些程序包的理论基础,才能有效地对不同数据不同问题来选择解决的方法并且设置合理的参数。本书对常用模型和方法进行了介绍和引申,可以帮助读者了解各个模型和方法背后的理论。简言之,本书系统地阐述了如何成为成功的数据科学家,读者可以通过本书的数据和代码,高效学习并能很快应用到实际项目中去。
伴随着大数据应用从互联网科技公司普及到传统商业领域诸如零售、制造、交通、电力和能源、航空航天、金融、医疗保健,以及大数据在各级政府部门政策制定和实施中的应用,数据科学家的需求还会逐年增高。尤其是大数据在新兴领域如工业互联网、物联网、智能家居和传感器网络的重要应用,很多相应的数据科学家的职位也会有新的需求。比如在制造业工业物联网领域的数据科学家岗位,除了上述提到的知识和经验,通常还会要求对制造业背后的物理和工程原理有所了解。具备了相应工业的基础知识和原理,数据科学家才能更好地理解数据并建立有效的模型和应用。这也对各理工科背景的人才敞开了数据科学的大门。同时通过大量用户数据的积累,数据科学家也对人文学科的人才敞开了大门。数据科学是一个飞速发展的学科,它通过数据和模型来影响各个学科和领域从而产生价值。数据科学家使得采集的数据有了真正的用武之地。对数据科学感兴趣的人才们,请从本书开始,不断提升自己的技术和经验,真正成为成功的数据科学家,为各行各业带来颠覆性的创新吧!

李明写于美国西雅图,默瑟岛
2017年6月中心序言作者简介:李明博士,毕业于美国爱荷华州立大学(Iowa State
University )拥有物理和统计学背景。曾任通用电气全球研发中心(GE Global Research Center)统计方向负责人(Statistical Leader),沃尔玛技术部(WalmartTechnology)数据科学家(Data Scientist)。现任美国亚马逊(Amazon)资深数据科学家(Senior
Data Scientist)。李博士还担任美国统计学会(American Statistical Association)质量和生产力分会(Quality and Productivity Section)2017年度主席,以及统计在物理和工程应用年度奖评选委员会主席(SPES Award,one of American Statistical Association annual awards)。李博士的职业生涯中曾涉及金融、零售、制造、电力和能源、交通、医疗保健和航空航天等多个产业及相关跨产业领域。
推荐序二

又来一个找我写序的……感觉自己都快成了写序专业户,惭愧惭愧。以前叫我写序的作者我一般都不熟,但这次这位我还算熟,所以终于可以说点电视上不让播的内容了。八年前林博士和我一同进入爱荷华州立大学(俗称Ames村办大学)统计系读博,当时我们的背景完全相反:我在测度论课上奄奄一息,在R里如鱼得水,林荟在R入门课上死去活来,在理论课上羽化登仙。毫不脸红地吹个牛:要不是我当年的提携,她早就能写出这本书了。
玩笑归玩笑。总的来说,看到这本书时我还是吃了一惊。看来我读博的时候一定是遇到了一个“假林”荟。尽管上学的时候她在村办大学的牲口学院(好吧,兽医学院)有一些科研经历,但我记得也就是画画ROC曲线、跑跑逻辑回归而已。士别三年,竟然已经成了一名R 语言老司机,而且还写出一本主题这么宏大的书。书里举的例子都是种子、生猪、农业论坛,鬼知道她这几年都经历了些什么。以前她抗拒写代码,主要原因是对着电脑时间长了怕脸上长痘,看来后来还是决定为(数据)科学献身了。我们假装感动三秒钟。
书的内容我大致看了一遍,因为都是熟人,我评价起来也就不客套了;按书的内容,分两方面说:R语言和数据科学。
一般来说,我不在乎别人的R代码写得好不好,因为反正写得再好也没我写得好(明年请在我的坟头多烧两张纸)。我对计算机相关书籍的*标准是不要把“阈值”写成“阀值”,我仔细看过了,本书作者写的是对的。看R相关的书籍时,我也有个怪癖,就是找有没有 if (x == TRUE) 或者 y[which(y > 3)]这样的语句,其实语句都没错,只是看看作者的强迫癌是不是到了晚期(if (x)和y[y > 3]就已足够)。本书作者似乎没有患强迫癌。不过这也无妨,很多时候我觉得对代码吹毛求疵反而影响效率,而且不太老的司机分享的经验对新司机可能更有用。在我眼中,这本书在 R 方面有两个亮点:一是里面介绍了很多 R 的附加包,例如 caret,读者拿起来应该能很快上手;二是几乎以假乱真地模拟数据,这一点可能会为人诟病(不是真实数据),但我觉得模拟数据有其独特的价值,就是你掌控着整个小宇宙,数据从生成到建模到解释,一路的过程你都可以看清楚,而且可以变着法子变换新数据玩,学习模型使用方法。
数据科学我就不敢妄言了,毕竟我毕业之后已经转向纯码农,很少做有关统计或数据的一线工作。就我的快速粗读来看,我感觉话题的覆盖范围很广,但深度也比较适宜。广度和深度通常只能二选一,也没有优劣之分。我读书少,也限于篇幅,就随意翻两页点评两个例子,从我自己的视角管窥一下本书的价值。比如多年前我就坚信,讲主成分分析的人如果不马上讲偏*小二乘就是耍流氓,尤其是主成分回归,是流氓中的流氓,而本书作者很明确地指出了主成分回归的弊病。再比如Bootstrap方法,作者讲,“假如你只有一个样本,难道你不停地有放回抽样就能得到大样本了?”这是很漂亮的一拳。很多方法因为实施简单,所以很容易让人忘了它们的先决条件。我非常反对迷信模型或方法甚至软件,世上没那么多万金油。基于同样的原因,我很欣慰看到本书不是清一色 ggplot2图形(虽然有些图可能长得略丑,但想得美就好了)。
仔细看完本书的话应该能看出作者是苹果粉(某一页上画图时字体用的是Songti
SC)以及“段子狗”。都读完了博士,选电脑还这么看脸,还整天为各种段子操碎了心,所以这位数据科学家也是蛮拼的。
谢益辉写于奥马哈

]

本书特色

[

数据科学家目前是北美zui热门的职业之一,平均年薪突破10万美元。但数据科学并不是一个低门槛的行业,除了对数学、统计、计算机等相关领域的技术要求以外,还要相关应用领域的知识。《套路!机器学习》的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学能解决的问题,数据科学家需要的技能,及背后的“分析哲学”。对于新手而言,一开始就直奔艰深的理论,很容易因为困难而失去兴趣zui终放弃。因此《套路!机器学习》倡导的是一种循序渐进的启发教学路径,着重在于数据科学的实际应用,让读者能够重复书中的结果,学习数据分析技能zui好的方式是实践!为了平衡理论和应用,书中包括了一些选学小节,用来介绍更多的模型数理背景或给出必要的参考资料来源。抽丝剥茧介绍技术内核,帮助大家知其然,同时知其所以然。希望笔者在北美从事数据科学工作多年踏遍大大小小不计其数的坑换来的经验,能够帮助读者更加顺利地成为数据科学家!

]

内容简介

[

亚马逊资深数据科学家李明博士、统计之都创始人谢益辉博士抢先品读
当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型,如神经网络,深度学习(实际上就是多层神经网络)。各路媒体和“砖家”深谙吃瓜群众不明觉厉的心态,所以就像个“妓院头牌“似的越发摆谱。作者并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切;只想尽可能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得读者们能够少走弯路。

]

作者简介

[

2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科,爱荷华州立大学统计学院硕士和博士。曾任爱荷华州立大学兽医学院统计咨询师(2009-2013)及商学院分析咨询师(2012-2013)。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。

]

目录

第1章 白话数据科学 11.1 什么是数据科学 31.2 什么是数据科学家 51.2.1 数据科学家需要的技能 61.2.2 数据科学算法总结 101.3 数据科学可以解决什么问题 201.3.1 前提要求 201.3.2 问题种类 221.4 小结 25第2章 数据集 262.1 服装消费者数据 262.2 航空公司满意度调查 332.3 生猪疫情风险预测数据 37第3章 数据分析流程 413.1 从问题到数据 423.2 从数据到信息 443.3 从信息到行动 46第4章 数据预处理 474.1 介绍 474.2 数据清理 504.3 缺失值填补 524.3.1 中位数或众数填补 534.3.2 K-近邻填补 544.3.3 装袋树填补 564.4 中心化和标量化 564.5 有偏分布 594.6 处理离群点 634.7 共线性 664.8 稀疏变量 704.9 编码名义变量 714.10 小结 73第5章 数据操作 755.1 数据读写 765.1.1 取代传统数据框的tibble对象 765.1.2 高效数据读写:readr包 805.1.3 数据表对象读取 835.2 数据整合 915.2.1 base包:apply() 915.2.2 plyr包:ddply()函数 935.2.3 dplyr包 965.3 数据整形 1025.3.1 reshape2包 1025.3.2 tidyr包 1055.4 小结 107第6章 基础建模技术 1096.1 有监督和无监督 1096.2 误差及其来源 1116.2.1 系统误差和随ji误差 1116.2.2 因变量误差 1176.2.3 自变量误差 1216.3 数据划分和再抽样 1226.3.1 划分训练集和测试集 1236.3.2 重抽样 1316.4 小结 135第7章 模型评估度量 1367.1 回归模型评估度量 1367.2 分类模型评估度量 1397.2.1 Kappa统计量 1417.2.2 ROC曲线 1437.2.3 提升图 1457.3 小结 146第8章 特征工程 1488.1 特征构建 1498.2 特征提取 1528.2.1 初步探索特征 1538.2.2 主成分分析 1588.2.3 探索性因子分析 1638.2.4 高维标度化 1678.2.5 知识扩展:3种降维特征提取方法的理论 1718.3 特征选择 1778.3.1 过滤法 1788.3.2 绕封法 1888.4 小结 195第9章 线性回归及其衍生 1969.1 普通线性回归 1979.1.1 zui小二乘线性模型 1979.1.2 回归诊断 2019.1.3 离群点、高杠杆点和强影响点 2049.2 收缩方法 2059.2.1 岭回归 2059.2.2 Lasso 2099.2.3 弹性网络 2129.3 知识扩展:LASSO的变量选择功能 2139.4 主成分和偏*小二乘回归 2159.5 小结 221第10章 广义线性模型压缩方法 22210.1 初识GLMNET 22310.2 收缩线性回归 22710.3 逻辑回归 23510.3.1 普通逻辑回归 23510.3.2 收缩逻辑回归 23610.3.3 知识扩展:群组lasso逻辑回归 23910.4 收缩多项回归 24310.5 泊松收缩回归 24610.6 小结 249第11章 树模型 25011.1 分裂准则 25211.2 树的修剪 25611.3 回归树和决策树 26011.4 装袋树 26811.5 随ji森林 27311.6 助推法 27711.7 知识扩展:助推法的可加模型框架 28311.8 知识扩展:助推树的数学框架 28611.8.1 数学表达 28611.8.2 梯度助推数值优化 28911.9 小结 290第12章 神经网络 29212.1 投影寻踪回归(PROJECTION PURSUIT REGRESSION) 29312.2 神经网络(NEURAL NETWORKS) 29612.3 神经网络拟合 29912.4 训练神经网络 30012.5 用CARET包训练神经网络 30212.6 小结 311参考文献 312

封面

套路!机器学习北美数据科学的私房课

书名:套路!机器学习北美数据科学的私房课

作者:林荟

页数:332

定价:¥68.0

出版社:电子工业出版社

出版日期:2017-10-01

ISBN:9787121326585

PDF电子书大小:80MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注