机械工业出版社数据科学与工程技术丛书R语言机器学习
本书特色
[
本书讲解的是在R语言平台上使用大数据技术构建可扩展机器学习模型的新技术成果。它全面展示了如何采用机器学习算法在原始数据的基础上构建机器学习模型。本书还能让那些希望利用ApacheHadoop、Hive、Pig和Spark来实现可扩展机器学习模型的读者从中受益。
]
内容简介
[
本书讲解的是在R语言平台上使用大数据技术构建可扩展机器学习模型的新技术成果。它全面展示了如何采用机器学习算法在原始数据的基础上构建机器学习模型。本书还能让那些希望利用ApacheHadoop、Hive、Pig和Spark来实现可扩展机器学习模型的读者从中受益。
]
作者简介
[
Karthik Ramasubramanian 就职于Hike Messenger,从事商业分析和数据科学方面的工作。他以前在Snapdeal 任职,负责关于客户增长和定价分析的核心统计模型。在加入 Snapdeal 之前,他曾作为中央数据库团队的一员,负责管理 Reckitt Benckiser(RB)全球业务应用的数据仓库。他在可扩展的机器学习领域具有丰富的经验,专长包括复杂的图网络和自学习神经网络。
Abhishek Singh 是美国第二大的人寿保险供应商 Prudential Financial公司的高级数据科学家。他在数据科学方面拥有丰富的行业和学术经验,涵盖咨询、教学和金融服务。他曾经在 Deloitte Advisory 领导了针对美国银行的监管风险、信用风险和资产负债表模型化需求的风险分析项目。目前,他正在为 Prudential 的人寿保险业务开发可扩展的机器学习算法。
]
目录
目 录译者序关于作者关于技术审稿人致谢第1章 机器学习和R语言入门11.1 了解发展历程21.1.1 统计学习21.1.2 机器学习21.1.3 人工智能31.1.4 数据挖掘31.1.5 数据科学41.2 概率与统计51.2.1 计数和概率的定义51.2.2 事件和关系71.2.3 随机性、概率和分布81.2.4 置信区间和假设检验91.3 R语言入门131.3.1 基本组成部分131.3.2 R 语言的数据结构141.3.3 子集处理151.3.4 函数和Apply系列171.4 机器学习过程工作流191.4.1 计划191.4.2 探索191.4.3 构建201.4.4 评估201.5 其他技术201.6 小结211.7 参考资料21第2章 数据准备和探索222.1 规划数据收集232.1.1 变量类型232.1.2 数据格式242.1.3 数据源292.2 初始数据分析302.2.1 初步印象302.2.2 把多个数据源组织到一起322.2.3 整理数据342.2.4 补充更多信息362.2.5 重塑372.3 探索性数据分析382.3.1 摘要统计量382.3.2 矩412.4 案例研究:信用卡欺诈462.4.1 数据导入462.4.2 数据变换472.4.3 数据探索482.5 小结492.6 参考资料49第3章 抽样与重抽样技术503.1 介绍抽样技术503.2 抽样的术语513.2.1 样本513.2.2 抽样分布523.2.3 总群体的均值和方差523.2.4 样本均值和方差523.2.5 汇总的均值和方差523.2.6 抽样点533.2.7 抽样误差533.2.8 抽样率533.2.9 抽样偏误533.2.10 无放回的抽样533.2.11 有放回的抽样543.3 信用卡欺诈:总群体的统计量543.3.1 数据描述543.3.2 总群体的均值553.3.3 总群体的方差553.3.4 汇总的均值和方差553.4 抽样在业务上的意义583.4.1 抽样的特征593.4.2 抽样的缺点593.5 概率和非概率抽样593.5.1 非概率抽样的类型603.6 关于抽样分布的统计理论613.6.1 大数定律613.6.2 中心极限定理633.7 概率抽样技术663.7.1 总群体的统计量663.7.2 简单随机抽样693.7.3 系统性随机抽样743.7.4 分层随机抽样773.7.5 聚类抽样823.7.6 自助抽样863.8 蒙特卡罗方法:接受-拒绝913.9 通过抽样节省计算开销的定性分析933.10 小结94第4章 R语言里的数据可视化954.1 ggplot2组件包简介964.2 世界经济发展指标974.3 折线图974.4 堆叠柱状图1024.5 散点图1064.6 箱形图1074.7 直方图和密度图1094.8 饼图1134.9 相关图1144.10 热点图1164.11 气泡图1174.12 瀑布图1204.13 系统树图1224.14 关键字云1244.15 桑基图1254.16 时间序列图1274.17 队列图1284.18 空间图1304.19 小结1334.20 参考资料133第5章 特征工程1355.1 特征工程简介1365.1.1 过滤器方法1375.1.2 包装器方法1375.1.3 嵌入式方法1385.2 了解工作数据1385.2.1 数据摘要1395.2.2 因变量的属性1395.2.3 特征的可用性:连续型或分类型1415.2.4 设置数据的假设1425.3 特征排名1435.4 变量子集的选择1465.4.1 过滤器方法1465.4.2 包装器方法1495.4.3 嵌入式方法1545.5 降维1585.6 特征工程核对清单1615.7 小结1625.8 参考资料162第6章 机器学习理论和实践1636.1 机器学习的类型1656.1.1 有监督学习1666.1.2 无监督学习1666.1.3 半监督学习1666.1.4 强化学习1666.2 机器学习算法的类别1676.3 实际环境的数据集1706.3.1 房产售价1706.3.2 购买偏好1706.3.3 Twitter订阅和文章1716.3.4 乳腺癌1716.3.5 购物篮1726.3.6 亚马逊美食评论1726.4 回归分析1736.5 相关分析1746.5.1 线性回归1766.5.2 简单线性回归1776.5.3 多元线性回归1806.5.4 模型诊断:线性回归1826.5.5 多项回归1916.5.6 逻辑回归1946.5.7 洛基(logit)变换1956.5.8 几率比1966.5.9 模型诊断:逻辑回归2026.5.10 多项逻辑回归2096.5.11 广义线性模型2126.5.12 结论2136.6 支持向量机2136.6.1 线性SVM2146.6.2 二元SVM分类模型2156.6.3 多类别SVM2176.6.4 结论2186.7 决策树2186.7.1 决策树的类型2196.7.2 决策指标2206.7.3 决策树学习方法2226.7.4 集成树2356.7.5 结论2406.8 朴素贝叶斯方法2416.8.1 条件概率2416.8.2 贝叶斯定理2416.8.3 先验概率2426.8.4 后验概率2426.8.5 似然和边际似然2426.8.6 朴素贝叶斯方法2426.8.7 结论2466.9 聚类分析2466.9.1 聚类方法简介2476.9.2 聚类算法2476.9.3 内部评估2556.9.4 外部评估2566.9.5 结论2576.10 关联规则挖掘2586.10.1 关联概念简介2586.10.2 规则挖掘算法2596.10.3 推荐算法2656.10.4 结论2706.11 人工神经网络2716.11.1 人类认知学习2716.11.2 感知器2726.11.3 Sigmoid神经元2746.11.4 神经网络的体系架构2756.11.5 有监督与无监督的神经网络2766.11.6 神经网络的学习算法2776.11.7 前馈反向传播2786.11.8 深度学习2846.11.9 结论2896.12 文本挖掘方法2896.12.1 文本挖掘简介2906.12.2 文本摘要2916.12.3 TF-IDF2926.12.4 词性标注2946.12.5 关键字云2976.12.6 文本分析:Microsoft Cognitive Services2976.12.7 结论3056.13 在线机器学习算法3056.13.1 模糊C均值聚类3066.13.2 结论3086.14 构建模型的核对清单3096.15 小结3096.16 参考资料309第7章 机器学习模型的评估3117.1 数据集3117.1.1 房产售价3127.1.2 购买偏好3137.2 模型性能和评估入门3147.3 模型性能评估的目标3157.4 总群体的稳定性指数3167.5 连续型输出的模型评估3207.5.1 平均绝对误差3217.5.2 均方根误差3237.5.3 R23247.6 离散型输出的模型评估3267.6.1 分类矩阵3277.6.2 灵敏度和特异性3307.6.3 ROC曲线下的面积3317.7 概率技术3347.7.1 K 折交叉验证3347.7.2 自助抽样3367.8 Kappa误差指标3377.9 小结3407.10 参考资料341第8章 模型性能改进3428.1 机器学习和统计建模3438.2 Caret组件包概述3448.3 超参数简介3468.4 超参数优化3488.4.1 人工搜索3498.4.2 人工网格搜索3518.4.3 自动网格搜索3538.4.4 *优搜索3548.4.5 随机搜索3568.4.6 自定义搜索3578.5 偏误和方差权衡3598.5.1 装袋或自助聚合3638.5.2 增强3638.6 集成学习简介3638.6.1 投票集成3648.6.2 集成学习中的高级方法3658.7 在R语言里演示集成技术3678.7.1 装袋树3678.7.2 决策树的梯度增强3698.7.3 混合knn和rpart3728.7.4 利用caretEnemble进行堆叠3748.8 高级主题:机器学习模型的贝叶斯优化3778.9 小结3818.10 参考资料382第9章 可扩展机器学习和相关技术3849.1 分布式处理和存储3849.1.1 Google File System3859.1.2 MapReduce3869.1.3 R语言里的并行执行3869.2 Hadoop生态系统3899.2.1 MapReduce3909.2.2 Hive3939.2.3 Apache Pig3969.2.4 HBase3999.2.5 Spark4009.3 在R语言环境下用 Spark进行机器学习4019.3.1 设置环境变量4019.3.2 初始化 Spark 会话4029.3.3 加载数据并运行预处理4029.3.4 创建 SparkDataFrame4039.3.5 构建机器学习模型4039.3.6 对测试数据进行预测4049.3.7 终止 SparkR 会话4049.4 在R语言里利用 H2O 进行机器学习4059.4.1 安装组件包4069.4.2 H2O集群的初始化4069.4.3 在R语言里使用H2O的深度学习演示4079.5 小结4109.6 参考资料411
封面
书名:机械工业出版社数据科学与工程技术丛书R语言机器学习
作者:(印度)卡西克·拉玛苏布兰马尼安
页数:432
定价:¥99.0
出版社:机械工业出版社
出版日期:2017-06-01
ISBN:9787111595915
PDF电子书大小:155MB 高清扫描完整版
本文标题:《机械工业出版社数据科学与工程技术丛书R语言机器学习》PDF下载
资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!