智能科学与技术丛书R语言机器学习(原书第2版)

本书特色

[

本书是介绍机器学习技术的综合指南,从基础的统计学原理和R语言编程知识,到核心的机器学习理论和算法分析,以及机器学习模型的评估和改进方法,再到机器学习技术在大数据平台上的应用,书中都有详细介绍。
本书主要在第1版的基础上增加了两个部分:*个是关于时间序列模型的新章节(第 9 章),这是一个源于统计学的传统主题。第二个新增的章节是深度学习(第 11 章),它是机器学习的一个迅速崛起的子领域。除了增加这两个章节之外,本书中的文本和代码会以一种读者友好的新格式来整体呈现。新版会继续专注于使用流行的统计编程语言 R 来构建用例。对于深度学习这样的主题,我们建议采用 Python 语言来配合 TensorFlow 这样的框架。但是,在第2版中,我们会向读者展示如何在 TensorFlow 中使用 R 语言编程,因此如果读者只熟悉 R,可以暂时无须学习 Python。与第1版一样,我们通过各种实际用例保持了机器学习理论与应用的良好平衡,为读者提供了一个真正全面的机器学习主题集合。

]

内容简介

[

本书是介绍机器学习技术的综合指南,从基础的统计学原理和R语言编程知识,到核心的机器学习理论和算法分析,以及机器学习模型的评估和改进方法,再到机器学习技术在大数据平台上的应用,书中都有详细介绍。

]

作者简介

[

曼卡西克·拉玛苏布兰马尼安(Karthik Ramasubramanian)
就职于印度创业技术公司 Hike Messenger。他一直为零售、电子商务和技术行业解决跨行业的数据科学问题,开发数据驱动的解决方案并进行原型构建。Karthik 对整个数据科学生命周期(从探索数据问题,到创建数据科学模型,以及开发各行业相关产品)都具有丰富的经验。

阿布舍克·辛格(Abhishek Singh)
他领导的数据科学专业团队正在解决粮食安全、网络安全、自然灾害、医疗保健以及更多领域的紧迫问题。他对美国银行的资产进行了压力测试,开发了保险定价模型,并优化了客户的电信体验。他积极参与数据科学分析相关的思想交流、创作、公开演讲、会议和培训。他坚定地支持负责任地使用人工智能来消除偏见,并坚信合理使用AI将使生活更美好。

]

目录

译者序前言第1章 机器学习和R语言入门11.1 了解发展历程11.1.1 统计学习21.1.2 机器学习21.1.3 人工智能31.1.4 数据挖掘31.1.5 数据科学41.2 概率与统计51.2.1 计数和概率的定义51.2.2 事件和关系71.2.3 随机性、概率和分布91.2.4 置信区间和假设检验91.3 R语言入门131.3.1 基本组成部分131.3.2 R语言的数据结构141.3.3 子集处理151.3.4 函数和Apply系列171.4 机器学习过程工作流191.4.1 计划201.4.2 探索201.4.3 构建201.4.4 评估201.5 其他技术211.6 小结21第2章 数据准备和探索222.1 规划数据收集232.1.1 变量类型232.1.2 数据格式242.1.3 数据源的类型292.2 初始数据分析302.2.1 初步印象302.2.2 把多个数据源组织到一起322.2.3 整理数据342.2.4 补充更多信息372.2.5 重塑382.3 探索性数据分析382.3.1 摘要统计量392.3.2 矩422.4 案例研究:信用卡欺诈462.4.1 数据导入462.4.2 数据变换472.4.3 数据探索482.5 小结50第3章 抽样与重抽样技术513.1 介绍抽样技术513.2 抽样的术语523.2.1 样本523.2.2 抽样分布523.2.3 总群体的均值和方差533.2.4 样本均值和方差533.2.5 汇总的均值和方差533.2.6 抽样点533.2.7 抽样误差543.2.8 抽样率543.2.9 抽样偏误543.2.10 无放回的抽样543.2.11 有放回的抽样553.3 信用卡欺诈:总群体的统计量553.3.1 数据描述553.3.2 总群体的均值563.3.3 总群体的方差563.3.4 汇总的均值和方差563.4 抽样在业务上的意义593.5 概率和非概率抽样603.6 关于抽样分布的统计理论613.6.1 大数定律623.6.2 中心极限定理643.7 概率抽样技术673.7.1 总群体的统计量673.7.2 简单随机抽样703.7.3 系统性随机抽样753.7.4 分层随机抽样783.7.5 聚类抽样833.7.6 自助抽样883.8 蒙特卡罗方法:接受-拒绝933.9 小结95第4章 R语言里的数据可视化964.1 ggplot2组件包简介974.2 世界经济发展指标974.3 折线图974.4 堆叠柱状图1024.5 散点图1064.6 箱形图1074.7 直方图和密度图1094.8 饼图1134.9 相关图1144.10 热点图1164.11 气泡图1174.12 瀑布图1204.13 系统树图1224.14 关键字云1244.15 桑基图1264.16 时间序列图1274.17 队列图1294.18 空间图1304.19 小结133第5章 特征工程1355.1 特征工程简介1355.2 了解工作数据1365.2.1 数据摘要1375.2.2 因变量的属性1375.2.3 特征的可用性:连续型或   分类型1405.2.4 设置数据的假设1415.3 特征排名1415.4 变量子集的选择1445.4.1 过滤器方法1455.4.2 包装器方法1485.4.3 嵌入式方法1545.5 主成分分析1585.6 小结161第6章 机器学习理论和实践1626.1 机器学习的类型1636.1.1 有监督学习1646.1.2 无监督学习1646.1.3 半监督学习1656.1.4 强化学习1656.2 机器学习算法的类别1656.3 实际环境的数据集1686.3.1 房产售价1686.3.2 购买偏好1696.3.3 Twitter订阅和文章1696.3.4 乳腺癌1706.3.5 购物篮1706.3.6 亚马逊美食评论1706.4 回归分析1716.5 相关分析1726.5.1 线性回归1746.5.2 简单线性回归1756.5.3 多元线性回归1776.5.4 模型诊断:线性回归1806.5.5 多项回归1906.5.6 逻辑回归1936.5.7 logit变换1946.5.8 几率比1946.5.9 模型诊断:逻辑回归2006.5.10 多项逻辑回归2086.5.11 广义线性模型2116.5.12 结论2126.6 支持向量机2136.6.1 线性SVM2146.6.2 二元SVM分类模型2146.6.3 多类别SVM2166.6.4 结论2176.7 决策树2176.7.1 决策树的类型2186.7.2 决策指标2196.7.3 决策树学习方法2216.7.4 集成树2356.7.5 结论2416.8 朴素贝叶斯方法2416.8.1 条件概率2416.8.2 贝叶斯定理2416.8.3 先验概率2426.8.4 后验概率2426.8.5 似然和边际似然2426.8.6 朴素贝叶斯方法2436.8.7 结论2476.9 聚类分析2476.9.1 聚类方法简介2486.9.2 聚类算法2486.9.3 内部评估2566.9.4 外部评估2576.9.5 结论2596.10 关联规则挖掘2596.10.1 关联概念简介2596.10.2 规则挖掘算法2616.10.3 推荐算法2676.10.4 结论2736.11 人工神经网络2736.11.1 人类认知学习2736.11.2 感知器2756.11.3 Sigmoid神经元2766.11.4 神经网络的体系架构2776.11.5 有监督与无监督的神经网络2786.11.6 神经网络的学习算法2796.11.7 前馈反向传播2816.11.8 结论2866.12 文本挖掘方法2866.12.1 文本挖掘简介2876.12.2 文本摘要2886.12.3 TF-IDF2896.12.4 词性标注2916.12.5 关键字云2956.12.6 文本分析:Microsoft Cognitive Services2956.12.7 结论3046.13 在线机器学习算法3046.13.1 模糊C均值聚类3056.13.2 结论3086.14 构建模型的核对清单3086.15 小结308第7章 机器学习模型的评估3097.1 数据集3097.1.1 房产售价3097.1.2 购买偏好3117.2 模型性能和评估入门3127.3 模型性能评估的目标3137.4 总群体的稳定性指数3147.5 连续型输出的模型评估3187.5.1 平均绝对误差3207.5.2 均方根误差3217.5.3 R23227.6 离散型输出的模型评估3257.6.1 分类矩阵3257.6.2 灵敏度和特异性3297.6.3 ROC曲线下的面积3307.7 概率技术3337.7.1 K折交叉验证3337.7.2 自助抽样3357.8 Kappa误差指标3367.9 小结339第8章 模型性能改进3408.1 Caret组件包概述3418.2 超参数简介3438.3 超参数优化3458.3.1 人工搜索3468.3.2 人工网格搜索3488.3.3 自动网格搜索3498.3.4 *优搜索3518.3.5 随机搜索3538.3.6 自定义搜索3548.4 偏误和方差权衡3578.5 集成学习简介3608.5.1 投票集成3608.5.2 集成学习中的高级方法3618.6 在R语言里演示集成技术3648.6.1 装袋树3648.6.2 决策树的梯度增强3668.6.3 混合knn和rpart3698.6.4 利用caretEnsemble进行堆叠3708.7 高级主题:机器学习模型的贝叶斯优化3748.8 小结379第9章 时间序列模型3809.1 时间序列的组成部分3809.2 平稳性检验3839.3 ACF和AR模型3869.4 PACF和MA模型3889.5 ARIMA模型3919.6 具有AR误差的线性回归3979.7 小结400第10章 可扩展机器学习和相关技术40210.1 分布式处理和存储40210.1.1 GFS40310.1.2 MapReduce40410.1.3 R语言里的并行执行40410.2 Hadoop生态系统40710.2.1 MapReduce40810.2.2 Hive41110.2.3 Apache Pig41410.2.4 HBase41710.2.5 Spark41810.3 在R语言环境下用Spark进行机器学习41910.3.1 设置环境变量41910.3.2 初始化Spark会话42010.3.3 加载数据并运行预处理42010.3.4 创建SparkDataFrame42110.3.5 构建机器学习模型42110.3.6 对测试数据进行预测42210.3.7 终止SparkR会话42310.4 在R语言里利用H2O进行机器学习42310.4.1 安装组件包42410.4.2 H2O集群的初始化42410.5 小结425第11章 用Keras和TensorFlow进行深度学习42711.1 深度学习简介42711.2 深度学习架构42811.2.1 卷积神经网络42811.2.2 递归神经网络42911.2.3 生成对抗网络43011.3 深度学习的工具集43111.3.1 高级库43111.3.2 后端引擎或框架43111.3.3 硬件能力43211.3.4 编程语言的选择43211.3.5 云基础架构43211.4 用例:识别Quora中的重复问题43211.4.1 环境设置43211.4.2 数据预处理43311.4.3 基准模型43411.4.4 Siamese递归架构43511.4.5 Keras模型43711.4.6 模型的摘要43711.4.7 验证样本43811.4.8 训练模型43811.4.9 保存模型43911.4.10 模型性能43911.4.11 进行预测44011.4.12 预测示例44011.5 小结441

封面

智能科学与技术丛书R语言机器学习(原书第2版)

书名:智能科学与技术丛书R语言机器学习(原书第2版)

作者:[印]卡西克·拉玛苏布兰马尼安(Kart

页数:464

定价:¥119.0

出版社:机械工业出版社

出版日期:2019-11-01

ISBN:9787111641049

PDF电子书大小:37MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注