机器学习——Python实践

相关资料

[

基于大数据的人工智能如今异常火爆。 对于普通人而言,人工智能意味着自动驾驶、电脑医生,甚至意味着许许多多人类的工作将被机器取代。而对于有志于投身大数据和人工智能领域的传统IT 人士来说,需要了解这些名词的真正内涵,更加需要了解支撑这个所谓“智能时代”背后的机和原理。机器的智能当然不是天生的,需要通过从数据中学习来获得,而 Python 是目前数据分和机器学习领域处于领先地位的编程语言。本书以初学者的视角,带领读者通过 Python 编程实践,实际接触和了解机器学习以及 Python 语言本身,希望在给读者带去知识和技能的同时,也能大家悄悄开启一段驾驭智能时代的旅程。
——王若平 IBM 客户创新中心质量保证部负责人

本书面向于有一定编程基础,并且有志于大数据分析、数据挖掘和算法的程序员、项目经理,以及相关专业的学生。本书不同于教授编程语言的普通教材,而是通过列举很多经典实例,来帮助读者理解 Python 语言,同时可以使读者理解和延伸对大数据分析与挖掘的认识。未来是一个数据的世界,希望读者通过这本书能够很好地驾驭数据,给予我们更大的帮助!同时感谢作者的辛努力与智慧!
——李鸿飞,IBM 高级经理, Cloud Application Development Leader,Complex SI & Arch Leade

]

本书特色

[

本书系统地讲解了机器学习的基本知识,以及在实际项目中使用机器学习的基本步骤和方法;详细地介绍了在进行数据处理、分析时怎样选择合适的算法,以及建立模型并优化等方法,通过不同的例子展示了机器学习在具体项目中的应用和实践经验,是一本非常好的机器学习入门和实践的书籍。不同于很多讲解机器学习的书籍,本书以实践为导向,使用 scikit-learn 作为编程框架,强调简单、快速地建立模型,解决实际项目问题。读者通过对本书的学习,可以迅速上手实践机器学习,并利用机器学习解决实际问题。本书非常适合于项目经理、有意从事机器学习开发的程序员,以及高校相关专业在的读学生阅读。

]

内容简介

[

本书系统地讲解了机器学习的基本知识, 以及在实际项目中使用机器学习的基本步骤和方法 ; 详细地介绍了在进行数据处理、分析时怎样选择合适的算法, 以及建立模型并优化等方法, 通过不同的例子展示了机器学习在具体项目中的应用和实践经验, 是一本非常好的机器学习入门和实践的书籍。

]

作者简介

[

魏贞原,IBM高级项目经理,主要负责银行客户的复杂系统开发。同时是IBM CIC量子计算COE团队的Python领域专家(Subject Matter Expert),负责量子计算应用的探索工作,对机器学习和深度学习有深入的研究,精通于运用机器学习来解决数据科学的问题。并运营“知之Python”公众号,定期分享Python在机器学习和深度学习的实践知识。

]

目录

**部分 初始1 初识机器学习 21.1 学习机器学习的误区 21.2 什么是机器学习 31.3 Python 中的机器学习 31.4 学习机器学习的原则 51.5 学习机器学习的技巧 51.6 这本书不涵盖以下内容 61.7 代码说明 61.8 总结 62 Python 机器学习的生态圈 72.1 Python . 72.2 SciPy . 92.3 scikit-learn 92.4 环境安装 102.4.1 安装 Python 102.4.2 安装 SciPy . 102.4.3 安装 scikit-learn . 112.4.4 更加便捷的安装方式 112.5 总结 123 **个机器学习项目. 133.1 机器学习中的 Hello World 项目 133.2 导入数据 143.2.1 导入类库 143.2.2 导入数据集 153.3 概述数据 153.3.1 数据维度 163.3.2 查看数据自身 163.3.3 统计描述数据 173.3.4 数据分类分布 173.4 数据可视化 183.4.1 单变量图表 183.4.2 多变量图表 203.5 评估算法 203.5.1 分离出评估数据集 213.5.2 评估模式 213.5.3 创建模型 213.5.4 选择*优模型 223.6 实施预测 233.7 总结 244 Python 和 SciPy 速成 . 254.1 Python 速成 . 254.1.1 基本数据类型和赋值运算 264.1.2 控制语句 284.1.3 复杂数据类型 294.1.4 函数 324.1.5 with 语句 334.2 NumPy 速成. 344.2.1 创建数组 344.2.2 访问数据 354.2.3 算数运算 354.3 Matplotlib 速成 364.3.1 绘制线条图 364.3.2 散点图 374.4 Pandas 速成 394.4.1 Series 394.4.2 DataFrame 404.5 总结 41第二部分 数据理解5 数据导入. 445.1 CSV 文件 . 445.1.1 文件头 455.1.2 文件中的注释 455.1.3 分隔符 455.1.4 引号 455.2 Pima Indians 数据集 455.3 采用标准 Python 类库导入数据. 465.4 采用 NumPy 导入数据 465.5 采用 Pandas 导入数据. 475.6 总结 476 数据理解. 486.1 简单地查看数据 486.2 数据的维度 496.3 数据属性和类型 506.4 描述性统计 506.5 数据分组分布(适用于分类算法) 516.6 数据属性的相关性 526.7 数据的分布分析 536.8 总结 547 数据可视化 . 557.1 单一图表 557.1.1 直方图 557.1.2 密度图 567.1.3 箱线图 577.2 多重图表 587.2.1 相关矩阵图 587.2.2 散点矩阵图 607.3 总结 61第三部分 数据准备8 数据预处理 . 648.1 为什么需要数据预处理 648.2 格式化数据 658.3 调整数据尺度 658.4 正态化数据 678.5 标准化数据 688.6 二值数据 698.7 总结 709 数据特征选定 719.1 特征选定 729.2 单变量特征选定 729.3 递归特征消除 739.4 主要成分分析 759.5 特征重要性 769.6 总结 76第四部分 选择模型10 评估算法. 7810.1 评估算法的方法 7810.2 分离训练数据集和评估数据集 7910.3 K 折交叉验证分离 8010.4 弃一交叉验证分离 8110.5 重复随机分离评估数据集与训练数据集 8210.6 总结 8311 算法评估矩阵 8511.1 算法评估矩阵 8511.2 分类算法矩阵 8611.2.1 分类准确度 8611.2.2 对数损失函数 8711.2.3 AUC 图. 8811.2.4 混淆矩阵 9011.2.5 分类报告 9111.3 回归算法矩阵 9311.3.1 平均绝对误差 9311.3.2 均方误差 9411.3.3 决定系数( . )??9511.4 总结 9612 审查分类算法 9712.1 算法审查 9712.2 算法概述 9812.3 线性算法 9812.3.1 逻辑回归 9912.3.2 线性判别分析 10012.4 非线性算法 10112.4.1 K 近邻算法 10112.4.2 贝叶斯分类器 10212.4.3 分类与回归树 10312.4.4 支持向量机 10412.5 总结 10513 审查回归算法 10613.1 算法概述 10613.2 线性算法 10713.2.1 线性回归算法 10713.2.2 岭回归算法 10813.2.3 套索回归算法 10913.2.4 弹性网络回归算法 11013.3 非线性算法. 11113.3.1 K 近邻算法. 11113.3.2 分类与回归树 11213.3.3 支持向量机 11213.4 总结 11314 算法比较. 11514.1 选择*佳的机器学习算法 11514.2 机器学习算法的比较 11614.3 总结 11815 自动流程. 11915.1 机器学习的自动流程 11915.2 数据准备和生成模型的 Pipeline 12015.3 特征选择和生成模型的 Pipeline 12115.4 总结 122第五部分 优化模型16 集成算法. 12416.1 集成的方法 12416.2 装袋算法 12516.2.1 装袋决策树 12516.2.2 随机森林 12616.2.3 极端随机树 12716.3 提升算法 12916.3.1 AdaBoost 12916.3.2 随机梯度提升 13016.4 投票算法 13116.5 总结 13217 算法调参. 13317.1 机器学习算法调参 13317.2 网格搜索优化参数 13417.3 随机搜索优化参数 13517.4 总结 136第六部分 结果部署18 持久化加载模型 13818.1 通过 pickle 序列化和反序列化机器学习的模型 13818.2 通过 joblib 序列化和反序列化机器学习的模型. 14018.3 生成模型的技巧 14118.4 总结 141第七部分 项目实践19 预测模型项目模板. 14419.1 在项目中实践机器学习 14519.2 机器学习项目的 Python 模板. 14519.3 各步骤的详细说明 146步骤 1:定义问题. 147步骤 2:理解数据. 147步骤 3:数据准备. 147步骤 4:评估算法. 147步骤 5:优化模型. 148步骤 6:结果部署. 14819.4 使用模板的小技巧 14819.5 总结 14920 回归项目实例 15020.1 定义问题 15020.2 导入数据 15120.3 理解数据 15220.4 数据可视化 15520.4.1 单一特征图表 15520.4.2 多重数据图表 15720.4.3 思路总结 15920.5 分离评估数据集 15920.6 评估算法 16020.6.1 评估算法——原始数据 16020.6.2 评估算法——正态化数据 16220.7 调参改善算法 16420.8 集成算法 16520.9 集成算法调参 16720.10 确定*终模型 16820.11 总结 16921 二分类实例 . 17021.1 问题定义 17021.2 导入数据 17121.3 分析数据 17221.3.1 描述性统计 17221.3.2 数据可视化 17721.4 分离评估数据集 18021.5 评估算法 18021.6 算法调参 18421.6.1 K 近邻算法调参 18421.6.2 支持向量机调参 18521.7 集成算法 18721.8 确定*终模型 19021.9 总结 19022 文本分类实例 19222.1 问题定义 19222.2 导入数据 19322.3 文本特征提取 19522.4 评估算法 19622.5 算法调参 19822.5.1 逻辑回归调参 19922.5.2 朴素贝叶斯分类器调参 19922.6 集成算法 20022.7 集成算法调参 20122.8 确定*终模型 20222.9 总结 203附录 A 205A.1 IDE PyCharm 介绍 . 205A.2 Python 文档. 206A.3 SciPy、 NumPy、 Matplotlib 和 Pandas 文档 206A.4 树模型可视化. 206A.5 scikit-learn 的算法选择路径 209A.6 聚类分析. 209

封面

机器学习——Python实践

书名:机器学习——Python实践

作者:魏贞原著

页数:16,211页

定价:¥59.0

出版社:电子工业出版社

出版日期:2018-01-01

ISBN:9787121331107

PDF电子书大小:56MB 高清扫描完整版



本文标题:《机器学习——Python实践》PDF下载

资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!