Python 数据分析实践

本书特色

[

数据分析是一个快速发展的领域,而Python已经演变成数据科学的主要语言,广泛应用于数据分析、可视化和机器学习等领域。本书从数据分析的基础内容入手,比如matplotlib、NumPy和Pandas库,介绍如何通过选择色彩图和调色板来创建可视化,之后深入统计数据分析,将帮助你掌握Spark和HDFS,为网络挖掘创建可迁移脚本。本书还详细阐述如何评价股票,检测市场有效性,使用指标和聚类等,并且还将使用多线程实现并行性,并加速你的代码。在本书结束时,读者将能够运用各种Python中的数据分析技术,并针对问题场景设计解决方案。

]

目录

Contents?目  录译者序前 言第1章为可重复的数据分析奠定基础 11.1 简介 11.2 安装Anaconda 21.3 安装数据科学工具包 31.4 用virtualenv和virtualenvwrapper创建Python虚拟环境 51.5 使用Docker镜像沙盒化Python应用 61.6 在IPython Notebook中记录软件包的版本和历史 81.7 配置IPython 111.8 学习为鲁棒性错误校验记录日志 131.9 为你的代码写单元测试 161.10 配置pandas 181.11 配置matplotlib 201.12为随机数生成器和NumPy打印选项设置种子 231.13使报告、代码风格和数据访问标准化 24第2章 创建美观的数据可视化 282.1 简介 282.2 图形化安斯库姆四重奏 282.3 选择Seaborn的调色板 312.4 选择matplotlib的颜色表 332.5 与IPython Notebook部件交互 352.6 查看散点图矩阵 382.7通过mpld3使用d3.js进行可视化 402.8 创建热图 412.9把箱线图、核密度图和小提琴图组合 442.10 使用蜂巢图可视化网络图 452.11 显示地图 472.12 使用类ggplot2图 492.13 使用影响图高亮数据 51第3章 统计数据分析和概率 533.1 简介 533.2 将数据拟合到指数分布 533.3 将聚合数据拟合到伽马分布 553.4 将聚合计数拟合到泊松分布 573.5 确定偏差 593.6 估计核密度 613.7确定均值、方差和标准偏差的置信区间 643.8 使用概率权重采样 663.9 探索极值 683.10使用皮尔逊相关系数测量变量之间的相关性 713.11使用斯皮尔曼等级相关系数测量变量之间的相关性 743.12使用点二列相关系数测量二值变量和连续变量的相关性 773.13评估变量与方差分析之间的关系 78第4章 处理数据和数值问题 814.1 简介 814.2 剪辑和过滤异常值 814.3 对数据进行缩尾处理 844.4 测量噪声数据的集中趋势 854.5 使用Box-Cox变换进行归一化 884.6 使用幂阶梯转换数据 904.7 使用对数转换数据 914.8 重组数据 934.9 应用logit()来变换比例 954.10 拟合鲁棒线性模型 974.11 使用加权*小二乘法考虑方差 994.12 使用任意精度进行优化 1014.13 使用任意精度的线性代数 103第5章网络挖掘、数据库和大数据 1075.1 简介 1075.2 模拟网页浏览 1085.3 网络数据挖掘 1105.4处理非ASCII文本和HTML实体 1125.5 实现关联表 1145.6 创建数据库迁移脚本 1175.7 在已经存在的表中增加一列 1175.8 在表创建之后添加索引 1185.9 搭建一个测试Web服务器 1205.10实现具有事实表和维度表的星形模式 1215.11 使用Hadoop分布式文件系统 1265.12 安装配置Spark 1275.13 使用Spark聚类数据 128第6章 信号处理和时间序列 1326.1 简介 1326.2 使用周期图做频谱分析 1326.3使用Welch算法估计功率谱密度 1346.4 分析峰值 1366.5 测量相位同步 1386.6 指数平滑法 1406.7 评估平滑法 1426.8 使用Lomb-Scargle周期图 1456.9 分析音频的频谱 1466.10 使用离散余弦变换分析信号 1496.11 对时序数据进行块自举 1516.12 对时序数据进行动态块自举 1536.13 应用离散小波变换 155第7章利用金融数据分析选择股票 1597.1 简介 1597.2 计算简单收益率和对数收益率 1597.3使用夏普比率和流动性对股票进行排名 1617.4使用卡玛和索提诺比率对股票进行排名 1627.5 分析收益统计 1647.6 将个股与更广泛的市场相关联 1667.7 探索风险与收益 1697.8 使用非参数运行测试检验市场 1707.9 测试随机游走 1737.10 使用自回归模型确定市场效率 1757.11 为股票价格数据库建表 1777.12 填充股票价格数据库 1787.13 优化等权重双资产组合 183第8章 文本挖掘和社交网络分析 1868.1 简介 1868.2 创建分类的语料库 1868.3 以句子和单词标记化新闻文章 1898.4词干提取、词形还原、过滤和TF-IDF得分 1898.5 识别命名实体 1938.6 提取带有非负矩阵分解的主题 1948.7 实现一个基本的术语数据库 1968.8 计算社交网络密度 2008.9 计算社交网络接近中心性 2018.10 确定中介中心性 2028.11 评估平均聚类系数 2038.12 计算图的分类系数 2048.13 获得一个图的团数 2058.14 使用余弦相似性创建文档图 206第9章 集成学习和降维 2099.1 简介 2099.2 递归特征消除 2109.3 应用主成分分析来降维 2119.4 应用线性判别分析来降维 2139.5 多模型堆叠和多数投票 2149.6 学习随机森林 2179.7使用RANSAC算法拟合噪声数据 2209.8 使用Bagging来改善结果 2229.9 用于更好学习的Boosting算法 2249.10 嵌套交叉验证 2279.11 使用joblib重用模型 2299.12 层次聚类数据 2319.13 Theano之旅 232第10章评估分类器、回归器和聚类 23510.1 简介 23510.2 直接使用混淆矩阵分类 23510.3 计算精度、召回率和F1分数 23

封面

Python 数据分析实践

书名:Python 数据分析实践

作者:伊凡.伊德里斯

页数:未知

定价:¥79.0

出版社:机械工业出版社

出版日期:2017-08-01

ISBN:9787111576402

PDF电子书大小:91MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注