PYTHON数据分析与大数据处理从入门到精通

本书特色

[

  《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为*终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了**的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。

]

内容简介

[

    《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为很终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了近期新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。

]

作者简介

[

  朱春旭,高级软件工程师,长期对企业、软件开发公司、政府机构培训大数据开发与应用课程,对Python大数据处理与分析相关应用有深入研究,并编写有《极客内参-大数据开发实战》教程45篇,总共30000 字。

]

目录

第1篇 Python程序设计第1章 Python入门 31.1 Python概述 41.2 搭建Python开发环境 61.3 Python开发工具介绍 111.4 Python软件包的管理 131.5 实训:编写“Hello World” 15本章小结 16第2章 Python基础 172.1 变量 182.2 标识符 242.3 代码组织 262.4 输入与输出 282.5 运算符与优先级 302.6 新手问答 302.7 实训:设计一个简易计算器 31本章小结 31第3章 数据类型与流程控制 323.1 数字类型 333.2 字符串类型 373.3 集合类型 403.4 流程控制语句 453.5 新手问答 473.6 实训:设计算法,输出乘法表 49本章小结 50第4章 函数、模块、包 514.1 自定义函数 524.2 函数参数 554.3 函数式编程 584.4 模块与包 634.5 新手问答 654.6 实训:设计算法,对列表进行排序 67本章小结 68第5章 面向对象的程序设计 695.1 面向对象 705.2 自定义类 715.3 属性 735.4 方法 795.5 类的继承 835.6 可调用对象 865.7 不可变对象 875.8 新手问答 885.9 实训:设计算法,构造一棵二叉树 90本章小结 92第6章 高级主题 936.1 生成器 946.2 迭代器 966.3 异步处理 976.4 错误、调试 1036.5 新手问答 1086.6 实训:使用多进程技术统计数据并汇总 109本章小结 110第2篇 数据采集与数据清洗第7章 网络数据采集 1137.1 HTTP请求概述 1147.2 XPath网页解析 1147.3 Scrapy数据采集入门 1197.4 Scrapy应对反爬虫程序 1267.5 CrawlSpider类 1317.6 分布式爬虫 1327.7 新手问答 1367.8 实训:构建百度云音乐爬虫 136本章小结 139第8章 数据清洗 1408.1 数据清洗的意义 1418.2 数据清洗的内容 1418.3 数据格式与存储类型 1428.4 数据清洗的步骤 1458.5 数据清洗的工具 1478.6 新手问答 1518.7 实训:清洗百度云音乐数据并储存到CSV  151本章小结 152第3篇 数据分析与可视化第9章 NumPy数值计算 1559.1 NumPy基础 1569.2 形状操作 1649.3 副本、浅拷贝和深拷贝 1669.4 高级索引 1689.5 排序统计 1719.6 新手问答 1739.7 实训:销售额统计  174本章小结 175第10章 Matplotlib可视化 17610.1 图形的基本要素 17710.2 绘图基础 17710.3 设置样式 18610.4 图形样例 18910.5 新手问答 19810.6 实训:营业数据可视化 199本章小结 201第11章 Pandas统计分析 20211.1 Pandas数据结构 20311.2 基础功能 21011.3 统计分析 21711.4 时间数据 22911.5 数据整理 23111.6 高级功能 23411.7 读写MySQL数据库 23611.8 新手问答 23711.9 实训:成绩分析 237本章小结 239第12章 Seaborn可视化 24012.1 Seaborn概述 24112.2 可视化数据关系 24212.3 根据数据分类绘图 24612.4 单变量与双变量 25112.5 线性关系 25612.6 新手问答 25812.7 实训:成绩分析可视化 258本章小结 260第4篇 大数据存储与快速分析篇第13章 Hadoop数据存储与基本操作 26313.1 Hadoop概述 26413.2 Hadoop数据存储与任务调度原理 26813.3 Hadoop基础环境搭建 27313.4 Hadoop部署模式 29413.5 Hadoop常用操作命令 29813.6 新手问答 30013.7 实训:动手搭建Hadoop集群环境 301本章小结 309第14章 Spark入门 31014.1 Spark概述 31114.2 Spark核心原理 31214.3 Spark基础环境搭建 31514.4 Spark运行模式 31714.5 新手问答 32114.6 实训:动手搭建Spark集群 322本章小结 323第15章 Spark RDD编程 32415.1 RDD设计原理 32515.2 RDD编程 32815.3 键值对RDD 33515.4 文件读写 34015.5 编程进阶 34215.6 新手问答 34715.7 实训:统计海鲜销售情况 348本章小结 350第16章 Spark SQL编程 35116.1 Spark SQL概述 35216.2 创建DataFrame对象 36016.3 DataFrame常用API 36416.4 保存DataFrame 37016.5 新手问答 37216.6 实训:统计手机销售情况 373本章小结 375第17章 Spark流式计算编程 37617.1 流计算简介 37717.2 Discretized Stream 37917.3 Structured Streaming 38517.4 新手问答 39717.5 实训:实时统计贷款金额 397本章小结 398第5篇 项目实战篇第18章 分析电商网站销售数据 40118.1 目标分析 40218.2 数据采集 40518.3 数据分析 411本章小结 416第19章 分析旅游网站数据 41719.1 目标分析 41819.2 数据采集 42019.3 数据分析 425本章小结 429第20章 分析在售二手房数据 43020.1 目标分析 43120.2 数据采集 43420.3 数据分析 440本章小结 446附录:Python常见面试题精选 447主要参考文献 450

封面

PYTHON数据分析与大数据处理从入门到精通

书名:PYTHON数据分析与大数据处理从入门到精通

作者:朱春旭

页数:464

定价:¥89.0

出版社:北京大学出版社

出版日期:2018-01-01

ISBN:9787301307656

PDF电子书大小:112MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注