Python网络爬虫 Scrapy框架

内容简介

[

  互联网上存在着大量值得收集的公共信息,而爬虫技术就是获取这些公共信息的主要工具。《Python网络爬虫(Scrapy框架)》以主流的Scrapy爬虫框架为例,介绍了Python网络爬虫的组成、爬虫框架的使用以及分布式爬虫等内容。《Python网络爬虫(Scrapy框架)》运用了大量案例和实践,融入了含金量十足的开发经验,使得内容紧密结合实际应用。在此基础上,《Python网络爬虫(Scrapy框架)》还通过丰富的练习和操作实践,帮助读者巩固所学的内容。《Python网络爬虫(Scrapy框架)》配以多元的学习资源和支持服务,包括视频、案例素材、学习社区等,为读者提供全方位的学习体验。  《Python网络爬虫(Scrapy框架)》适合作为计算机、大数据等相关专业的教材,也适合具有一定Linux或Python开发基础的人员阅读,还可以作为爬虫工程师的学习用书。

]

目录

第1章 使用第三方库实现信息抓取任务1 使用第三方库实现北京公交站点页面信息抓取1.1.1 介绍爬虫1.1.2 HTTP1.1.3 HTML1.1.4 使用第三方库实现爬虫功能1.1.5 技能实训任务2 使用第三方库实现北京公交站点详细信息抓取1.2.1 lxml库1.2.2 第三方库数据抓取及保存1.2.3 技能实训本章小结本章作业第2章 初探Scrapy爬虫框架任务1 安装Scrapy爬虫框架并创建爬虫工程2.1.1 根据使用场景划分爬虫种类2.1.2 开发基于Scrapy爬虫框架的工程任务2 学习并掌握Scrapy爬虫框架各模块的功能2.2.1 Scrapy爬虫工程组成2.2.2 Scrapy爬虫框架架构本章小结本章作业第3章 提取网页数据任务1 使用Scrapy的选择器提取豆瓣电影信息3.1.1 Response对象3.1.2 css选择器3.1.3 多层级网页爬取3.1.4 技能实训任务2 使用正则表达式从电影介绍详情中提取信息3.2.1 正则表达式3.2.2 技能实训本章小结本章作业第4章 Scrapy数据保存(文件、MySQL、MongoDB)任务一 使用Feed exports将爬取的电影信息保存到常见数据格式文件中4.1.1 Feed exports4.1.2 技能实训任务2 使用pipeline将爬取的电影信息数据保存到数据库中4.2.1 Python操作MySQL数据库4.2.2 pipeline模块4.2.3 将数据保存到MongoDB中4.2.4 技能实训本章小结本章作业第5章 Scrapy反反爬技术任务1 学习反爬虫和反反爬虫策略5.1.1 反爬虫方法和反反爬虫策略5.1.2 Scrapy设置实现反反爬5.1.3 技能实训任务2 学习Scrapy框架中*多常用的设置……

封面

Python网络爬虫 Scrapy框架

书名:Python网络爬虫 Scrapy框架

作者:肖睿 陈磊

页数:199

定价:¥45.0

出版社:人民邮电出版社

出版日期:2020-01-01

ISBN:9787115527295

PDF电子书大小:75MB 高清扫描完整版



本文标题:《Python网络爬虫 Scrapy框架》PDF下载

资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!