精通Python爬虫框架Scrapy
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-11-12 21:44:39
微信
赏
支付宝
文档简介:
目 录
版权信息
版权声明
内容提要
关于作者
关于审稿人
前言
第1章 Scrapy简介
1.1 初识Scrapy
1.2 喜欢Scrapy的更多理由
1.3 关于本书:目标和用途
1.4 掌握自动化数据爬取的重要性
1.4.1 开发健壮且高质量的应用,并提供合理规划
1.4.2 快速开发高质量最小可行产品
1.4.3 Google不会使用表单,爬取才能扩大规模
1.4.4 发现并融入你的生态系统
1.5 在充满爬虫的世界里做一个好公民
1.6 Scrapy不是什么
1.7 本章小结
第2章 理解HTML和XPath
2.1 HTML、DOM树表示以及XPath
2.1.1 URL
2.1.2 HTML文档
2.1.3 树表示法
2.1.4 你会在屏幕上看到什么
2.2 使用XPath选择HTML元素
2.2.1 有用的XPath表达式
2.2.2 使用Chrome获取XPath表达式
2.2.3 常见任务示例
2.2.4 预见变化
2.3 本章小结
第3章 爬虫基础
3.1 安装Scrapy
3.1.1 MacOS
3.1.2 Windows
3.1.3 Linux
3.1.4 最新源码安装
3.1.5 升级Scrapy
3.1.6 Vagrant:本书中运行示例的官方方式
3.2 UR2IM——基本抓取流程
3.2.1 URL
3.2.2 请求和响应
3.2.3 Item
3.3 一个Scrapy项目
3.3.1 声明item
3.3.2 编写爬虫
3.3.3 填充item
3.3.4 保存文件
3.3.5 清理——item装载器与管理字段
3.3.6 创建contract
3.4 抽取更多的URL
3.4.1 使用爬虫实现双向爬取
3.4.2 使用CrawlSpider实现双向爬取
3.5 本章小结
第4章 从Scrapy到移动应用
4.1 选择手机应用框架
4.2 创建数据库和集合
4.3 使用Scrapy填充数据库
4.4 创建手机应用
4.4.1 创建数据库访问服务
4.4.2 创建用户界面
4.4.3 将数据映射到用户界面
4.4.4 数据库字段与用户界面控件间映射
4.4.5 测试、分享及导出你的手机应用
4.5 本章小结
第5章 迅速的爬虫技巧
5.1 需要登录的爬虫
5.2 使用JSON API和AJAX页面的爬虫
5.2.1 在响应间传参
5.3 30倍速的房产爬虫
5.4 基于Excel文件爬取的爬虫
5.5 本章小结
第6章 部署到Scrapinghub
6.1 注册、登录及创建项目
6.2 部署爬虫与计划运行
6.3 访问item
6.4 计划定时爬取
6.5 本章小结
第7章 配置与管理
7.1 使用Scrapy设置......
评论
发表评论