Python爬虫实战篇概述
基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。
解析阶段
打开猫眼电影首页 - 榜单 - TOP100榜。
可以看出,采用的是分页的形式。各个页面的 url 如下:
- 第一页:maoyan/board/4
- 第二页:maoyan/board/4?offset=10
- 第三页:maoyan/board/4?offset=20
- 第十页:maoyan/board/4?offset=90
从上面可以很容易看出,直接循环生成 offset 即可。
打开谷歌浏览器的开发者工具(快捷键:F12),分析下 DOM。
可以看出,我们需要的数据在 .board-content dd 下。
开发阶段
解析完成后,开始开发。这里分成三个步骤:
- 使用 Requests 抓取页面数据;
- 使用 PyQuery 解析内容;
- 将结果存储到文件中;
使用 Requests 抓取页面数据
使用 PyQuery 解析内容
将结果存储到文件中
获取完整代码
关注头条号 - 『蜻蜓软件』,私信回复『001』即可。
相关系列文章
Python3 爬虫教程系列文章会连载下去,大家可以关注『蜻蜓软件』的头条号,第一时间收到最新文章。
基础篇
- 什么是爬虫
- 网络库Reqeusts详解(上)
- 网络库Reqeusts详解(下)
- PyQuery详解
- Selenium详解
转载请注明:头条号 - 蜻蜓软件
,