昨天我看到一个电影网站推荐贴,突然想到可以把这个站上的所有种子都下载到本地,于是拿python随手写了个爬虫,很顺利,方法也很简单暴力。

先上效果图

发文时,已经爬了1500多个种子文件,现在还在爬取中。

python爬取电影天堂(文末有福利随手写个python爬虫)(1)

简单介绍一下原理

这个网站不检查ip、不检查ua,所以很简单就能爬下来。

大致流程如下:

1、正则提取当前页面所有标题和链接。

2、进入该链接,里面有个下载,见下图↓↓↓

python爬取电影天堂(文末有福利随手写个python爬虫)(2)

3、点击这个链接后,会产生一个ajax请求,页面上出现一个弹出层,里面的下载地址才是真正的种子地址。

python爬取电影天堂(文末有福利随手写个python爬虫)(3)

4、种子原始标题是类似MD5的无规则字符,以标题为文件名保存种子时,要注意剔除无效字符,比如斜杠(其实也只有斜杠)。

以下是完整脚本

python爬取电影天堂(文末有福利随手写个python爬虫)(4)

这个爬虫使用了requests库,随便写写将就用。

如果对python和爬虫技术感兴趣的小伙伴,可以关注我,私信回复【bt】获取这个脚本。

需要更多python学习资料,可以关注我,私信回复【python】领取5G爬虫学习视频资料。

,