昨天我看到一个电影网站推荐贴,突然想到可以把这个站上的所有种子都下载到本地,于是拿python随手写了个爬虫,很顺利,方法也很简单暴力。
先上效果图发文时,已经爬了1500多个种子文件,现在还在爬取中。
简单介绍一下原理
这个网站不检查ip、不检查ua,所以很简单就能爬下来。
大致流程如下:
1、正则提取当前页面所有标题和链接。
2、进入该链接,里面有个下载,见下图↓↓↓
3、点击这个链接后,会产生一个ajax请求,页面上出现一个弹出层,里面的下载地址才是真正的种子地址。
4、种子原始标题是类似MD5的无规则字符,以标题为文件名保存种子时,要注意剔除无效字符,比如斜杠(其实也只有斜杠)。
以下是完整脚本
这个爬虫使用了requests库,随便写写将就用。
如果对python和爬虫技术感兴趣的小伙伴,可以关注我,私信回复【bt】获取这个脚本。
需要更多python学习资料,可以关注我,私信回复【python】领取5G爬虫学习视频资料。
,