前言:

今天为大家带来的内容是详细实例:用Python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下!

爬取网站为:http://xiaohua.zol.com.cn/youmo/

查看网页机构,爬取笑话内容时存在如下问题:

1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多,多任务进行,这里采用线程池的方式,可以有效地控制系统中并发线程的数量。避免当系统中包含有大量的并发线程时,导致系统性能下降,甚至导致 Python 解释器崩溃,引入线程池,花费时间更少,更效率。

2、查看链接笑话页内容,div元素内部文本分布比较混乱。有的分布在<p>链接内有的属于div的文本,可采用正则表达式的方式解决。

注意2种获取元素节点的方式:

1)lxml获取节点字符串

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(1)

2)正则表达式写法1,过滤回车、制表符和p标签

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(2)

3)正则表达式写法2,过滤回车、制表符和p标签

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(3)

3、完整代码

index.py

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(4)

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(5)

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(6)

runscrapy.py

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(7)

运行如下:

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(8)

总共1988个文件,下载完成。

简单python爬虫完整代码实例(用python爬虫爬取幽默笑话网站)(9)

以上就是本文的全部内容,希望对大家的学习有所帮助。

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“07”即可领取。

,