喜欢段子的朋友,可以抓些段子保存成TXT格式,放到电子书里空闲时间看看,网上搜索了一下,这个网站不错,干净没广告:
网址也是简单直接,不用费力气去分析,这个网站的结构是多页目录,目录中的连接对应具体的文章,所以抓取的工作也分为两个步骤:
- 抓取目录
- 抓取文章
文章的目录是这样排列的,每页10个段子,一共是164页:
我们抓取其中任意一页:
用CSV或TXT抓取,然后简单的筛选、提取就得到了文章的具体网址。然后我们用这个查询创建函数,只要添加一个参数页码p:
文章抓取
一篇文章是一个页面,与上一步抓取的网址相对应,先抓一个独立页面:
同样使用文本格式来抓取,然后筛选、提取出我们要的文字,用这个查询来建立一个文章抓取的函数,添加一个参数网址url:
通过这两个步骤的准备工作,可以开始最后的抓取工作:
第一步:建立一个1-164的列表,转为表格,并设置为文本
第二步:用这一列的页码作为参数,引用目录抓取函数p,来抓取所有文章的网址:
展开抓取的表格,得到所有文章的网址:
第三步:用网址列作为参数,引用文章抓取函数,抓取段子内容:
展开整理一下就得到文本内容了:
如果很懒不想自己去翻页,可以放到Power BI Desktop中用自动播放来处理一下:
,