喜欢段子的朋友,可以抓些段子保存成TXT格式,放到电子书里空闲时间看看,网上搜索了一下,这个网站不错,干净没广告:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(1)

网址也是简单直接,不用费力气去分析,这个网站的结构是多页目录,目录中的连接对应具体的文章,所以抓取的工作也分为两个步骤:

抓取目录

文章的目录是这样排列的,每页10个段子,一共是164页:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(2)

我们抓取其中任意一页:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(3)

用CSV或TXT抓取,然后简单的筛选、提取就得到了文章的具体网址。然后我们用这个查询创建函数,只要添加一个参数页码p:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(4)

文章抓取

一篇文章是一个页面,与上一步抓取的网址相对应,先抓一个独立页面:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(5)

同样使用文本格式来抓取,然后筛选、提取出我们要的文字,用这个查询来建立一个文章抓取的函数,添加一个参数网址url:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(6)

通过这两个步骤的准备工作,可以开始最后的抓取工作:

第一步:建立一个1-164的列表,转为表格,并设置为文本

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(7)

第二步:用这一列的页码作为参数,引用目录抓取函数p,来抓取所有文章的网址:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(8)

展开抓取的表格,得到所有文章的网址:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(9)

第三步:用网址列作为参数,引用文章抓取函数,抓取段子内容:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(10)

展开整理一下就得到文本内容了:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(11)

如果很懒不想自己去翻页,可以放到Power BI Desktop中用自动播放来处理一下:

powerbi显示排名后十的数据(PowerQuery网抓段子用PowerBI自动循环播放)(12)

,