按键精灵初学者脚本（采集按键论坛的帖子）

大家好，我是公众号3分钟学堂的郭立员~

按键其实并不适合做采集爬虫的工具，但是该有的命令也是有的，所以练手还是可以的。

采集的流程：

①找到目标网站

②提取网页源码，一般网站是不需要协议头、cookie啥的

③分析源码中想要的内容，用正则提取出来

④保存在本地，文本、表格。。。

注意：一般不采集大型的网站，因为那些网站通常有防爬虫机制，会对ip限制，如果想要采集那些网站的数据，需要对接ip代理。

本期例子是采集按键论坛的帖子标题和网址：

效果如下：

按键精灵初学者脚本（采集按键论坛的帖子）(1)

源码：

按键精灵初学者脚本（采集按键论坛的帖子）(2)

练习时的一些体会：

①保存csv的表格形式更方便查看，不过要注意标题中不要有英文字符的逗号。

②正则匹配结果中还要html的标签，处理时有点麻烦，我是增加判断和二次提取。

③为了方便查看，在存储文件命名时加上一个时间戳（time命令），每次都可以生成一个新的文件。

=正文完=