本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:

一.ForeSpider脚本结构

ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。

1.频道

包括“频道脚本”。

2.模板

(1)模板配置

包括“模板脚本”。

(2)链接部分

包括“链接抽取脚本”、“链接过滤脚本”。

(3)数据部分

包括“数据抽取脚本”。

(4)字段部分

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(1)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(2)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(3)

​​【频道脚本】

第二级:模板脚本

模板脚本可以编写整个模板配置的脚本。

①选中该模板;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建模板脚本。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(4)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(5)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(6)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(7)

​【模板脚本】

第三级:链接/数据抽取脚本

1.链接文本

链接脚本可以编写整个链接抽取的脚本。

①选中该链接抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建链接脚本。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(8)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(9)

​【链接脚本】

2.数据抽取脚本

数据抽取脚本可以编写整个数据抽取的脚本。

①选中该数据抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(10)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(11)

​【选择数据抽取脚本】

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(12)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(13)

​【数据抽取脚本】

第四级:链接过滤、字段取值/清洗脚本

1.链接过滤脚本

链接过滤脚本可以编写链接地址或链接标题过滤的脚本。

①选中该链接抽取;

②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;

③可自动生成相应的“地址过滤/标题脚本"区。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(14)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(15)

​【地址过滤脚本】

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(16)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(17)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(18)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(19)

​​【标题过滤脚本】

2.字段取值脚本

字段取值脚本可以编写该字段取值的脚本。

①选中该字段;

②在“采集内容”处,勾选“高级取值->脚本过滤”;

③可自动生成相应的字段取值脚本区。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(20)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(21)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(22)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(23)

​【字段取值脚本】

3.字段处理脚本

字段处理脚本可以编写该字段数据处理的脚本。

①选中该字段;

②在“数据清洗”处,勾选“脚本处理”;

③可自动生成相应的字段处理脚本区。

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(24)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(25)

​【选择字段处理脚本】

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(26)

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(27)

​【字段处理脚本】

spider的使用教程(前嗅ForeSpider脚本教程脚本概述)(28)

,