本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:
一.ForeSpider脚本结构
ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。
1.频道
包括“频道脚本”。
2.模板
(1)模板配置
包括“模板脚本”。
(2)链接部分
包括“链接抽取脚本”、“链接过滤脚本”。
(3)数据部分
包括“数据抽取脚本”。
(4)字段部分
【频道脚本】
第二级:模板脚本
模板脚本可以编写整个模板配置的脚本。
①选中该模板;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,即可创建模板脚本。
【模板脚本】
第三级:链接/数据抽取脚本
1.链接文本
链接脚本可以编写整个链接抽取的脚本。
①选中该链接抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,即可创建链接脚本。
【链接脚本】
2.数据抽取脚本
数据抽取脚本可以编写整个数据抽取的脚本。
①选中该数据抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。
【选择数据抽取脚本】
【数据抽取脚本】
第四级:链接过滤、字段取值/清洗脚本
1.链接过滤脚本
链接过滤脚本可以编写链接地址或链接标题过滤的脚本。
①选中该链接抽取;
②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;
③可自动生成相应的“地址过滤/标题脚本"区。
【地址过滤脚本】
【标题过滤脚本】
2.字段取值脚本
字段取值脚本可以编写该字段取值的脚本。
①选中该字段;
②在“采集内容”处,勾选“高级取值->脚本过滤”;
③可自动生成相应的字段取值脚本区。
【字段取值脚本】
3.字段处理脚本
字段处理脚本可以编写该字段数据处理的脚本。
①选中该字段;
②在“数据清洗”处,勾选“脚本处理”;
③可自动生成相应的字段处理脚本区。
【选择字段处理脚本】
【字段处理脚本】
,