码农界有个著名的“三次法则 (rule of three)”:如果一段代码重复出现了三次,就要考虑抽出来写一个子程序,以便复用。这是条宝贵的法则,可以衍生出更多的强迫症版本,随随便便就能举出很多喜闻乐见的例子,比如:
一个词在同一句话里出现三次就不能忍,必须换近义词;
一件事手动做三次就不能忍,必须写程序自动化;
一顿饭重复吃三口就不能忍,必须开发一个喂饭机;
同一处空气重复呼吸三口就不能忍,必须装一台呼吸机
……
发人深省,对不对?这些正是当今最严肃而真实的信仰,有着最为坚定的践行者。在古代2015年全球最大的雄性交友平台GitHub上出了个网红毛子码农、脚本狂魔Narkoz,他的人生原则是:如果一件事要耗费自己90秒以上,那就写个脚本。这些奇葩的脚本包括:如加班到21点以后就自动给老婆发马屁短信、收到蠢货DBA的任何求助邮件后自动恢复数据库的最近备份、让咖啡机等待17秒然后煮杯咖啡并等待24秒再灌入杯子(正好是作者起身走到咖啡机前的耗时)……
蛤?这是啥?
所谓现代化支付行号 (CNAPS)
也叫联行号。
就是中国人民银行搞的一套12位银行代码,用来做自动清算的。在通过手机银行app转账时,选择收款方账户时,也会看到这个代码。它的结构如下:
1 2
** * **** **** * 行别码 地区码 分支机构序号 校验码
所以如果要搭一个跟支付清算相关的系统,就很有必要把CNAPS作为基建纳入考虑。这套代码并不公开,但是公开渠道仍能从一些银行的官网查到。比如河北银行、浙商银行。
河北银行CNAPS查询
浙商银行CNAPS查询
随手上去试了两把,还挺好用。于是思路比较清楚了:穷尽所有查询策略,把返回的结果提出来存好。
怎么爬咧?
首先,选型要精准上面提到的这两家都要输校验码,攻起来有门槛。所以退而求其次,发现一家中原银行。
中原银行CNAPS查询
这就比较好对付一些,而且信息更多,连网点地址也提供。
其次,办法要对路
要理智。当然不能手工复制粘贴。平均查一个结果需要点行名、省、市,输验证码、按确认,超过10次交互动作。几千次这么做下来,非死亦残。更不要提错误率了。放弃
我比较熟悉的rvest这类简单的R爬虫包,只能对付静态网页,无法模拟网页交互行为。放弃
Python的scrapy框架很牛,也能对付验证码、AJAX异步之类问题。次一点,R里面也有Rcurl。但我都不会。放弃
要模拟用户交互行为最好的办法是Selenium这类框架(代码版按键精灵),但是当时我还不会。放弃。
其他。不明
所谓“夫未战而庙算者,得算多也”。经过一番严谨的分析,我发现:技术上搞不定——再次落入了经典的“看得上的买不起,买得起的看不上”窘境。
曲线救国办法还是有的,但就是要先停下来,离题万里去讲另一个故事。
在OA领域,我们经常会把一系列小操作对应的系统指令录下来,套个循环再复用,那就是VBA宏语言。所谓宏,实质上就是定义一组模式替换规则,套用到一组命令上进行批量批处理。这不就是“录制-修改-复用”自动化党的福音吗?看看我们平时用的最多的宏,通常就是VBA,SPSS,SAS,以及各种各样的游戏作弊器。那就是宏天生的战场。
对于本地的任务,其实最合适的工具是Selenium IDE (或Katalon之类替代品),一样从录制宏开始。但我当时并不会。好在Firefox里有一个历史悠久的代替品:iMacros。看,名字里就有一个“宏”。它也有Chrome和IE的版本,通过浏览器扩展商店装好后,模样长这样:
iMacros界面(左侧)
如果自己录一段宏,打开后长这样:
iMacros代码
由于完全是一堆动作指令,所以很容易读懂。无非是关闭其他标签页,打开一个网址,依次在几个文本控件里填入内容,最后点按钮提交。
双击录好的iim脚本运行,就把刚才的录入工作重复执行一遍。就跟自己动手一毛一样。
iMacros示例(来自YouTube)
想象一下你有几千条记录要在网上填入。用imacros,只要在脚本同目录下准备一个csv,整理好数据,然后修改一下上面的代码,读入csv,逐行扫描,按布局顺序提取数据{{!COL1}}、{{!COL2}}、…,填入对应的控件,提交。接下来边喝茶边看屏幕飞滚,繁复的录入任务就自行完成了。
节外生枝的JavaScript
按说imacros已经给了很完美的循环方案:在iim脚本里给内置变量{{!LOOP}}赋一个初始值,然后在执行面板里设置一个({{!LOOP}}的)Max值,点Play Loop即可。但这只能对付单层循环。在中原银行这个案例上,单层循环是不够的。理论上需要三层循环:
for i in 所有银行名:
for j in 所有省份:
for k in 所有城市:
查询
提取结果表格
存入一个文件
next k
next j
next i
大约80个银行类目,34个省份,650个城市,这样完整运行一遍要有17.7万个组合。但实际上34个省份和650个城市不会完整组合,每个省份只可能匹配其属下的那几个城市。省份选择“江苏”后,硬要让脚本到城市下拉框找“杭州”,只能逼它报错。所以省份、城市的两层循环(j, k)实际上应当合并。
饶是如此,仍有两层循环。假如硬是压成单层,就得在csv里把所有组合罗列一遍,imacros表示无力。所幸这个工具还有不错的延展性,可以执行vbs和js脚本。查询、提取、存储之类还是可以用imacros宏来完成,外面搭一个js的循环壳调用iimPlay就行。伪代码看起来大约是这样:
for (var i=0; i < 银行数; i ){
for (var j=0; j < 省份和城市对数; j ){
iimPlay(一段imacros宏,选好银行、省、市,查询结果)
iimPlay(另一段imacros宏,返回查询结果的页数,以便诸页去点)
iimPlay(另一段imacros宏,抽取银行、省、市的标签名,
用来给文件命名)
iimPlay(最后一段imacros宏,循环点查询结果页,
把每一页结果存入csv)
}
}
心里有底了。开工。
提取银行和省份 城市的控件值
Chrome里F12,可以看到银行下拉菜单的载入值齐齐整整。
分析HTML节点
选中’banksite’这个节点,右键copy element复制下来。到R里,赋值给banks。
<select name="select" class="select_170" id="banksite">
<option value="">==请选择银行==</option>
<option value="100">中原银行</option>
<option value="102">中国工商银行</option>
<option value="103">中国农业银行</option>
<option value="104">中国银行</option>
<option value="105">中国建设银行</option>
<option value="201">国家开发银行</option>
<option value="202"> ....
用R快速处理一下:
banks <- unlist(banks, strsplit(banks, "</option>"))
paste(sapply(banks, function(v)
gsub("^<option value=\"(\\d )\">\\D $", "\\1", v)), collapses=",")
这样直接就提取成了一个文本向量。如果在Windows,可以复制outerHTML,用readClipboard来直接读剪贴板。所以定义一个getCbId函数,直接处理成js列表。
library(jsonlite)
getCbId <- function(grpId=NA){
# Copy XML nodes from ZYB page by F12
a <- readClipboard(format=13)
a <- unlist(strsplit(a, "\""))
a <- a[seq(2, length(a), 2)]
if (is.na(grpId)){
toJSON(as.numeric(a))
}else{
a=matrix(as.numeric(c(
rep.int(grpId, length(a)), a)), ncol=2)
toJSON(a)
}
}
所以这个scrapy_cnaps.js的起头部分就变成了:
var banks= [100,102,103,104,105,201,202,203,301,302,303,304,305,306,
307,308,309,310,313,314,315,316,317,318,319,401,402,403,501,502,503,
504,505,506,507,509,510,512,531,532,533,561,562,563,564,565,591,593,
594,595,596,597,621,622,623,631,641,651,652,661,662,671,672,691,692,
693,695,711,712,713,714,715,716,732,741,742,751,752,761,771,775,776,
781,782,783,785,787];
var nBanks=banks.length;
以此类推,把所有省份和城市的组合都找了出来。
var cities=[
[11,1000],
[12,1100],
[13,1210],[13,1240],[13,1260],[13,1270],[13,1310],[13,1340],[13,1380],
[13,1410],[13,1430],[13,1460],[13,1480],
[14,1610],[14,1620],[14,1630],[14,1640],[14,1680],[14,1690],[14,1710],
[14,1730],[14,1750],[14,1770],[14,1810],
[15,1910],[15,1920],[15,1930],[15,1940],[15,1960],[15,1980],[15,1990],
[15,2010],[15,2030],[15,2050],[15,2070],[15,2080],
[21,2210],[21,2220],[21,2230],[21,2240],[21,2250],[21,2260],[21,2270],
[21,2280],[21,2290],[21,2310],[21,2320],[21,2330],[21,2340],
[22,2410],[22,2420],[22,2430],[22,2440],[22,2450],[22,2460],[22,2470],
[22,2490],[22,2520],
[23,2610],[23,2640],[23,2650],[23,2660],[23,2670],[23,2680],[23,2690],
[23,2710],[23,2720],[23,2740],[23,2760],[23,2780],[23,2790],
[31,2900],
[32,3010],[32,3020],[32,3030],[32,3040],[32,3050],[32,3060],[32,3070],
[32,3080],[32,3090],[32,3110],[32,3120],[32,3140],
[33,3310],[33,3320],[33,3330],[33,3350],[33,3360],[33,3370],[33,3380],
[33,3410],[33,3420],[33,3430],[33,3450],
[34,3610],[34,3620],[34,3630],[34,3640],[34,3650],[34,3660],[34,3670],
[34,3680],[34,3710],[34,3720],[34,3740],[34,3750],[34,3760],[34,3790],
[35,3910],[35,3930],[35,3940],[35,3950],[35,3960],[35,3970],[35,3990],
[35,4010],[35,4030],[35,4050],
[36,4210],[36,4220],[36,4230],[36,4240],[36,4260],[36,4270],[36,4280],
[36,4310],[36,4330],[36,4350],[36,4370],
[37,4510],[37,4520],[37,4530],[37,4540],[37,4550],[37,4560],[37,4580],
[37,4610],[37,4630],[37,4650],[37,4660],[37,4680],[37,4710],[37,4730],
[37,4750],
[41,4910],[41,4920],[41,4930],[41,4950],[41,4960],[41,4970],[41,4980],
[41,5010],[41,5020],[41,5030],[41,5040],[41,5050],[41,5060],[41,5080],
[41,5110],[41,5130],[41,5150],
[42,5210],[42,5220],[42,5230],[42,5260],[42,5280],[42,5310],[42,5320],
[42,5330],[42,5350],[42,5360],[42,5370],[42,5410],
[43,5510],[43,5520],[43,5530],[43,5540],[43,5550],[43,5570],[43,5580],
[43,5590],[43,5610],[43,5620],[43,5630],[43,5650],[43,5670],[43,5690],
[44,5810],[44,5820],[44,5840],[44,5850],[44,5860],[44,5880],[44,5890],
[44,5910],[44,5920],[44,5930],[44,5950],[44,5960],[44,5970],[44,5980],
[44,5990],[44,6010],[44,6020],[44,6030],
[45,6110],[45,6140],[45,6170],[45,6210],[45,6230],[45,6240],[45,6330],
[46,6410],[46,6420],
[50,6530],
[51,6510],[51,6550],[51,6560],[51,6570],[51,6580],[51,6590],[51,6610],
[51,6620],[51,6630],[51,6650],[51,6670],[51,6690],[51,6710],[51,6730],
[51,6750],[51,6770],[51,6790],[51,6810],[51,6840],[51,6870],
[52,7010],[52,7020],[52,7030],[52,7050],[52,7070],[52,7090],[52,7110],
[52,7130],[52,7150],
[53,7310],[53,7340],[53,7360],[53,7380],[53,7410],[53,7430],[53,7450],
[53,7470],[53,7490],[53,7510],[53,7530],[53,7540],[53,7550],[53,7560],
[53,7570],[53,7580],
[54,7700],[54,7720],[54,7730],[54,7740],[54,7750],[54,7760],[54,7770],
[54,7790],[54,7810],[54,7830],
[61,7800],[61,7910],[61,7920],[61,7930],[61,7950],[61,7970],[61,7990],
[61,8010],[61,8030],[61,8040],[61,8060],
[62,8210],[62,8220],[62,8230],[62,8240],[62,8250],[62,8260],[62,8270],
[62,8280],[62,8290],[62,8310],[62,8330],[62,8340],[62,8360],[62,8380],
[63,8510],[63,8520],[63,8540],[63,8550],[63,8560],[63,8570],[63,8580],
[63,8590],
[64,8710],[64,8720],
[65,8810],[65,8820],[65,8830],[65,8840],[65,8850],[65,8870],[65,8880],
[65,8910],[65,8930],[65,8940],[65,8960],[65,8980],[65,9010],[65,9020]]
var nCities=cities.length;
构建循环
由于解析返回结果的页码需要用到正则,里面一大堆转义符,如果通过js来拼接脚本源文本,会让难度雪上加霜。所以我决定把最难的脚本单元提出来,最后拼到主脚本里。
获取返回结果的页码点了查询之后,结果是分页显示的:
首页 上一页 1 2 3 下一页 末页
所以只要探一下下一页和末页的链接有没有绑onclick事件,就知道是不是有效。
如果搜出结果,“下一页”能点,说明不止一页,那么就可以往下点开页面,直到末页。
如果点不了,就不用费劲循环了。
于是写了个脚本getNextLastPage.iim,用SEARCH正则表达式的方法从页面源代码里提取js绑定。
VERSION BUILD=844
SEARCH SOURCE=REGEXP:"<a href=\"javascript:;\" onclick=\"goPage\\
('(\\d )'\\)\"[^>]*>下一页" EXTRACT="$1"
SEARCH SOURCE=REGEXP:"<a href=\"javascript:;\" onclick=\"goPage\\
('(\\d )'\\)\"[^>]*>末页" EXTRACT="$1"
imacros提供了一个iimGetLastExtract接口,能把iim脚本提取的结果以数组形式拿出来交给javascript或者vbs。
获得控件标签键脚本交互时用到的是控件值,所以js工作脚本里只提供了100、101这类值列表。但我希望最终下载的csv以“银行_省份_城市_页码”,而不是“银行value_省份value_城市value_页码”的纯编码方式命名,所以得再写个getBankProvCity.iim,从三个下拉框控件属性标签里把“北京”、“天津”这些键取回来。
VERSION BUILD=844
Tab T=1
TAG POS=1 TYPE=SELECT ATTR=ID:banksite EXTRACT=TXT
SET !VAR1 {{!EXTRACT}}
SET !EXTRACT NULL
SEARCH SOURCE=REGEXP:"<option value=\"{{!VAR1}}\">([^\"<] )<"
EXTRACT="$1"
SET !VAR2 {{!EXTRACT}}
SET !EXTRACT NULL
TAG POS=1 TYPE=SELECT ATTR=ID:province EXTRACT=TXT
SET !VAR1 {{!EXTRACT}}
SET !EXTRACT NULL
SEARCH SOURCE=REGEXP:"<option value=\"{{!VAR1}}\">([^\"<] )<"
EXTRACT="$1"
SET !VAR3 {{!EXTRACT}}
SET !EXTRACT NULL
TAG POS=1 TYPE=SELECT ATTR=ID:city EXTRACT=TXT
SET !VAR1 {{!EXTRACT}}
SET !EXTRACT NULL
SEARCH SOURCE=REGEXP:"<option value=\"{{!VAR1}}\">([^\"<] )<"
EXTRACT="$1"
SET !VAR4 {{!EXTRACT}}
TAG POS=1 TYPE=SELECT ATTR=ID:city CONTENT=%{{!VAR1}}
SET !EXTRACT {{!VAR2}}
ADD !EXTRACT {{!VAR3}}
ADD !EXTRACT {{!VAR4}}
事后想想,直接在预处理时把键和值都解析出来写进js里岂不是最方便。真是智商捉急。
功能集成
写好两个工作脚本,就可以着手搭集成脚本了。
//上面已述。var banks和cities的定义
//主工作脚本:
for (var i=0; i < nBanks; i ){ // 遍历所有银行
for (var j=0; j < nCities; j ){ //遍历所有省份 城市
/* 拼接iim脚本,分别点击银行、省、市下拉框,点查询
注意wait seconds,不能太短,否则页面来不及反应*/
var m = "CODE:";
m = "VERSION BUILD=844 " "\n";
m = "TAG POS=1 TYPE=SELECT ATTR=ID:banksite CONTENT=%"
banks[i] "\n";
m = "TAG POS=1 TYPE=SELECT ATTR=ID:province CONTENT=%"
cities[j][0] "\n";
m = "WAIT SECONDS=3" "\n";
m = "TAG POS=1 TYPE=SELECT ATTR=ID:city CONTENT=%"
cities[j][1] "\n";
m = "TAG POS=1 TYPE=A ATTR=ID:search" "\n";
m = "WAIT SECONDS=4";
iimPlay(m); //执行
// 执行外部iim脚本,获取最末一页的页码
iimPlay("getNextLastPage.iim");
var nextPge = Number(iimGetLastExtract(1));
var lastPge = Number(iimGetLastExtract(2));
/* 执行另一个iim脚本,获取省份和城市的取值,
用来给文件起名 */
iimPlay("getBankProvCity.iim");
var bankName = iimGetLastExtract(1);
var provName = iimGetLastExtract(2);
var cityName = iimGetLastExtract(3);
/* 如果有下一页,则继续点下一页链接,知道最后一页,
并将表格内容存入‘银行_省_市_页码_时间’.csv*/
if (nextPge > 0) {
for (var k=1; k <= lastPge; k ){
m = "CODE:VERSION BUILD=844 " "\n";
m = "TAG POS=1 TYPE=A ATTR=TXT:" k "\n";
m = "TAG POS=2 TYPE=TABLE ATTR=TXT:* EXTRACT=TXT"
"\n";
m = "SAVEAS TYPE=EXTRACT FOLDER=* FILE="
bankName "_" provName "_" cityName "_" k
"_{{!NOW:yymmddhhnnss}}.csv" "\n";
m = "WAIT SECONDS=1";
iimPlay(m); //执行
}
}
}
}
说时容易做时难。因为技术三脚猫,调试这些玩意儿花了很多时间。最坑爹的环节就是正则转义。
运行
工程搭好后,把脚本放在虚拟机上跑了三天,幸运的是网站似乎没有反爬虫策略,夜间也不关服务,于是让我顺顺利利地跑完了。
看到上千个文件静静躺在文件夹里,感觉到了巅峰愉悦。
里面的文件纷纷长这样:
下载的csv文件
R合并csv
为啥之前费尽周章地格式化命名下载结果呢?因为我需要把文件名里的信息提取出来,合并到数据集里。下面这个R脚本定义了一个parseCsvTbl函数,就负责把csv文件名里的银行、省份、城市解析出来合并到数据集中。
# -------载库,配环境----------
Sys.setlocale("LC_CTYPE", "Chs")
library(readr)
library(parallel)
library(compiler)
library(magrittr)
# -------读数据---------------
files <- list.files(".")
## 剔除.zip和.bat
files <- files[!grepl("zip$|bat$", files)]
## 某些文件莫名奇妙没有拿到后缀名,强制重命名
if (!all(grepl("csv$", files))){
file.rename(files[!grepl("csv$", files)],
paste0(files[!grepl("csv$", files)], ".csv"))
}
## 文件名全名显示
files <- list.files(getwd(), pattern="\\.csv$",
full.names=FALSE)
stopifnot(all(grepl("csv$", files)))
message("A total of ", length(files), " files read.")
# ---------------自定义函数-----------------
parseCsvTbl <- cmpfun(function(
csvfile, header=c("CNAPS", "Bank", "Tel", "Addr")){
# for parallel use, duplicate the global settings
Sys.setlocale("LC_CTYPE", "Chs")
stopifnot(length(header) == 4)
stopifnot(file.exists(csvfile))
dat <- readr::read_csv(csvfile, col_types="nccc")
names(dat) <- header
dat$bank <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",
"\\1", csvfile)
dat$prov <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",
"\\2", csvfile)
dat$city <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",
"\\3", csvfile)
return(dat)
})
# --------------调用解析函数,解析csv并合并------------
## 如果文件超过1000个,调用并行计算
if (length(files) > 1000){
cl <- makeCluster(detectCores())
df <- do.call("rbind", parLapply(cl, files, parseCsvTbl))
stopCluster(cl)
}else{
df <- do.call("rbind", lapply(files, parseCsvTbl))
}
## 合并后的结果输出到一个大csv
write_csv(df, paste0("cnaps_", format(Sys.time(),
"%Y%m%d%H%M%S"), ".csv"))
message("output cnaps csv is generated.")
跑完脚本,数据变成了:
一共40多万条记录。谢天谢地,老泪纵横。
但是!
你以为这是一篇萌蠢拙计、热情洋溢的imacros软文?那你错了。我只是为了说明一件事:
为了偷懒,我勤奋到废寝忘食。
但至于imacros,我绝不推荐。这是一段技术弯路,所有有志于自动化的,应该直接去学Python和Selenium,不要给无良付费软件一毛线的活路。
首先,今年的11月份,Firefox发布了新版Quantum,运行速度快了很多,但是API全变了。一众网红扩展纷纷蒙圈,统统跑不起来了。其中就包括了imacros。官网很快发了一则通告,大意是“用不了啦,大家赶紧降级Firefox。要不给Mozilla写个万民伞,让他们重新把废掉的那些API弄回来吧。”
开历史倒车还开出情怀来了。
随即,就在前两天,这家“全球最流行的浏览器自动化解决方案”提供者,升级了imacros浏览器插件,样子少许好看了点。然而免费版的功能却从猛犸缩水到野猪。
免费版最多只能录50个动作
免费版不再能读取本地文件
免费版不能回放iim脚本
只有IE版插件能用csv作输入源,不能超过100行、3列 …
要达到以往免费版的功能,需要升级到个人版。价钱比企业版可便宜多了,大约只需要……700大洋吧。
瞧这点出息,难怪欧洲软件企业而今越来越排不上号。市占率套现的玩法千千万,它却选择直接杀鸡取卵。这应该是我第一次,也是最后一次吹imacros。写完此文,我就把imacros彻底卸了。
工具没那么重要,重要的是理念。
Save your life. Automate everything.
[完]
,