节假日的时候,回家或者热门景点的火车票往往很快一售而空。除了拼人品、拼手速地蹲点守候,我们还可以用科学的方式智能订票。
2 项目简介今天的主人公是GitHub上的12306项目[1]。项目的整体思路很直接,它会不断地查询心仪时间的车次是否有余票,有的话就会下单,锁定席位,并给用户发邮件提醒及时付款。
我们在两分钟打造淘宝抢单机器人这篇文章中也曾介绍过用webdriver来控制浏览器,实现查询、点击等行为。那么12306这一项目中的难点是什么呢?我们发现,当用户查询次数太多时,12306会要求我们点击验证码。
作为真人来说这些图片的识别就颇为不易,那么程序如何能正确地识别出来呢?这里先卖个关子,我们稍后再说。
3 项目使用项目的目录如图所示:
项目的使用比较简单,我们只需要更改根目录下的TickerConfig.py这一配置文件。我们需要填写出发日期,车次,出发到达城市,乘车人,你的邮箱(用来收发提醒邮件)。需要注意的是,你需要在12306账号中先把乘车人(可以不是你自己)加入。另外,当你设置COOKIE_TYPE = 1时,项目会使用webdriver控制浏览器,打开12306官网,让用户登录。因此你需要下载适用于你的浏览器的driver,并把路径填写在配置文件中。我们比较推荐使用这种方式。
填写完毕后,我们只需要运行以下代码就可以启动抢票任务了。
python run.py r
我们首先需要在弹出的浏览器中登录12306账号,接着程序就会自动地查询余票了,运行时界面如下所示
当有人退票或者有新的火车票放出,有余票时,程序会自动下单,并给邮箱发送邮件,我们只需要及时付款即可。
4 如何识别验证码如何有效地识别验证码是一个高难度的问题,项目采用了这个repo中的代码。项目的整体设计思路是:
- 借用百度提供的光学字符识别功能,用基于卷积网络的文字识别器,识别出要寻找的中文字符(在例子中即为电子秤和风铃)。
- 接着训练出一个图片分类器,识别出图片是哪一类别的。
- 用图片分类器的结果继续训练文字识别器,要识别的中文字符一定在图片分类器给出的结果之中。
具体涉及到的技术包括深度学习相关的卷积网络,图像哈希相似性判断来寻找相似图。图像哈希相似性判断简单来说是将图像转为灰度图后,计算每个像素点和n个像素灰度平均值的大小关系,大于即为1,小于即为0。这一比较结果可以组成一个整数。得到这一整数后就可以比较不同图片的相似性了。有兴趣的读者可以自行搜索相关的内容,深入研究。
5 总结在我为数不多(有且仅有一次)地使用这一项目的经历中,它成功地帮我订到了车票。也让我强烈地感受到深度学习等“高科技”真的能切身地在我们的日常生活中发挥作用。各种复杂的算法并不是空中楼阁,而是能真正的提供价值。希望感兴趣的读者能继续在求知的路上探索,也希望每个人都能买到一张出行的车票。
参考资料
[1]
12306项目: https://github.com/testerSunshine/12306
,