有时候我们在用python爬取某平台数据的时候,会要求登录后才能获取到信息,比如某bili需要验证文字验证码后,才可以进行登录

自动识别网页验证码(简单识别文字验证码实现自动登录)(1)

对于这种文字验证码,还是比较简单的,这里我是使用第三方平台超级ying进行文字识别,识别出文字的坐标,在依次点击文字坐标。下面简单学习一下

一、登录

通过python中selenium模块实现自动登录,弹出文字验证码框,方便我们进行截取图片

自动识别网页验证码(简单识别文字验证码实现自动登录)(2)

二、获取验证码图片

通过元素坐标定位,再进行剪切,保存为图片,这三个封装方法就实现了验证码图片的剪切保存

自动识别网页验证码(简单识别文字验证码实现自动登录)(3)

自动识别网页验证码(简单识别文字验证码实现自动登录)(4)

三、调用超级ying识别

将剪切下来的图片,放入超级ying的第三方接口中,超级ying代码平台会提供,我们下载下来直接用就可以了

自动识别网页验证码(简单识别文字验证码实现自动登录)(5)

四、移动点击

获取响应回来的坐标后,再用actionchains库模拟移动点击

自动识别网页验证码(简单识别文字验证码实现自动登录)(6)

自动识别网页验证码(简单识别文字验证码实现自动登录)(7)

五、验证成功

自动识别网页验证码(简单识别文字验证码实现自动登录)(8)

自动移动点击后,显示验证成功了,那么就成功登录页面了。后面我们拿到登录后cookies就可以进行下一步的数据抓取了。

,