目前,许多网站采取各种各样的措施来反爬虫,其中一个措施就是使用验证码。

验证码的花样也越来越多,几个数字组合的简单的图形验证码,英文字母和混淆曲线相结合的方式。大概包括:

接下里我们来具体了解一下。

1 图形验证码

图形验证码是最早出现也是最简单的一种验证码,一般由 4 位字母或者数字组成。

本节我们用OCR技术来识别图形验证码。(Optical Character Recognition,光学字符识别,将图片、照片上的文字内容,直接转换为可编辑文本)

安装 tesserocr 库

1.1 获取验证码

我们找一张验证码图片,为方便测试,我们保存到本地。(注册知网的时候可以看到需要输入验证码:http://my.cnki.net/elibregister/)

打开开发者工具,找到验证码元素。它是一张图片,它的 src 属性是CheckCode.aspx。可通过(http://my.cnki.net/elibregister/CheckCode.aspx),直接看到验证码,右键保存即可。

python中spider的用法(python--spider验证码)(1)

1.2 识别测试

PIL = Image.open(=

结果:

PIL = Image.open(=(result)

结果:

python中spider的用法(python--spider验证码)(2)

PIL = Image.open(= image.convert() image = image.convert() =(result)

也可以指定二值化的阈值,但是不能直接转化原图,首先将原图转化为灰度图像,然后再指定二值化阈值。阈值不同,效果不一样啊

PIL = Image.open(= image.convert(= 80 table = i range(256 i <1= image.point(table,

python中spider的用法(python--spider验证码)(3)

结果:

python中spider的用法(python--spider验证码)(4)

阈值为180

python中spider的用法(python--spider验证码)(5)

阈值为80

python中spider的用法(python--spider验证码)(6)

2. 极验滑动验证码

极验滑动验证码是近几年出现的新型验证码,比图形验证码上升了好几个难度。

使用Selenium 库,以及Chrome 和 ChromeDriver。

2.1 什么是极验验证码

极验验证码官网:http://www.geetest.com. 是一个专注于提供验证安全的系统。

python中spider的用法(python--spider验证码)(7)

2.2 极验验证码特点

见其官网https://www.geetest.com 或者极验博客https://blog.geetest.com/

2.3 识别思路

Selenium 模拟点击按钮

边缘检测算法

极验验证码增加了机器轨迹识别,(匀速,随机速度都不行)

2.4 初始化

EMAIL = PASSWORD = = == WebDriverWait(self.browser, 20== PASSWORD

2.5 模拟点击

= self.wait.until(EC.element_to_clickable((By.CLASS_NAME, ))) button =

2.6 识别缺口

获取前后两张比对图片,二者不一致的地方即为缺口。

= self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 2=== location[], location[] size[], location[], location[] get_geetest_image(self, name==(== captcha

= self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, slider = pixel1 === 60 abs(pixel1[0] - pixel2[0]) < threshold abs(pixel1[1] - pixel2[1]) < threshold 2] - pixel2[2]) <= 60 i j range(image1.size[1 = left

2.7 模拟拖动

track = current = mid = distance * 4 / 5 t = 0.2 v = current < current < a = 2 a = -3 v0 = v = v0 a * move = v0 * t 1 / 2 * a * t * current = x =x, yoffset=0.5

3.点触验证码

12306用的就是典型的点触验证码,有一个专门提供点触验证码服务的站点: TouClick(https://www.touclick.com/)

使用Selenium 库,以及Chrome 和 ChromeDriver。

3.1 分析

用OCR技术效果不好,网上有很多验证码服务平台:超级鹰(https://www.chaojiying.com)等.

具体代码可见别人的博客:https://gi

4.微博宫格验证码

3WebSpider/CrackTouClick

ck

4.微博宫格验证码

python中spider的用法(python--spider验证码)(8)

,