为何会不断的收到验证码(到底是在保护你还是剥削你)(1)

蒋旭峰(资深金融人士)

图灵测试

图灵测试是测试人(多人)在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。问过一些问题后,如果测试人中超过30%的人不能根据答复确认被测试者哪个是人,哪个是机器,那么这台机器就通过了测试,并被认为具有人类智能。这个看似无厘头的测试,是由现代计算机科学之父英国人艾伦·麦席森·图灵在60多年前提出的。

1950年,阿兰·图灵在那篇名垂青史的论文《计算机械与智力》的开篇说:“我建议大家考虑这个问题:‘机器能思考吗?’”但是由于我们很难精确地定义思考,所以图灵提出了他所谓的“模仿游戏”:

一场正常的模仿游戏有ABC三人参与,A是男性,B是女性,两人坐在房间里;C是房间外的裁判,他的任务是要判断出这两人谁是男性谁是女性。男方是带着任务来的:他要欺骗裁判,让裁判做出错误的判断。

那么,图灵问:“如果一台机器取代了这个游戏里的男方的地位,会发生什么?这台机器骗过审问者的概率会比人类男女参加时更高吗?这个问题取代了我们原本的问题:‘机器能否思考?’”

图灵测试用来判定房间里面的是不是机器

为何会不断的收到验证码(到底是在保护你还是剥削你)(2)

验证码

在2000年初,互联网的浪潮刚刚在全世界掀起,当时最让网民苦恼的一件事就是垃圾邮件太多了。甚至有人还特意制作了程序,可以终日无休地大量注册新邮箱账号,然后用来发送垃圾推广邮件。

一位名叫 Luis 的天才程序员就想到了法子,他发现计算机程序很难认清手写的文本,而人类可以轻松地看懂。可以在注册账号的时候设一道门槛,必须输入 “ 歪曲 ” 的文本才能完成注册,用来识别计算机和真人。验证码应运而生。

为何会不断的收到验证码(到底是在保护你还是剥削你)(3)

验证码CAPTCHA(Completely Automated Public Turing Test to Tell Computers and Humans Apart, 全自动区分计算机和人类的公开图灵测试),又名HIP(Human Interaction Proof,人类交互行为证明),顾名思义就是由计算机来判断:谁是人类?谁是计算机?最重要的目的,是识别出人类

得益于科技的发展,从早期判断屏幕背后是不是计算机演变到现在反过来我们需要判断躲在屏幕背后的到底是不是人。怕屏幕背后是机器不是人,同一句话在不同时代却有截然不同解读。这,是不是很讽刺。

为何会不断的收到验证码(到底是在保护你还是剥削你)(4)

验证码的演变

我们每个人都输入过验证码,想必下面这些场景大家并不陌生。

验证码从最初的考眼力,有点儿测色盲图的感觉,也有1、l(小写L)、I(大写I);0(数字)与O(字母)傻傻分不清楚;

为何会不断的收到验证码(到底是在保护你还是剥削你)(5)

为何会不断的收到验证码(到底是在保护你还是剥削你)(6)

逐步转变成考手抖,还特意告诉你“恭喜你,你的速度超过了90%的用户”来赞赏你,鼓励你;

为何会不断的收到验证码(到底是在保护你还是剥削你)(7)

进而转变成找不同,没点知识储备还真选不清图片。

为何会不断的收到验证码(到底是在保护你还是剥削你)(8)

为何会不断的收到验证码(到底是在保护你还是剥削你)(9)

最终变成考脑力,没点知识还登录不了了。

为何会不断的收到验证码(到底是在保护你还是剥削你)(10)

为何会不断的收到验证码(到底是在保护你还是剥削你)(11)

一切的一切都是为了让身后的计算机不具备识别能力,从而确定操作者是人。随着安全系数上升,短信验证码、扫码验证,刷脸验证陆续登场,在危机四伏的互联网世界里,层层把关着用户的信息安全。为了人机斗,可谓煞费苦心。

为何会不断的收到验证码(到底是在保护你还是剥削你)(12)

验证码意想不到的应用

据统计,全世界的网民一天共要输入的近 2 亿次验证码,这可是庞大的输入量。如果按一个验证码4个词估算,一天就是8亿词的输入。按一本书平均50000字,相当于全世界网民一天就完成了4000本书的录入工作。总有聪明的人会在不经意的平常中发现和创造奇特的应用。

还是那个发明了验证码的天才 Luis,他发现许多公益组织在把旧书籍扫描成电子版,对计算机来说,那些斑驳的文字太难识别了。书籍的内容大部分是文本、验证码也是文本,把扫描版的书籍文本对接到验证码上,让用户来识别不就行了?于是乎一个叫做 reCAPTCHA 的新式验证码系统诞生了。

reCAPTCHA 会提供两个单词给用户来识别。这两个单词都是书籍扫描版的一部分。

为何会不断的收到验证码(到底是在保护你还是剥削你)(13)

计算机其实已经知道第一个单词是啥了,之所以要展示出来,就是为了测试一下你是不是真人。不过第二个单词计算机暂时还没能力认出来。面对这第二个单词,一旦有 10 个人输入了同样的答案,那么这答案就会被当作是正确答案。靠这种方法,reCAPTCHA 每年能成功数字化 230 多万本旧书。

除此之外,你输的验证码,还可能成为了人工智能训练的养料。我们看到日常生活中图像识别越来越便捷,识别率越来越高,除了机器学习自动迭代外,更多还是有无数人工在背后给模型做训练。

为何会不断的收到验证码(到底是在保护你还是剥削你)(14)

和之前的书籍电子化一样的套路,图片中有些是机器已经能识别了,让你点击是为了确定你是人在操作,另外几张是AI目前还难以识别,你点击了就帮着机器建立了新的有效样本,做了数据标注。在你费眼又费脑地输入它们的时候,你其实是在为人工智能免费打工

为何会不断的收到验证码(到底是在保护你还是剥削你)(15)

同样的验证码,在不同人眼中有着不同的商业价值,所以埋头苦干的同时还真得抬头望天啊!(本文为作者观点,不代表本头条号立场)

,