互联网自动化程序已经渗透到我们生活的方方面面

电子说

1.2w人已加入

描述

互联网目前已经渗透到我们生活的方方面面,但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。

所以只要定制相应的自动化程序便可以模仿人的行为,同时,因为机器速度更快且不知疲倦,它会被用于批量在论坛、网站、app 中发布营销信息。而且,在监管不足的情况下,利润更高的行业往往底线更低,自动机器人发布的垃圾信息经常也和赌博、诈骗、色情等灰色产业有关。一些自动化程序还会尝试以“撞库”的方式窃取用户帐号、密码,给网站带来巨大的安全隐患。

于是,验证码应运而生。作为同样的自动化程序,二维码存在目的是区分用户到底是机器人还是真实的人。

最常见的验证码便是自动生成的扭曲的文字和图案,虽然它可以有效地识别出很大一部分自动化程序,但它对真人用户的体验并不好。而且随着机器学习的发展,要破解它也越来越容易。

▲验证码风格的设计图案

Google的验证码团队有着各种创新试验,比如创造性地把验证码用于纸质典籍数字化。另外除了扭曲文字、图片的主流路线之后,Google的团队还尝试了新的思路,利用追踪用户的点击行为等来识别是否真人操作。用户只需要点击“我不是机器人”的复选框便可验证。

在最新版本的Google验证码reCAPTCHA v3中,你甚至什么都不用做,系统就在悄悄核验当前的用户是不是机器人。技术正在让“验证码”越来越隐形,人类不必再为了自证身份去做“反向图灵测试”,然而这种进步也带来了不少新的问题。

初代验证码CAPTCHA:歪歪扭扭的文字

2000年,从杜克大学数学系毕业,来到卡内基梅隆大学读计算机科学博士的路易斯·冯·安(Luis von Ahn)和导师一起提出了验证码的概念,全称是全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称 CAPTCHA)。

图灵测试由计算机先驱人物,“人工智能之父”阿兰·图灵提出,以一台计算机能和人类对话而不被识别出是机器人为通过图灵测试基准。验证码也是图灵测试的一种,但它的目的不是为了创造AI,而只是为了识别真实的人类用户。

一种最常见的验证码是由算法生成的扭曲的文字,这么做是为了防止被光学字符识别程序(OCR)自动识别出来。

有一些方法是在字母上加一条曲线或将不同的字母叠在一起,也有添加复杂背景的方式。

也有图片验证码,要求用户识别图片的物体,以及把缺失的部分拖到正确的位置和拼图等。

但不管形式如何,这些验证码有一个共同的原则:就是要让人类很容易识别,却对计算机来说非常困难。一些研究者认为,为避免 CAPTCHA过难而使网站损失用户,通常要求人类用户通过测试的时间小于30秒,用户通过率大于90%。

还有一个不被普通人知道的点,验证码被称为一种“图灵测试”,所以它在设计之初就有促进人工智能发展的初衷。

根据定义,验证码的算法必须公开,这样做的目的是为了让破解验证码的过程是在解决对应的人工智能问题,例如图像识别、准确度更高的OCR等,破解者不必花费心思通过逆向工程推演算法。

利用验证码将纸质典籍数字化

目前验证码已经被广泛用于各大网站、app中,有数据显示,这项技术在推出后的短短五年内,每天就有2亿个验证码在被使用。

很快,验证码发明者提出一个新的项目reCAPTCHA,主要用于把互联网出现前的纸质典籍数字化。思路是这样的:验证码系统会向用户出示两个单词,第一个是正常的自动生成扭曲文字,另外一个则来自纸质典籍的扫描版,来自扫描版的文字通常因为年代久远、或是纸上有污点等原因而难以被OCR程序识别。

因此,当用户输入验证码时,只要第一个单词输入正确就可以被判别为人类,输入的第二个单词只是“义务劳动”。这是因为系统会默认第二个单词输入是正确的,输入结果只是会与其他用户的输入结果进行对比,如果多名用户的答案一致,这个词的数字化就完成了。

也许你会认为这样一个一个词的识别与庞大的待数字化的典籍相比,根本起不了多大作用,然而在推出之初,reCAPTCHA便能录入3000万个字符。2011年,它已经完成了全部的《纽约时报》数字化的工作,这份从1851年开始出版的老报纸有大量纯纸质版的内容。

2009 年,Google看上了这个项目的价值,并出手收购了reCAPTCHA,同时也被Facebook、Twitter、CNBC等使用。在帮助这些流量最大的网站抵御自动化程序骚扰的同时,Google图书中难以被自动识别的扫描版的古老典籍同样借助reCAPTCHA得以数字化。

另外,reCAPTCHA还被用于帮助机器学习系统提高图像识别率,运作原理和典籍数字化的方法是一样,用机器难以辨别的门牌号、猫狗照片拿来当做验证码供人类识别。

与此同时,用户实际上还在帮机器学习系统标注训练集,所以,强大的AlphaGo背后的人工智能技术,可能早就有你的功劳。

NoCAPTCHA:不用输入字符的验证方式

Google在收购reCAPTCHA后,对它进行了以Google的方式改进。

在2014年,Google推出了新的验证码系统——NoCAPTCHA reCAPTCHA,虽然名字有点拗口,但依然是个验证系统,其核心是不需要输入验证码,用户只需要点击一个“我不是机器人”的复选框,Google就能判别你是不是真正的人类。

reCAPTCHA的口号也从“别发垃圾信息了,读点书吧”(Stop Spam. Read Books),变成了验证码最初的目的“对人类简单,对机器人困难”(Easy on Humans, Hard on Bots)。

NoCAPTCHA跟踪用户点击验证框之前、当时和之后的行为,比如在网页上花费的时间,从而来判断是否是人为操作。

假如你被误判为机器人,还有一个“申诉”的机会,和图片验证一样,从一堆图片中选出正确的目标。

使用reCAPTCHA v3的网站会在网站的每个页面放入reCAPTCHA v3代码,而不只是在登录页面。reCAPTCHA系统会跟踪用户的所有浏览行为进行分析。

就这样,Google 可以获得几乎用户的所有行为。Google也确认,用户使用的硬件信息即设备上的软件会被发送回 Google服务器,但它表示,获得的结果“只用于分析用户行为,不用于个性化广告推荐”。不过,隐私都被掌握了的事实就摆在这里,你想更快捷被验证还是以隐私换取快捷呢?

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分