巧谈OCR

注:本篇文章转载于Dev club第十三期

当大部分的好人都不会遇到验证码时，另一头，给坏人下发验证码的战场还在继续。进入2010年后，随着微博和团购的横空出世和快速发展，黑产从业者的可图之利增多，互联网黑产市场不断扩张。作为绝大多数互联网业务的第一道安全防线，验证码的战场正式进入了一段破解与抗破解的持久博弈。

2.jpg

如图，这是早期的密码暴力破解软件。

在很长一段时间内，为了避免被坏人的自动化程序识别，业界普遍把验证码设计得越来越复杂。长久下来，就形成了机器人和用户都看不懂的尴尬局面。

显然，把验证码“复杂化”这条道路走不通，那怎么办？在长期研究坏人的作恶模式及利益链条后，我们发现坏人在破解验证码时存在一大死穴——时间。从一套新的验证码出现，到坏人成功破解，再集成到自动化软件流入黑市，整个过程需要一个周期。那么，如果我们更新验证码的速度快于坏人的工作周期，问题不就迎刃而解了？

做个假设，第一天，网站上了验证码A，这套验证码简单朴实、清晰可辨，简直就是那么多反人类验证码中的一股清流！坏人一瞅，这不是在藐视我的智商吗？于是废寝忘食连日研究，很快在第三天时就研究出了破解方案。正当坏人得意洋洋准备投入使用时，殊不知在第二天时网站已换上了验证码B。这里面的制胜点就一个字，快！

基于这种对抗理念，在2011年7月，“魔术师”验证码诞生了。如同魔术师快得让人看不清的手法，魔术师验证码采用了高频的切换策略，使对抗形成了“敌方未破我先变”的局面。果然，敌人自动机大军的步伐被成功遏制，铩羽而归。

3.jpg

如图，原有验证码 vs 魔术师验证码

2、猜你喜欢

如同超级英雄电影里一波又一波打不尽的反派一样，为了巨大的潜在利润，敌人永远不会消停。在“魔术师”换来了近一年的风平浪静后，我们遭遇了有史以来最为疯狂的一波进攻。

由于魔术师的字体库在现网已跑了一年，再加上图像识别技术的发展，坏人几乎已遍历研究。以前，只要验证码的字体一切换，破解率立马就会刷刷地往下掉。而现在，破解率仅小掉一下马上又反弹了。换字体策略已失效！曾经立下无数汗马功劳的魔术师验证码，如今成了一道马其诺防线。

敌人已经兵临城下，怎么办？经过研究我们发现，任何一种自动机，对验证码的识别率都不可能达到100%，有验证成功的图片，肯定也有验证失败的图片。做个假设，某种自动机的破解率是10%，也就是指在100张图片里，有90张无法识别。那么我们把这90张图片收集起来，每次都给它下发这些图片，10%的破解率会瞬间掉到0%。因为此时，自动机已陷入了绕不开的死结。

根据这个思路，2013年元旦前，“猜你喜欢”验证码诞生了。“猜你喜欢”通过分析自动机行为特征，自动寻找、收集自动机的弱点，反复攻敌之弱。这可以说是对自动化破解的“致命一击”。

4.jpg

如图，原有验证码 vs 猜你喜欢验证码

在体验上，“猜你喜欢”摆脱了对图片复杂性的依赖，做到了“高清无码”，正常用户的识别率提高到了90%以上。在安全性上，防破解效果立竿见影，据团队监测，气急败坏的敌人连最后的IM登录验证码都不来尝试破解了。“猜你喜欢”验证码以其强大的杀伤力，终于又换来了暂时的息战。

互动问答

Q1：字符验证码为什么不好，不适应时代了？听了你们这么说，我也在想字符验证码是不是要换

随着OCR的发展，字符验证码对抗非常艰难。字符验证码的舞台太小，继续发展下去，会出现自动机容易破解而人很难通过的状况。不过腾讯有很多业务还在用字符验证码，字符验证码完全退出舞台还需要一段时间，我们也在向业务推广新型验证码。

Q2：不明白那个滑动验证码有什么不一样的地方，感觉自动化破解应该很容易，不像其他的，需要语意识别

从字符验证码到多样化验证码的转变，最主要的变化，其实是验证码不再单纯的依赖图像去对抗，而是加入了更多元化更全面的元素，比如用户行为识别、后台策略对抗等，只依赖图像原因不够，但图像加上大数据和AI的强力支撑是可以对抗坏人的。也是因为这样，用户反而能用上体验更好的验证码

Q3：拼图验证码的拼图块是怎么生成的？又是怎么校验的呢？

从图库拉取一张图片，随机在图片抠取一张小拼图块。服务器生成时会记录小接图块的位置。用户在将小拼图块拖动到目标位置时，提交座标给服务器进行答案校验。

Q4：就上面提到的各种验证码来讲，现在哪种验证码的效果最好呢？

不同产品面临的战场不一样，比较难下定论说哪一种验证码效果最好。各大公司的安全团队在验证码方面也下了很多功夫，但从目前坏人的手段和技术来看，大家拼的更多的是后台策略，而不是单纯的验证码本身了。适合自己的才是最好的。

Q5：模拟用户操作为什么打码平台无法破解呢？本质上应该也是识别图片信息并上传相应的数据吧？

首先，新验证码也有打码，比如像下图这种打码软件，所以只靠图像没办法对抗码工。这种软件提交的答案也有其特征，座标答案由码工标注，恶意程序合成行为数据，新验证码对这种情况是可以区分的。

Q6：现在日益的发展下.指纹验证的频率也越来越高.有没有对这方面的考虑?

指纹验证本质是身份验证，验证码是对抗自动机，不过随着移动设备指纹的普及，用指纹做身份验证，免去验证码是有可能的。

Q7：现在经常Q群里喊着坐家就能赚钱的那种软件，好像就是把验证码下发出去，让社会闲散人员帮你识别，这种怎么破？

对于人工打码，5的问题有提到一些解决思路。但还是基于现在打码平台，如果打码平台升级，确实这里的识别非常困难，大家有什么好的思路也可以发邮箱给我：80000768@qq.com

Q8：是不是可以根据用户职业和身份来给用户出些相关专业的常识作为验证码？或者是有哪些用户认识的QQ好友让他选择也行啊？

这个方法是可行的，实际上facebook也有采用这个方式来对用户进行验证。这个手段来对抗码工是一种比较好的方式，但他的局限性也很明显，使用门槛比较高，一来是有可能泄漏用户隐私信息，二来他使用场景很有限，在注册、活动、拉新等没有用户信息的场景无法派上用场

Q9：用户要记住使用密码和要识别验证码，感觉都属于反人类设计，验证码未来什么情况下可能退出历史？

验证码的用户体验需要不断地优化完善，但其实验证码的设立很大程度上是为了对抗高频的暴力破解，阻挡坏人的自动机进攻的步伐。所以在现阶段还是非常必要的。验证码彻底退出历史舞台，预计还需要比较长的一段时间。

Q10：将来有没有可能用到语音验证？

关于语音验证码，大家用微信也知道，语音识别技术很成熟，识别率已经很高了，因此用来做验证码效果也不见得会好

Q11：手机端app验证码大多都比较简单，为什么pc端的特别复杂？

这个其实有历史原因在里头。在前些年，4G没普及，上网速度慢，验证码的图片不可能做得太大，会影响页面打开速度；而且那个时候也没很多大屏手机，屏幕小，留给验证码发挥的地方也小。从那个时候就延续下来了。但现在其实很多手机验证码都和PC一致了

Q12：大量用户去请求验证码，怎么确定每个人验证码对应的就是相应的用户？

验证码的架构设计之初，已经是按照亿万级访问的场景来设计的，能支撑起大量用户访问的

Q13：前端会收集用户行为数据，通过机器学习，为线上策略输出更准确有效的策略。同样的道理,可以通过机器学习模拟用户的行为轨迹从而来破解滑动拼图验证码. 这个怎么破?

这个问题问得十分漂亮。目前验证码主要的战场和矛盾点也是这个，随着机器学习的不断发展，我们遇到的挑战也越来越多，但即使这样，我们还是会不断朝这个方向努力，不断尝试和跟坏人斗智斗勇。

最后编辑于：2017.12.04 08:52:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

巧谈OCR

推荐阅读更多精彩内容