×

搜狗开放12306验证码识别技术助力抢票软件

消耗积分:1 | 格式:rar | 大小:0.19 MB | 2017-10-13

分享资料个

  “12306的验证码,已经击败了全国99%的购票者,我已经找不到回家的路了……”随着春运抢票高峰期来临,12306验证码识别成为用户讨论的热点。日前,搜狗浏览器、QQ浏览器等应用相继推出抢票功能,帮助用户“秒购”火车票,助力这些“抢票神器”排除验证难题,订票成功的技术支持, 正是搜狗搜索开放给合作伙伴的“图像验证码识别解决方案”。
  
  (12306验证码示意图)
  有媒体报道指出,12306临时加强了验证码难度后,目前网络购票用户一次答对的正确率仅为5%,大波儿网友自己制作各种搞趣图片来吐槽12306验证码难度“逆天”。12306验证码与普通验证码不同,不仅要识别图片中的问题,还需要在8张备选图片中选出正确答案。这类“图像匹配验证码”的机器识别,对技术水准要求极高,需要精准的图像识别能力,对于抢票软件而言,着实带来了一道难题。
  搜狗搜索推出的“图像验证码识别解决方案”,借助搜狗深厚的识图搜索技术积累,和强大的大数据处理能力,采用“OCR技术+图像分类技术”组合拳,对图像匹配验证码的识别正确率可达99%,并能在0.3秒内可极速完成识别,。
  而想要在仅仅0.3秒内完成验证码识别,是一项非常具有难度的技术挑战,需要完成两次技术“攻关”和多项技术组合应用:
  首先,要正确识别12306验证码,首先要读懂问题中的文字,这就需要采用OCR技术,即光学字符识别技术。OCR识别的步骤可以分为两步:首先是文本检测(Text detection),将文字从图片中提取出来;然后,对文本进行识别(Recognition)。搜狗输入法的拍照输入、搜狗搜索的识药方等功能,应用的正是搜狗领先的OCR技术。
  其次,还需要对候选图片进行识别判断,基于深度学习和大数据分析处理能力的图像分类技术正好解决这一问题。在OCR技术的基础上,搜狗搜索借用了图像分类的思想,首先将经过变形处理的描述文字图像通过OCR技术识别成文本,再通过图像分类技术,对于多张候选图像识别出其分类信息,然后将文本和分类信息进行自动匹配,从而实现验证码的自动识别过程。
  这样,凭借“OCR技术+图像分类”这套组合拳,搜狗搜索的“图像验证码识别解决方案”有效解决了12306验证码的破解问题,当然并非一日之功,目前搜狗识图搜索已将“深度学习”技术应用于图像识别领域,通过模拟人认知图片的过程,多层次地模拟和学习,大幅提高了图片分类和识别的准确性。另一方面,搜狗面向全网图像标注而积累的大数据,也为搜狗图像识别精度大幅提升奠定了坚实基础。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !