三维视觉将成为人工智能的“杀手级应用”

描述

Google人工智能与机器学习首席科学家李飞飞在Google I/O开发者大会表示人工智能将成为“第四次工业革命的驱动力”,它将改变人类生活、工作和沟通的方式。在人工智能的三个阶段“弱人工智能—强人工智能—超人工智能”的发展中,视觉信息的获取是必不可少的,机器从对物体的识别到场景的理解都必须先获取其三维信息以及位置关系。三维视觉将成为人工智能的“杀手级应用”。

在过去十年间,人类在对图像识别和图像标注等基础视觉领域已经取得了重大进展,基于这种二维图像视觉在诸如人脸识别、工业检测、安防以及汽车ADAS等方面得到了广泛的应用,成为人工智能的一些重要落地应用。随着人工智能的发展,二维信息无法满足对真实场景的充分理解,所以各个大厂都在着力研究三维视觉的技术,如Intel的RealSense、Apple的TrueDepth,以及诸多厂家面向无人驾驶的多线激光雷达等,这些技术都在帮助机器获取一个至关重要信息——深度信息,来实现三维人脸识别、手势识别、获知物体间的空间关系,以及视觉导航、路径规划、主动避障等工作。

三维视觉在强人工智能阶段必将是不可获取的组成部分,是机器智能和企业变革的重要技术。接下来我们就三维视觉的技术方案给做一个系统介绍。

其中三角测距中的非编码方式的方案常见于工业检测领域,这种方案我们暂且不讨论。我们在这一期着重讨论其它几种方式的近距离三维视觉方案。

近距离三维感知设备我们称之为深度相机,其中双目相机即是利用双摄像头模拟人眼,通过计算空间中同一个物体在两个相机成像的视差来获得物体离相机的距离。

而ToF(Time of Flight)即飞行时间法,其测距原理是通过连续发射经过调制的特定频率的光脉冲到被观测物体上,然后接收从物体反射回去的光脉冲,通过探测光脉冲的飞行(往返)时间来计算被测物体离相机的距离。

三角法测距中的采用编码方式的方案业内均定义为结构光方式。结构光法不依赖于物体本身的颜色和纹理,是采用主动投影编码图案(比如散斑、条纹光等)的方法来实现快速鲁棒的匹配特征点,能够获得较高的精度,也大大扩展了适用范围。

苹果iPhone X的“齐刘海”——TrueDepth系统

iPhone X通过前置点阵投影器(也就是结构光投影仪)将超过30000个肉眼不可见的光点(红外激光散斑点)投影到人脸,再根据红外镜头接收到的反射光点,计算得到人脸三维图。

这种空间编码方式,是向空间投射了单幅随机的激光衍射斑点,但是由于这些点并不能覆盖空间上所有的区域,势必在某些位置无法获取到三维信息,导致其精度是有一定限制的,通常为毫米级精度,这也是为什么iPhone X只是获取了人脸的大致模型,在其FaceID应用中实际上只是应用了结构光方案判断解锁手机的是一个真实的人,而非平面照片或视频,作为一种活体判断防止被攻击破解的手段。

这类散斑结构光的方案被国内奥比中光、华捷艾米等企业采用。主要应用于体感交互、手势识别、人脸识别活体检测等领域。

那是否有方案可以实现高精度的三维数据呢?答案是肯定的。这就是我们接下来要讲的动态结构光的时间编码方案,此种方案的深度相机的原理如下:

它同样由一个摄像机和一个结构光投影仪组成,结构光投影仪向被测物体投射多组明暗相间的光栅图像(随时间可调制),摄像机同时拍摄经被测物体表面调制而变形的多组光栅图像,通过一定算法计算出被测物体的三维数据。

这种动态结构光方案的三维视觉其实在工业界早有应用,主要应用在逆向工程、三维检测、三维建模等领域,这就是传统的三维扫描仪,既然将它称为仪器,也就可想而知其体积通常比较大,价格也很昂贵。

那是否存在一种深度相机方案,其精度高,体积小,价格也不那么高呢?答案也是肯定的。这个就是MEMS微振镜的方案(MEMS:微机电系统)。MEMS微振镜是一种将可动结构芯片化的执行器,工作时芯片内部的镜面可以高速摆动,以实现激光束的高速扫描。

基于MEMS微振镜的深度相机与传统的三维扫描仪最大的区别是结构光投影方式上,三维扫描仪采用DLP、LCOS等进行动态结构光的投影,而此深度相机是采用MEMS微振镜与激光来进行扫描投影。

采用MEMS微振镜的投影方式,不仅克服了体积和成本上的缺点,同时由于这种投影系统是激光扫描式,投影并无光学放大镜头,也就没有焦距的概念,是一个无需调焦的系统(free-focus projector),这也就使得基于MEMS微振镜深度相机的工作范围要比三维扫描仪要大很多。

基于MEMS微振镜的深度相机可以实现亚毫米级,甚至更高的深度精度,相比较同样小体积的散斑静态结构光方案的深度相机,精度提升有至少一个数量级。而相比同样精度的三维扫描仪,其体积小、重量轻、无需调焦等优势特点扩展了高精度三维视觉的应用场景。

以下将结构光的三维视觉方案做一个综合对比:

MEMS深度相机所采集的亚毫米精度数据可以满足三维人脸识别需求,实现真正用三维数据来作为识别判定依据。而非像iPhoneX中三维信息只能用于活体判断,也避免出现如新闻中所报道的母子二人均可解锁iPhone X的情况。

同时这种高精度深度相机所采用的MEMS微振镜尺寸通常只有几个毫米,功耗也只有几十毫瓦,非常适合集成于如智能手机、平板电脑等便携式的设备中,为其增加三维人脸识别、三维扫描建模等功能。目前采用这种技术方案的国内外厂家有Intel的RealSense,知微传感(Zhisensor)的Argus等。

随着人工智能对视觉传感器的需求越来越高,高精度的三维视觉产品也将会越来越普及,在不远的将来,机器拥有比人类更敏锐的视觉感知的确是完全可能的。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分