科普|视觉SLAM是什么——三种视觉SLAM方案

描述

如今科技发展日新月异,诸如机器人、AR/VR等前沿科技产品已走入了大众生活当中。但是想在这些领域让用户有更好的体验,就需要很多底层技术的支持,SLAM就是其中之一。如果说机器人离开了SLAM,就相当于人类失去了双眼一样。

一、什么是视觉SLAM?

SLAM的英文全称是Simultaneous Localization and Mapping,中文称作「即时定位与地图创建」,而视觉SLAM就是用摄像头来完成环境的感知工作。

举个例子,当你第一天去上大学的时候,为了迅速熟悉校园环境并且找到宿舍时,你会做以下的事情:

1.用眼睛一直观察周围的教学楼、篮球场、喷泉等标志性建筑物,并且记住它们的特征。(特征提取)

2.根据你刚才眼睛观察到的信息,在脑海里把这些有特征的标志性建筑物建立成一个地图。(建图)

3.在继续行走时,又看到了一些如咖啡店、健身房等新的标志性建筑物,再把它们加到脑海中的地图里面校对一下。(状态更新)

4.根据你前一段时间行走获得的标志性建筑物,确定自己的位置。(路径规划)

5.当无意中走了很长一段路的时候,和脑海中的以往标志性建筑物进行匹配,看一看是否走回了原路。(回环检测)

其实上面你做的这些事情,就是视觉SLAM里面的几个部分。

二、视觉SLAM的分类

视觉SLAM研究主要分为三大类:单目、双目(或多目)、RGBD。

单目仅用一支摄像头就能完成SLAM。最大的优点是传感器简单且成本低廉,但同时也有个大问题,就是不能确切的得到深度,存在尺寸不确定的现象,比如丢失深度信息的相片中,我们能见到“手捏太阳”“借位拍照”这样的现象。

一方面是由于绝对深度未知,单目SLAM不能得到机器人运动轨迹及地图的真实大小,如果把轨迹和房间同时放大两倍,单目看到的像是一样的,因此,单目SLAM只能估计一个相对深度。另一方面,单目相机无法依靠一张图像获得图像中物体离自己的相对距离。为了估计这个相对深度,单目SLAM要靠运动中的三角测量,来求解相机运动并估计像素的空间位置。即是说,它的轨迹和地图,只有在相机运动之后才能收敛,如果相机不进行运动时,就无法得知像素的位置。同时,相机运动还不能是纯粹的旋转,这就给单目SLAM的应用带来了一些麻烦。

双目(多目)顾名思义是由两个或多个摄像头来完成SLAM,其普遍为双目视觉方案。双目视觉既可以在运动时估计深度,亦可在静止时估计,双目视觉融合两个摄像头获得的图像并观察它们之间的差别,获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来。并且可以精准感知周围的物体和自身移动的轨迹,从而对周围环境形成三维立体的认识,解决了上面提到的问题。不过通过双目图像计算像素距离,计算量大,而且在特征少的白墙或暗光环境易丢失目标。

目前双目的应用程度明显较高,针对双目方案拓展应用场景上,大多融和了IMU或者IR等传感器,比如国内立体视觉方案公司indemind推出的双目视觉惯性模组,采用了“双目摄像头+IMU”多传感器融合架构与微秒级时间同步机制,可提供精准稳定数据源;并且内置了自研高精度Vi-SLAM算法,以满足SLAM研究、智能机器人、无人机避障、室内外导航定位等使用需求。

RGBD相机是2010年左右开始兴起的一种相机,它最大的特点是可以通过红外结构光或Time-of-Flight原理,直接测出图像中各像素离相机的距离。因此,它比传统相机能够提供更丰富的信息,也不必像单目或双目那样费时费力地计算深度。

目前常用的RGBD相机有Kinect/Kinect V2等等。不过,现在多数RGBD相机还存在测量范围窄、噪声大、视野小、受阳光,墙面反光等诸多问题。出于量程的限制,主要用于室内SLAM。

目前,视觉SLAM主要被运用于无人机、无人驾驶、机器人、AR、智能家居等领域,单目需要靠运动估计深度导致避障效率不高,RGBD存在量程的限制,主要用于室内SLAM。因此,目前在视觉SLAM中,双目的应用程度和落地前景都是最高的。

不管是哪种视觉SLAM方案,都是作为人工智能的眼睛,获取地图数据,并构建地图,规避路程中遇到的障碍物,实现路径的规划。

随着城市物联网和智能系统的完善,视觉SLAM必是大势所趋。虽然目前视觉SLAM技术方面还存在着一些问题,但这些都会随着消费刺激和产业链的发展逐步解决、趋于完善。
lw

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分