基于双目立体视觉的测距原理、工作流程及优点分析

INDEMIND 2022-11-18 7655

描述

简单来说，基于双目立体视觉的测距类似人类的双眼，和基于TOF、结构光原理的测距不同，它不对外主动投射光源，完全依靠拍摄的两张图片（ RGB 或者灰度图）来计算距离。

在正文开始之前，我们先厘清单目和双目的测距原理有哪些区别。

• 单目测距原理

单目是先通过图像匹配进行目标识别（各种车型、行人、物体等），再通过目标在图像中的大小去估算目标距离。这就要求在估算距离之前首先对目标进行准确识别，是汽车还是行人，是货车、SUV还是小轿车。准确识别是准确估算距离的第一步。要做到这一点，就需要建立并不断维护一个庞大的样本特征数据库，保证这个数据库包含待识别目标的全部特征数据。比如在一些特殊地区，为了专门检测大型动物，必须先行建立大型动物的数据库；而对于另外某些区域存在一些非常规车型，也要先将这些车型的特征数据加入到数据库中。如果缺乏待识别目标的特征数据，就会导致系统无法对这些车型、物体、障碍物进行识别，从而也就无法准确估算这些目标的距离。

• 单/双目方案的优点与难点

从上面的介绍，单目系统的优势在于成本较低，对计算资源的要求不高，系统结构相对简单；缺点是：

（1）需要不断更新和维护一个庞大的样本数据库，才能保证系统达到较高的识别率；

（2）无法对非标准障碍物进行判断；

（3）距离并非真正意义上的测量，准确度较低。

• 双目检测原理

通过对两幅图像视差的计算，直接对前方景物（图像所拍摄到的范围）进行距离测量，而无需判断前方出现的是什么类型的障碍物。所以对于任何类型的障碍物，都能根据距离信息的变化，进行必要的预警或制动。双目摄像头的原理与人眼相似。人眼能够感知物体的远近，是由于两只眼睛对同一个物体呈现的图像存在差异，也称“视差”。物体距离越远，视差越小；反之，视差越大。视差的大小对应着物体与眼睛之间距离的远近，这也是3D电影能够使人有立体层次感知的原因。

TOF

上图中的人和椰子树，人在前，椰子树在后，最下方是双目相机中的成像。其中，右侧相机成像中人在树的左侧，左侧相机成像中人在树的右侧，这是因为双目的角度不一样。再通过对比两幅图像就可以知道人眼观察树的时候视差小，而观察人时视差大。因为树的距离远，人的距离近。这就是双目三角测距的原理。双目系统对目标物体距离感知是一种绝对的测量，而非估算。

• 理想双目相机成像模型

TOF

根据三角形相似定律：

TOF

根据上述推导，要求得空间点P离相机的距离（深度）z，必须知道：

1、相机焦距f，左右相机基线b（可以通过先验信息或者相机标定得到）。

2、视差： TOF ，即左相机像素点(xl, yl)和右相机中对应点(xr, yr)的关系，这是双目视觉的核心问题。

TOF

重点来看一下视差（disparity），视差是同一个空间点在两个相机成像中对应的x坐标的差值，它可以通过编码成灰度图来反映出距离的远近，离镜头越近的灰度越亮；

TOF

• 极线约束

对于左图中的一个像素点，如何确定该点在右图中的位置？需要在整个图像中地毯式搜索吗？当然不用，此时需要用到极线约束。

如上图所示。O1，O2是两个相机，P是空间中的一个点，P和两个相机中心点O1、O2形成了三维空间中的一个平面PO1O2，称为极平面（Epipolar plane）。极平面和两幅图像相交于两条直线，这两条直线称为极线(Epipolar line)。

P在相机O1中的成像点是P1，在相机O2中的成像点是P2，但是P的位置是未知的。我们的目标是：对于左图的P1点，寻找它在右图中的对应点P2，这样就能确定P点的空间位置。

极线约束（Epipolar Constraint）是指当空间点在两幅图像上分别成像时，已知左图投影点p1，那么对应右图投影点p2一定在相对于p1的极线上，这样可以极大的缩小匹配范围。即P2一定在对应极线上，所以只需要沿着极线搜索便可以找到P1的对应点P2。

• 非理性情况

上面是两相机共面且光轴平行，参数相同的理想情况，当相机O1，O2不是在同一直线上怎么办呢？事实上，这种情况非常常见，因为有些场景下两个相机需要独立固定，很难保证光心完全水平，即使固定在同一个基板上也会由于装配的原因导致光心不完全水平，如下图所示：两个相机的极线不平行，并且不共面。

TOF

这种情况下拍摄的两张左右图片，如下图所示。左图中三个十字标志的点，右图中对应的极线是右图中的三条白色直线，也就是对应的搜索区域。我们看到这三条直线并不是水平的，如果进行逐点搜索效率非常低。

TOF

• 图像矫正技术

图像矫正是通过分别对两张图片用单应性矩阵（homography matrix）变换得到，目的是把两个不同方向的图像平面（下图中灰色平面）重新投影到同一个平面且光轴互相平行（下图中黄色平面），这样转化为理想情况的模型。

TOF

图像校正示意图

经过图像矫正后，左图中的像素点只需要沿着水平的极线方向搜索对应点就可以了。从下图中我们可以看到三个点对应的视差（红色双箭头线段）是不同的，越远的物体视差越小，越近的物体视差越大。

TOF

图像校正后的结果。红色双箭头线段是对应点的视差

TOF

上面的主要工作是在极线上寻找匹配点，但是由于要保证两个相机参数完全一致是不现实的，并且外界光照变化和视角不同的影响，使得单个像素点鲁棒性很差。所以匹配工作是一项很重要的事情，这也关系着双目视觉测距的准确性。

• 双目视觉的工作流程

TOF

相机镜头畸变校正原理及方法，之前介绍过，这个基本是通用的，可以用张正友校准法。

• 双目测距的优点与难点

从上面的介绍看出，双目系统优势：

（1）成本比单目系统要高，但尚处于可接受范围内，并且与激光雷达等方案相比成本较低；

（2）没有识别率的限制，因为从原理上无需先进行识别再进行测算，而是对所有障碍物直接进行测量；

（3）直接利用视差计算距离，精度比单目高；

（4）无需维护样本数据库，因为对于双目没有样本的概念。

• 双目系统的难点

（1）计算量非常大，对计算单元的性能要求非常高，这使得双目系统的产品化、小型化的难度较大。所以在芯片或FPGA上解决双目的计算问题难度比较大。国际上使用双目的研究机构或厂商，绝大多数是使用服务器进行图像处理与计算，也有部分将算法进行简化后，使用FPGA进行处理。

（2）双目的配准效果，直接影响到测距的准确性。

a. 对环境光照非常敏感。双目立体视觉法依赖环境中的自然光线采集图像，而由于光照角度变化、光照强度变化等环境因素的影响，拍摄的两张图片亮度差别会比较大，这会对匹配算法提出很大的挑战。

TOF

b. 不适用于单调缺乏纹理的场景。由于双目立体视觉法根据视觉特征进行图像匹配，所以对于缺乏视觉特征的场景（如天空、白墙、沙漠等）会出现匹配困难，导致匹配误差较大甚至匹配失败。

TOF

c. 计算复杂度高。该方法需要逐像素匹配；又因为上述多种因素的影响，为保证匹配结果的鲁棒性，需要在算法中增加大量的错误剔除策略，因此对算法要求较高，想要实现可靠商用难度大，计算量较大。

d. 相机基线限制了测量范围。测量范围和基线（两个摄像头间距）关系很大：基线越大，测量范围越远；基线越小，测量范围越近。所以基线在一定程度上限制了该深度相机的测量范围。

审核编辑：郭婷

打开APP阅读更多精彩内容