针对视觉SLAM的VO稳定的图像配准算法解析

西西 2022-09-15 1449

人工智能

643人已加入

描述

王一波，梁伟鄯，赵云

（柳州工学院，广西柳州 545616）

摘要：视觉SLAM相比激光SLAM成本低、潜在功能强大，VO(前端)算法是视觉SLAM走向应用的关键。针对VO特征点法存在计算复杂、耗时长的问题，从理论上研究了图像配准的一致性问题，分别定义了基于像素、信息熵、内容以及特征的图像一致性，建立了基本的图像配准评价框架。提出了基于信息熵最大化原则RGB变换灰度图像算法，分析了基于像素图像配准算法潜在问题，提出了基于边缘特征的图像配准算法，包括灰度变换、高斯滤波、基于canny算子的边缘检测和边缘修剪等，利用Hausdorff距离求解二值图像相似度，Hausdorff距离越小则图像越相似。实验对图像平移和旋转，比较其与原始图像的相似度，表明该评价算法可以比较可靠地评价图像配准质量，为重建图像帧间运动提供依据。

中图分类号：TP391 文献标识码：A

文章编号：2095-1302（2022）08-0027-04

0 引言

视觉SLAM（Simultaneous Localization and Mapping,SLAM）具有成本低、应用场景广的特点，但目前尚未广泛落地，主要受限于其算法复杂、鲁棒性较差等问题。目前的视觉 SLAM 架构一般包含前端(视觉里程计)、后端、回环检测和建图，其中前端即VO(Visual Odometry, VO)，这是决定算法表现优劣的重要因素。目前VO的实现方法主要有特征点法和光流法[1-2]。前者存在关键点提取耗时长、信息利用不充分以及对场景的纹理要求高等问题，光流法的优点在于光流不仅携带了运动物体的运动信息，而且还携带了场景三维结构的丰富信息，但同样存在计算耗时、实时性、实用性较差等问题[3-6]。为此，改进VO的处理算法非常重要。考虑到摄像机运动过程中姿态的连续变化，若采样图像时间间隔足够小，则摄像机姿态变化将发生在相对有限的范围，反映在图像上，相邻帧图像将具有足够的相似度，为采用直接图像配准算法创造了条件。本文将面向视觉SLAM应用实际，充分挖掘图像特征，构建直接图像配准评价算法，提高VO的处理效率。

1 图像一致性

1.1 基于像素的图像一致性 定义1图像 I1(x, y)、I2(x',y')，对于任意像素 (x,y)，如果I2(x',y')=T(I1(x,y),x,y)，且存在 I1(x,y)=T-1(I2(x',y'),x',y')，则图像I1(x,y)、I2(x',y') 为理想一致。由上述定义可知，当图像经过某种变换或者组合变换得到新的图像，可以找到相应的逆变换，使变换后的图像完全恢复到原图像。例如，图像发生平移、旋转、错切等变换，可通过逆变换加以恢复。定义2图像I1(x,y)、I2(x,y)，对于任意像素 (x,y)，如果I2(x',y')=aI1(x,y)，a为任意正实数，则图像I1(x,y)、I2(x',y')为完全一致。定义3图像I1(x,y)、I2(x',y')，对于任意像素 (x,y)∈D，D为I1(x,y) 的有限非空集，如果 I2(x',y')=T(I1(x,y),x,y)，且存在I1(x,y)=T-1(I2(x',y'),x',y')，则图像I1(x,y)、I2(x',y')为部分一致。实际应用中，图像为二维有限序列，图像间的一致性判别通常是在有限区域内进行，这样部分一致性更具有应用价值。根据以上定义，不同的应用对于图像一致性的要求不同，以下分别定义基于信息熵的一致性、基于内容的一致性和基于特征的一致性，以满足不同的应用。

1.2 基于信息熵的图像一致性 按照Marr计算理论 [7]，图像中的信息即图像中颜色或亮度的变化，呈现出的是物体和物体的关系以及与人的关系的要素。如果把一幅图像看作一个虚构零记忆“信源”的输出时，可以通过观察图像的直方图来估计该信源的符号概率。假设图像I大小为M×N，灰度范围为[0,L-1]，rk为此区间的离散灰度随机变量，nk为第k级灰度在图像中出现的次数。这时，信源的熵变为： SLAM

式中， SLAM

定义4图像I1(x,y)、I2(x',y')，对于任意像素 (x,y)，如果H(I2)=H(I1)，则图像I1(x,y)、I2(x',y') 信息熵完全一致；如果H(I2)-H(I1)

显然信息完全一致在实际中很难满足。在图像传输及图像压缩过程中，图像信息熵一致性判别十分重要。

1.3 基于内容的图像一致性

定义5I1(x,y)→struct{w1, w2, ..., wn}，I2(x',y')→struct{w1',w2', ..., wn'}，其中，wk、wk'表示I1(x, y)、I2(x', y' ) 经语义分割得到的语义实体，struct表示语义实体间的结构关系，如果struct{w1,w2, ...,wn}=struct{w1',w2', ...,wn'}，则图像I1(x,y)、I2(x',y' ) 为内容完全一致；如果w1=w1', w2=w2', ..., wn=wn'，则图像I1(x,y)、I2(x',y') 为内容部分一致。显然，满足内容完全一致条件必然满足内容部分一致条件。基于内容的图像一致性判别，对于图像跟踪、场景识别等应用领域具有重要意义。

1.4 基于特征的图像一致性

定义6特征一致定义:图像I1(x,y) →{f1, f2, ..., fn}，图像I2(x, y) →{f1', f2', ..., fn'},fk、fk' 表示I1(x,y)、I2(x',y' ) 经特征提取得到的特征，如果对于任意特征，满足F(f1)=F(f1')，F(f2)=F(f2'), ..., F(fn)=F(fn')，其中，F(·) 为对特征进行某种运算，则图像I1(x, y)、I2(x', y' ) 为特征完全一致；如果F(fk)=F(fk'), k=1, 2, ..., m, m

同样，满足特征完全一致条件必然满足特征部分一致条件。基于特征一致判别的意义在于可以为某些场景配准提供理论依据。

2 图像配准评价算法

视觉SLAM的VO，主要任务即确定相邻帧图像间的运动关系。如果采用优化技术对运动参数空间进行搜索，则需确定优化目标函数，它反映的是相邻两帧图像的配准程度。根据上一节的定义，在VO中可以基于像素的一致性来对配准进行初始评价，也可基于特征的一致性来对配准进行深层次评价。一般，VO中采集的图像为RGB图像，首先需将其变换为灰度图像。

2.1 RGB 图像灰度变换

为最大限度利用RGB 图像信息，本文将基于图像信息熵确定灰度变换的权值，算法步骤如下：

（1）计算RGB图像三个通道IR、IG、IB的信息熵：

SLAM

式中：HR、HG、HB 分别为IR、IG、IB三个图层对应的信息熵；pR(Rk)、pG(Gk)、pB(Bk) 分别是IR、IG、IB三个通道的直方图统计量。

（2）根据图像信息量确定三个通道的权重。为最大限度保留图像信息，按照信息量的大小分配权重：

SLAM

（3）基于信息量RGB图像线性变换为灰度图像：

SLAM

式中，R、G、B分别是RGB图像任意像素的分量。

2.2 基于像素的图像配准评价

假设VO采集的两帧图像依次为I1(x,y)、I2(x',y' )，大小同为M×N，将I1(x,y)看作参考图像，则I2' (x,y)=T(I2(x',y'), x',y')，其中T 包含了摄像机的运动：平移tx、ty、tz，旋转 θ(pitch)、φ(roll)、ψ(yaw)。理想情况下，评价函数定义为： SLAM 式中，A={(x,y)|I1(x,y)=I2'(x,y)}，Num(A) 越大则图像配准度越高，当Num(A)=M×N 时，则完全配准，即基于像素完全一致。摄像机在采集两幅图像时光照条件可能存在差异，如果考虑光照的影响，则评价函数定义仍为式(1)，A={(x,y)|I1(x,y)=αI2'(x,y)}，α为亮度调节参数，取值不同，则A不同，A包含的元素数量也将不同。因此，Num(A)=max{Num({(x,y)|I1(x,y)=αI2'(x,y)})}。基于像素的图像配准评价思想简单，但实现相对复杂。图像比较时需考虑参数α的影响，需要进行优化计算，耗时较长。同时由于数字图像在变换过程中会进行插值运算，相应像素的亮度值取决于插值算法，这也给配准评价带来了不确定性。

2.3 基于边缘特征的图像配准评价

假设VO采集的两帧图像依次为I1(x,y)、I2(x',y' )，大小同为M×N，将I1(x,y) 看作参考图像，算法步骤如下：（1）对图像I1(x,y)、I2(x',y' ) 进行高斯滤波： SLAM 式中， SLAM 。（2）运用canny算子提取滤波后图像边缘，假设前一帧图像边缘特征集合Ω1={f1, f2, ..., fn}，后一帧边缘特征集合Ω2={f1', f2', ..., fm'}。（3）从图像中直接提取的边缘既包含环境中物体的纹理或边界，也包含因图像噪声导致的灰度突变而产生的噪声边缘 [8]。和正确边缘相比，噪声边缘因噪声点具有随机性的原因，其长度更短。对Ω1、Ω2进行预处理，包括删除细小边缘、剪除细小枝节。 if L(fk) 式中： SLAM 表示前向部分Hausdorff 距离；ai为集合 Ω1 的第i个边缘点分量；bj为Ω2'中的第j个边缘点分量；fF 为0到1之间的数值，表示取集合中部分点。同理， SLAM 表示后向部分 Hausdorff 距离。

首先，计算集合Ω1中的任意点ai到集合Ω2' 的最短距离，然后对Ω1中的所有点进行排序。假设集合Ω1边缘点个数NΩ1，则前向部分Hausdorff距离为以上序列的第 Kth=fF×NΩ1；同理，后向部分 Hausdorff 距离为Ω2' 序列的第Kth=fR×NΩ2'。

HfF fR(Ω1,Ω2') 越小，则两幅图像的配准越高，当HfF fR(Ω1,Ω2')=0时，表示完全配准，即基于特征完全一致。

3 实验及分析

为验证本文提出的图像配准评价算法，任意采集一幅图像，依次对其进行不同距离的平移和不同角度的旋转，比较变换后图像与原始图像的Hausdorff 距离。首先根据上节提出的算法步骤，对图像进行预处理，其结果如图1所示。

SLAM

原始图像依次沿x轴、y轴平移50、100、150，然后提取其边缘特征并做修剪处理，其结果如图2、图3所示。分别计算平移后图像与原始图像的Hausdorff 距离为45.07、62.14、77.62，平移越小，Hausdorff 距离越小，配准程度也越高，与视觉感受一致。

SLAM

原始图像依次以图像原点为轴逆时针旋转，然后提取其边缘特征并做修剪处理，其结果如图4、图5所示。分别计算平移后图像与原始图像Hausdorff距离为50.60、59.48、68.94，旋转越小，Hausdorff 距离越小，配准程度越高，与视觉感受一致。

SLAM

4 结语

本文针对视觉SLAM的VO广泛使用的特征点法以及光流法存在的问题，寻求建立一种更加简便且稳定的图像配准算法，该算法以图像一致性为理论基础，利用VO顺序采集图像的帧间特点，最后通过实验验证了所设计的基于边缘特征一致性的图像配准评价符合VO应用的视觉要求。今后，将按照此思路继续开展图像运动参数搜索算法研究，完善以图像配准为基础的VO技术框架。

注：本文通讯作者为梁伟鄯。

参考文献

[1] CADENA C，CARLONE L，CARRILLO H，et al. Past， present，and future of simultaneous localization and mapping： toward therobust perception age [J]. IEEE transactions on robotics，2016，32（6）：1309-1332.

[2] GUILLAUME B，ZAYED A，LI Y，et al. Simultaneouslocalization and mapping： A survey of current trends in autonomousdriving [J]. IEEE transactions on intelligent vehicles，2017，2（3）：194-220.

[3] 陈致远，涂群章，张详坡，等 . 足式爬行机器人研究进展与发展趋势 [J]. 兵器装备工程学报，2020，41（9）：1-12.

[4] 胡章芳，张杰，程亮 . 融合特征法与直接法的 RGB-D 稠密视觉SLAM 算法 [J]. 半导体光电，2020，41（4）：548-554.

[5] 郝洛莹 . 基于视觉惯性里程计的 SLAM 系统研究 [D]. 深圳：中国科学院大学（中国科学院深圳先进技术研究院），2020.

[6] 王勃 . 基于光流法运动估计的室内视觉定位方法研究 [D]. 重庆：重庆理工大学，2019.

[7] Marr David. Vision[M].San Franci-sco： Freeman Publishers，1982.

[8] 田超然 . 面向视觉 SLAM 的联合特征匹配和跟踪算法研究 [D]. 深圳：中国科学院大学（中国科学院深圳先进技术研究院），2020.

[9] 杨维 . 面向场景理解的景象匹配方法研究 [D]. 成都：电子科技大学，2017.

[10] HUTTENLOCHER D，KLANDERMAN G，RUCKLIDGEW. Comparing images using the hausdorff distance [J]. IEEEtransactions on pattern analysis & machine intelligence，1993，15（9）：850-863.

作者简介：王一波（1981—），男，山西大同人，博士，高级工程师，研究方向为机器视觉、人工智能、工业控制。梁伟鄯（1989—），男，广西贵港人，硕士，讲师，研究方向为嵌入式开发、信号处理。赵云（1982—），女，广西柳州人，硕士，讲师，研究方向为信息处理。

编辑：黄飞

打开APP阅读更多精彩内容