一文读懂经典双目稠密匹配算法SGM

新机器视觉 2022-12-15 1528

描述

题图为SGM算法的一个处理结果。

最近来看看一些双目稠密匹配的算法。说来惭愧，SGM在航测领域是很重要的算法（当然也是最好的双目稠密匹配算法之一），自己却没有认真读过，只是大致有些了解。

看了论文，再结合网上一些资料，自己做了些论文笔记。

想到关于SGM论文网上还没看到比较翔实的博客，就把自己做的笔记再加些解释分享出来了（下文中的引用部分多为我自己的思考）。

其中还有一些是自己不理解的地方，准备后续写代码时研究。

也希望大家可以分享自己的见解，或对文章内容进行批评指正。

由于是论文笔记，所以有些中英夹杂，而且有些想想也不好翻译，就不再改了。闲话少说，直接来看论文吧。

基础

双目图像稠密匹配的4个基本步骤为：

Matching cost computation;

Cost aggregation: connects the matching cost within a certain neighborhood;

Disparity computation: selects the disparity with the lowest matching cost;

Disparity refinement: removing peaks,

interpolating gaps or increasing the accuracy by sub-pixel interpolation.

这4个都比较好理解，SGM论文也是按照这样来组织的。

下面就按照论文的顺序来详细了解下SGM算法。

中心思想及要求

idea: 使用MI (Mutual Information) 来进行单像素匹配 + 多个一维平滑约束（来拟二维约束）来进行“全局”优化。

前提: 已知立体像对间的对极几何关系。

匹配算法

Pixelwise cost calculation

SGM算法不用图像块进行匹配，只考虑当前像素。因为利用图像块进行匹配对应的隐性约束为块内像素的视差是相同的，而这在深度变化（物体边界）的地方是不成立的。

互信息（MI）：defined from the entropy（熵）of two images:

匹配算法

上式针对整张图像而非单个像素，不能用作 cost。因此，对于一张图像的联合熵，有其他论文利用泰勒展开计算：

匹配算法

其中，公式内第一项为像素 p 的灰度值，第二项为匹配像素的灰度值。

这里，联合熵被简化为左图所有像素点（及其对应点）的 h(i1,i2) 之和。

匹配算法

可以看到，由于极线矫正后左右图十分相似，所以得到的联合分布直方图类似于一个对角矩阵。

以上计算并不包含被遮挡的像素（如何得知哪些像素是被遮挡的？）。因此，为了避免包含遮挡像素，建议将熵也这么计算：

匹配算法

此外，以上计算也只针对两张图像的重叠部分。

因此，一维直方图也可以这么计算：

匹配算法

h(i) 即为 P(I1, I2) 第 i 行（列）像素之和。

最终，互信息的定义为

匹配算法

对于像素点 p，若取其视差为 d，则对应的 cost 为：

匹配算法

问题：想要对匹配图像 Im 进行视差矫正就需要视差图。

但我们的目标就是获取视差图。

解决：

迭代法：start with a random disparity map for calculating Cmi. And use the cost for matching and calculating a new disparity map.

论文表示大致迭代3次就可以了。

层次法：recursively use the up-scaled disparity map (half resolution). Start with a random disparity map of 1/16 resolution. 在这个1/16的视差图上重复计算3次（每次迭代3次，然后每放大一倍迭代3次计算出新的视差图。

匹配算法

Aggregation of costs

以上就是论文进行匹配的第一步。接下来就要进行一个“全局”上的优化。

pixelwise matching 还是不够稳定，因此需要加上一些约束来保持同一平面的像素具有相同的视差并惩罚邻域内视差不连续的像素（即平滑）。

所以最小化如下能量方程：

匹配算法

上式第一项为所有 MI cost 的和；

第二项对像素p的邻域内出现视差与p的视差相差1 的像素加上一个惩罚项P1；

第二项对视差相差大于1 的像素加入更大的惩罚P2.

匹配算法

作用：对于小的视差相差使用较小的惩罚以适应斜面或曲面；

对大的视差相差使用大的惩罚来防止深度（视差）不连续。

问题在于全局最小化 E(D) 是一个 NP 完全问题，很难解算。

单行（1D）约束可以利用动态规划达到多项式时间。

因此很自然地想到优化多个单行的约束条件来拟合2D优化，作者建议至少要选择待优化像素的8个方向。

The aggregated smoothed cost S(p, d) for a pixel p and disparity d is calculated by summing the costs of all 1D minimum cost paths that end in pixel p at disparity d.（也就是说S是所有L之和。）

匹配算法