单目深度估计开源方案分享

3D视觉工坊 2023-12-17 1567

0. 笔者个人体会

单目深度估计网络可以估计RGB图像的稠密深度图，但大家可以发现大多数模型的深度图并不准确，尤其是物体边界的深度值非常模糊。而且很多深度估计模型只能处理分辨率很小的图像，图像一大就模糊。这就会导致SLAM/SfM等任务生成的3D场景的物体边界质量非常差。

今天笔者将为大家分享一项最新的开源工作PatchFusion，可以产生极高分辨率的单目深度图，还可以助力之前的SOTA方案ZoeDepth等网络涨点！

1. 效果展示

可以看一下单目深度估计效果，这个深度图的分辨率是真的高，物体边界分割的非常干净！

RGB

2. 具体原理是什么？

PatchFusion是基于图块的框架，具有三个关键组件：

（1）patch式融合网络，通过高层将全局一致的粗略预测与更精细、不一致的图块预测融合到一起；

（2）全局到局部 (G2L) 模块，为融合网络添加重要上下文，无需patch选择启发式方法；

（3）一致性感知训练 (CAT) 和推理 (CAI) 方法，强调patch重叠一致性，从而消除后处理。

RGB

3. 和其他SOTA方法对比如何？

分别在UnrealStereo4K、MVS-Synth 和 Middleburry 2014 上做了实验，证明PatchFusion可以生成具有复杂细节的高分辨率深度图。

更重要的一点是，PatchFusion可以增强之前的SOTA方案 ZoeDepth，在 UnrealStereo4K 和 MVS-Synth 上的均方根误差 (RMSE)分别提高了 17.3% 和 29.4%。

RGB

审核编辑：黄飞

打开APP阅读更多精彩内容