直接飞行时间（DToF）视频的深度一致超分辨率重建

3D视觉工坊 2023-08-30 1609

描述

1. 摘要

直接飞行时间(dToF)传感器因其测量精度高、结构紧凑、响应速度快和低功耗,被视为下一代设备3D传感的理想选择。但由于制造限制,其数据空间分辨率较低(例如iPhone dToF约为20×30),需要进行超分辨处理才能供下游任务使用。

本文提出了一种利用高分辨率RGB图像来增强低分辨率dToF数据的方法。不同于传统的每帧融合RGB和深度的方法，我们采用了多帧融合策略，以减少低分辨率dToF图像的空间模糊。此外，我们还利用了dToF传感器提供的深度直方图信息，这是一种dToF特有的特征，来进一步改善空间分辨率。

为了在复杂的室内动态环境下评估我们的模型,我们提供了大规模dToF传感器数据集——DyDToF，这是第一个具有动态对象和遵循物理成像过程的RGB-dToF视频数据集。我们相信随着dToF深度传感在移动设备上成为主流,我们提出的方法和数据集将促进行业的发展。

dToF

图1. 我们第一个提出了多帧方法,dToF深度视频超分辨率(DVSR)和直方图视频超分辨率(HVSR),利用高分辨率RGB帧引导进行低分辨率dToF传感器视频进行超分辨处理。深度预测的点云可视化显示,通过利用多帧相关性,与单帧深度增强网络相比,DVSR预测的几何形状更好,而参数更少;HVSR通过利用dToF直方图信息进一步改善了几何形状的保真度并减少了飞点。除每帧估计的改进外,我们强烈建议读者查看补充视频,其可视化了整个序列中时间稳定性的显著提高。（视频链接：https://www.youtube.com/watch?v=77LTIDqhBjA&ab_channel=ZhanghaoSun）

2. 方法提出

在移动设备上进行深度估计,对导航、游戏和增强/虚拟现实至关重要。以前出现的深度估计传感器·包括：双目摄像和结构光等传感器,以及间接飞行时间传感器。最近,dToF传感器因其精度高、体积小、功耗低而受关注。但由于制造限制,其空间分辨率很低,每个像素都整合了场景局部区域的深度,导致高分辨率重建存在明显的空间模糊。以前基于RGB图像引导的深度补全和超分辨率方法,要么假设存在高分辨采样,要么使用简化成像模型,直接应用到dToF数据效果不佳。如图1第2列所示,预测遭受几何畸变和飞点的影响。另一限制是它们仅处理单帧,而实际应用需要视频流输入,存在一定的时间连贯需求。逐帧处理RGB-depth视频会忽略时间相关性,导致深度估计中显着的时间抖动。

本文提出从两个方面解决dToF数据的空间模糊:利用RGB-dToF视频序列中的多帧信息融合和dToF直方图信息。我们设计了dToF视频超分辨网络DVSR,输入是高分辨率RGB图像序列和低分辨率dToF深度图,输出是高分辨率深度图序列。受RGB视频处理算法的启发,我们放宽多视图约束,使用容错的多帧对齐。相比逐帧处理,我们的网络明显提升了精度和时间连贯性。与逐帧处理基线相比,DVSR显着提高了预测精度和时间一致性,如图1第3列所示。

此外,dToF传感器可提供每个像素的深度直方图。我们设计了匹配该直方图的流程,将其融入网络,形成直方图视频超分辨框架HVSR。这进一步消除了空间模糊。如图1第4列所示,与DVSR相比,HVSR的估计质量进一步提高。

深度网络的训练和测试数据集也很重要。以前,真实采集和高质量合成数据集都被广泛使用。但是,它们都不包含具有大量动态对象的RGB-D视频序列。为此,我们引入了DyDToF,这是一个具有动态动物(例如猫和狗)和dToF模拟器的多样化室内场景的合成数据集。我们综合了RGB图像序列、深度图、表面法线图、材料反照率和相机姿态序列。据我们所知，这是第一个提供动态室内 RGB 深度视频数据集。我们将基于物理的虚拟 dToF 传感器集成到 DyDToF 数据集中，并分析(1)所提出的视频处理框架如何推广到动态场景，以及(2)低级数据模式如何促进网络训练和评估。

总结一下,我们的贡献有:

引入RGB引导的dToF视频深度超分辨率以解决这种移动3D传感器固有的空间模糊性。

提出基于神经网络的RGB-dToF视频超分辨率算法,可以高效利用视频中包含的丰富多帧信息和独特的dToF直方图。

提出第一个具有动态物体和基于物理的dToF传感器模拟的室内RGB-D数据集。我们的算法在所提出的数据集上进行了系统评估,以验证精度和时间一致性的显着提升。

3. dToF基础简介

本节简要介绍低分辨率dToF传感器的图像形成模型,并详细阐述它与以前的深度增强任务的不同之处。

dToF

图2. 直接飞行时间(dToF)传感器工作原理。每个dToF像素记录一个包含FoV内补丁深度信息的直方图,导致空间模糊。dToF传感器可以在“峰值检测”模式或直方图模式下运行。

如图2所示,短光脉冲由脉冲激光器生成并发射到场景中。脉冲会散射,一部分光子将反射回dToF检测器,触发到达事件并记录时间戳。根据激光发射和接收之间的时间差,场景深度由比例关系确定,其中是时间差,是光速。每个dToF像素捕获其各自的视场(FoV)内的所有场景点反射的光,该FoV由整体传感器FoV和空间分辨率确定。因此,它通常在多个时间槽记录光子到达事件。第k个时间槽中的信号幅度可以表示为

dToF

其中是时间槽大小,是时间槽数(由dToF像素电路确定),是激光脉冲时间形状,、是FoV内场景点的深度和辐射度。我们称单个dToF像素记录的维信号为“直方图”。我们在下面的模拟和合成数据生成中使用这个图像形成模型。与传统的深度超分任务相似,这里我们假设低空间分辨率是输入数据中的唯一退化。

dToF数据可以以两种模式处理:“峰值检测”模式和直方图模式。在第一种模式下,在每个像素处执行直方图峰值检测。只有具有最强信号的峰值深度值被发送到后处理网络。在第二种模式下,利用直方图中包含的更多信息。在这两种模式下,dToF数据都包含相对精确的深度信息,而侧向空间信息只在低分辨率下已知(例如,所需分辨率的16倍更低)。这种空间模糊性使得深度超分任务比传统的稀疏深度补全任务更具挑战性。

4. 方法详解

我们的网络输入是T帧序列。每帧包含一个空间分辨率为的RGB图像和一个空间分辨率为的dToF数据,其中是下采样因子(我们在所有实验中使用)。在直方图模式下,每个帧的dToF数据在时间维度上具有个时间槽,导致的数据量。在两种模式下,我们的网络预测一个高分辨率的深度图序列。

4.1 dToF深度视频超分辨率

dToF

图3. (a)所提出的dToF视频超分辨率框架。它通常遵循两阶段预测策略,其中两个阶段都预测一个深度图和置信图,并融合以获得最终预测。特征在帧之间进行对齐和聚合,可以是双向的或仅前向的。(b)基于灵活变形的多帧特征聚合示意图。与严格遵循估计的光流不同,来自多个候选位置的特征在帧之间进行变形。(c)所提出的直方图处理流程示意图。完整直方图通过峰值检测和再分箱进行压缩以产生近似直方图。在置信预测阶段,计算输入直方图与预测深度值生成的直方图之间的直方图距离,以估计预测的置信度。

整体RGB-dToF视频超分辨率(DVSR)网络架构如图3(a)所示。该网络以递归方式操作,其中多帧信息以仅前向或双向传播。在每帧中,我们执行两阶段处理以预测高分辨率深度图(与RGB引导具有相同分辨率)。在第一阶段,dToF传感器数据与RGB引导融合以生成初始高分辨率深度预测和置信度图。第一阶段的处理结果和dToF传感器数据作为输入馈入第二阶段细化网络,以生成第二个深度预测和置信度图。根据置信度图,对初始和第二个深度预测进行融合以生成最终预测。除特征提取器和解码器外,每个阶段都包含一个多帧传播模块和一个融合骨干网络,以充分交换时间信息并在时间上稳定深度估计。详细的网络架构在补充材料中提供。

以前的单目深度视频处理算法通常对多视图几何提出“硬”图心约束。在立体视频处理中也采用“硬”对应搜索和运动对准。相反,我们给网络选择多个有用对应项的自由性。我们对预训练的光流估计器进行联合微调,而不对估计的流施加监督。我们还在基于光流的变形后包含可变形卷积模块,以挑选多个特征聚合候选项(如图3(b)所示)。这一操作进一步增加了灵活性,并补偿流估计中的错误。这一设计选择至少提供两个好处:首先,该算法可以轻松推广到静态和这一设计选择至少提供两个好处:首先,该算法可以轻松推广到静态和动态环境。其次,帧之间的对应检测不需要准确。尽管深度学习方法最近有进展,但仍缺少轻量、快速且准确的流估计器。特别是,为了在帧之间准确变形深度值,需要3D场景流估计,这比2D光流估计更具挑战性。最先进的场景流估计器在准确性和仅限于刚体运动方面仍然存在比较低的问题。

4.2 dToF直方图视频超分辨率

基于深度视频超分辨率网络,我们进一步提出了一个直方图视频超分辨率(HVSR)网络,以利用dToF传感器提供的独特直方图信息。即使使用强大的机器,处理完整的直方图数据也不可行。因此,我们首先在直方图的时间维度上执行简单的压缩操作。对直方图进行再分箱以在单目深度估计中强制网络关注顺序关系和更重要的深度范围的技术已被提出。如图3(c)所示,这里我们提出了一个类似的直方图压缩策略:首先,我们阈值直方图以去除低于噪声水平的信号。然后,将直方图均匀划分为段,并在每个段内检测峰值。然后,我们将直方图再分箱为由部分边界和峰值定义的个时间槽。这个的数据量输入神经网络。

我们在两个方面利用压缩后的直方图:首先,将检测到的个峰值作为两阶段网络的输入进行连接。其次,我们计算直方图匹配误差来促进置信度预测。预测的高分辨率深度图被划分为补丁,每个补丁对应一个dToF像素。将补丁内的深度值根据图像形成模型(等式1)转换为直方图。然后,将预测的直方图与输入的dToF直方图进行比较。我们根据Wasserstein距离定义这两个直方图之间的差异。

dToF

较大的表示对应补丁内的预测不太可靠,应该在细化中被赋予较低的置信度。直方图匹配误差被输入到网络两阶段中的置信度预测层。

4.3 实现细节

我们在TarTanAir大规模RGB-D视频数据集上训练所提出的dToF深度和直方图视频超分辨率网络。我们使用14个场景进行训练,每个场景有300、600、600、600帧。我们从真值深度图按照图像形成模型(等式1)模拟dToF原始数据。由于TarTanAir数据集仅提供RGB图像,我们使用平均灰度图像来逼近辐射度。我们在所提出的DyDToF数据集中解决了这个问题,以获得更真实的dToF模拟。

我们使用每帧的Charbonnier损失与和梯度损失对网络进行监督。

dToF

其中分别是第帧的真值和估计深度图,是梯度算子。在训练过程中,我们将数据集中的长序列划分为较短的帧序列。对于每个视频片段,我们将深度值裁剪到[0,40]并归一化到[0,1]。在所有实验中,我们将空间超分辨率因子设置为16,压缩直方图中的时间槽数设置为4。我们总共训练大约15万次迭代,批量大小为32。我们使用Adam优化器,学习率为,以及学习率衰减因子为0.2的多步学习率衰减调度器。在8×Nvidia Tesla-V100 GPU上训练大约需要2天。

5. 结果展示

我们在多个RGB-D数据集上对所提出的dToF视频超分辨率网络进行评估。由于没有现成的算法直接适用于dToF传感器超分任务,我们重新训练了两种最新的每帧深度增强/补全网络NLSPN和PENet,使用相同的训练设置作为我们的基线。另一个基线是我们将所提出的DVSR网络以每帧方式操作。我们使用三个指标评估深度超分辨结果:每帧绝对误差(AE)(更低更好)、每帧指标(更高更好)和时间端点误差(TEPE)(更低更好)。

dToF

其中是从第帧到第帧的变形运算。我们使用真值光流进行这种变形,并使用PyTorch3D中的遮挡感知变形模块来避免遮挡导致的伪像。

dToF

表1. 在TarTanAir、Replica和DyDToF数据集上的定量比较。粗体表示最佳结果,下划线表示第二佳结果。我们的网络在合成的TarTanAir数据集上训练,其包含静态场景,但泛化良好到真实场景的Replica数据集和动态场景的DyDToF数据集。

TarTanAir数据集评估。我们在TarTanAir数据集中使用4个场景进行评估,每个场景分别有300、600、600、600帧。如表1所示,两个视频处理网络一致优于每帧基线,尽管参数更少。这验证了多帧信息聚合的有效性,因为当以每帧方式操作时,所提出的网络性能较差。通过利用dToF直方图信息,HVSR进一步提升了估计质量。

dToF

图4. 在TarTanAir场景(a)和Replica场景(b)上的定性比较。DVSR和HVSR相比每帧基线明显优越,尤其是在放大区域。请参阅补充视频或项目页面以获得更好的时间可视化。

我们在图4(a)中进行定性比较。与每帧基线相比,视频处理网络取得了更高的深度质量,特别是在细结构(如椅子扶手和薄枕头)方面(更好的可视化在放大的边界框中)。显然,在多帧中聚合信息可以缓解处理中的空间模糊性,因为细结构在一帧中可能不可见,但在其邻近帧中可能出现。

Replica数据集评估。Replica是一个真实捕获的室内3D数据集,具有真实的场景纹理和高质量几何。我们使用相同的数据合成流水线从真值深度和RGB图像生成低分辨率的dToF数据。我们在表1第二列中展示了我们的网络(无微调)在Replica数据集上的跨数据集泛化能力。由于Replica数据集中没有真值光流,我们不评估时间指标。我们还在图4(b)中进行定性比较。

dToF

图5. x-t切片(沿虚线)用于时间稳定性可视化。与视频处理结果相比,每帧基线的时间轮廓更加嘈杂,而HVSR揭示了更多细节。

时间稳定性。我们还在图5中可视化估计深度图的x-t切片的时间稳定性。每帧处理引入明显的时间抖动,在x-t切片上可视化为嘈杂/模糊伪像。DVSR和HVSR都具有清晰的x-t切片,展示了它们的高时间稳定性,而HVSR进一步揭示了DVSR预测中不可见的细结构。请参阅补充视频或项目页面以获得更好的时间可视化。

6. DyDToF RGB-dToF视频数据集

由于缺乏动态RGB-D视频数据集,我们引入了DyDToF,其中室内环境中插入了动物动画。数据集概述如图6所示。该数据集包含100个序列(总共45k帧)的RGB图像、深度图、法线图、材料反照率和相机姿态,这些都是从Unreal Engine与开源插件EasySynth生成的。我们使用约30种动物网格(包括狗、猫、鸟等)和约50种相关动画生成数据集,并将它们放置在20个室内环境中(包括学校、办公室、公寓等)。所有3D资产都从公开可用的资源中购买。

dToF

图6. DyDToF数据集概述。(a)我们将动态动物模型插入到各种高质量的室内环境地图中。(b)我们生成RGB图像、深度图、法线图、材料反照率和相机姿态序列。

6.1 动态对象评估

我们在DyDToF数据集上进行了类似评估,重点关注动态对象的深度估计。定量比较如表1第3列所示。我们还在图7(a)中展示了一幅来自吠叫狗动画的帧,进行定性比较。虽然TarTanAir数据集包含非常有限的动态对象,但所提出的视频网络推广到动态场景的效果很好。我们将此归因于我们灵活的、容错的多帧对齐模块。请参阅我们的补充材料中的消融研究。

dToF

图7. 在DyDToF数据集上的评估。(a)提出的网络DVSR和HVSR在具有动态对象的情况下表现良好,而每帧基线遭受畸变和模糊的影响。(b) 在TarTanAir数据集上训练的HVSR在RGB图像强度与渲染方程计算的辐射度之间存在不匹配时会失败(II)。通过在DyDToF数据集上进行微调,这种伪像大大得到缓解,DyDToF数据集采用了更真实的dToF模拟(III)。

6.2 更真实的dToF模拟

如第5节所述,由于TarTanAir数据集不提供材料反照率和表面法线,我们用RGB图像逼近辐射度。根据渲染方程,实际辐射度由材料反照率、观察方向和表面法线确定。

dToF

由于我们假设dToF传感器中的激光器和接收器共定位,因此观察方向与激光照明方向平行。

我们在DyDToF数据集中使用这个公式生成更真实的dToF模拟,并微调在TarTanAir数据集上预训练的网络。我们在图7(b)中展示一个极端情况,其中架子的一侧面具有非常低的辐射度,因为表面法线与dToF激光发射方向近乎垂直。由于光源与摄像头不共定位,RGB图像中不存在此效应。如第3列(I)所示,当在dToF直方图模拟中使用RGB图像时,预训练的HVSR推广良好。但是,当在dToF模拟中使用物理正确的辐射度时,预训练的HVSR失败,出现大的几何畸变(II)。通过在DyDToF上微调HVSR,它适应了预测的直方图与基础几何之间更真实的关系,并避免失败(III)。

7. 多帧融合消融研究

dToF

表2. 多帧融合模块的消融研究。

我们首先比较各种多帧融合模块,如表2所示。在最简单的情况下,多个帧的特征被连接而不对齐。这显著降低了性能,因为不同空间位置的特征被融合在一起。基于流的对齐使用预训练(固定)的光流估计器对齐帧之间的特征。但是,这种方法受到流估计不准确和前景-背景混合的基本问题的影响。我们提出的框架中的灵活变形避免了这些问题,并给网络选择从变形特征中挑选有用信息的自由度。我们的完整多帧融合模块利用双向传播。但是,这禁止在线操作,因为需要未来信息。为此,我们用仅前向传播替换双向传播。如表2第三行所示,这也牺牲了性能,但与每帧处理基线和其他低效对齐策略相比,它仍实现了一致的改进。

8. 结论

本文针对dToF传感器的数据特点,设计了视频深度超分辨网络。多帧融合可明显提升精度、时间连贯性和对动态场景的泛化。使用传感器的直方图信息也可进一步改善细节。我们构建的第一室内动态RGB-D数据集——DyDToF,能更好地反映实际应用场景,并具有dToF传感器的仿真。它不仅限于dToF传感器应用,还有可能为通用动态场景3D重建和新视图合成算法确立新的基准。

打开APP阅读更多精彩内容