RGPNET：复杂环境下实时通用语义分割网络

电子设计 2020-12-10 1417

描述

本文介绍的论文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。
作者： Tom Hardy
首发：3D视觉工坊微信公众号

论文：RGPNet: A Real-Time General Purpose Semantic Segmentation （文末可下载）
论文链接：https://arxiv.org/abs/1912.01394

一、主要思想

本文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。RGPNet由一个轻量级的非对称编码器-解码器和一个适配器组成。适配器有助于从编码器和解码器之间的多层分布式表示中保留和细化抽象概念。它也有助于从较深层到较浅层的梯度流动。大量实验表明，与目前最先进的语义分割网络相比，RGPNet具有更好的性能。

此外还证明了在保持性能的同时，使用改进的标签松弛技术和逐步调整大小可以减少60%的训练时间。论文还对应用在资源受限的嵌入式设备上的RGPNet进行了优化，使推理速度提高了400%，性能损失可以忽略不计。RGPNet在多个数据集之间获得了更好的速度和精度权衡。

二、创新点

1、提出的RGPNet作为一种通用的实时语义分割体系结构，它可以在单分支网络中获得高分辨率的深层特征，从而提高准确性和降低延迟，在复杂的环境中具有竞争力。

2、引入一个适配器模块来捕获多个抽象级别，以帮助细分的边界细化，适配器还通过添加较短的路径来辅助渐变梯度流。

3、对于green AI，在训练期间采用渐进式调整大小技术，从而使训练时间和环境影响减少60%，并且采用一种改进的标签松弛来消除低分辨率标签映射中的混叠效应。

4、使用TensorRT（一个高性能深度学习推理平台）优化RGPNet，以便部署在边缘计算设备上，从而使推理速度提高400%。

5、RGPNet在Cityscpes、CamVid和Mapillary数据集上分别实现了Resnet-101作为backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作为backbone下74.1%、66.9%和41.7% mIoU。对于1024×2048分辨率的图像，RGPNet在CityScapes数据集上单NVIDIA GTX2080Ti GPU下达到37.4 FPS。

三、网络结构

RGPNet的整体结构如下所示，每个箭头都有对应的操作模式：

中间一列操作为编码器
最右边操作为解码器
“+”操作为适配器（Adaptor）

其中“+”详细操作如下所示：
1、T（：）是一个转换函数，它用来减少编码器模块输出通道数量并将其传输到adaptor。
2、D（：）和U（：）是下采样和上采样功能。

Adaptor有许多优点：

1、Adaptor聚合来自不同上下文和空间级别的特征。
2、通过引入较短的路径，有助于梯度从较深的层流向较浅的层。
3、Adaptor允许使用轻量解码器的不对称设计，这将减少卷积层，进一步增强梯度流。因此，Adaptor使网络适合于实时应用，因为它在保留空间信息的同时提供了丰富的语义信息。

针对带标签松弛的渐进式调整：

论文采取了最大化像素周围区域相似度分布，而不是单个像素级别的标签最大可能化，针对边界类别，提出了边界损失函数。

四、实验结果

多种网络在Mapillary Vistas数据集上的测试结果：

几种网络在Mapillary Vistas数据集上的性能对比：

在CamVid数据集上的性能对比：

RGPNet使用TensorRT在GTX2080Ti和Xavier上速度对比：

综合速度和准确率以及实际部署下的性能，RGPNet都非常具有竞争力~!

推荐阅读

3D U-Net：从稀疏注释中学习密集的体积分割
超全的3D视觉数据集汇总

重点介绍：1、3D视觉算法；2、vslam算法;3、图像处理；4、深度学习;5、自动驾驶;6、技术干货。博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

审核编辑：符乾江

打开APP阅读更多精彩内容