电子说
商汤科技CVPR 2020录用论文在多个领域实现突破,包括:对抗式生成模型、三维点云理解与分析、训练加速与模型量化、视频理解与分析、网络结构搜索等。以下为商汤及商汤联合实验室入选CVPR 2020的代表性论文。
▎研究方向:对抗式生成模型
代表性论文:《对人脸生成模型的隐空间可解释性分析》链接:https://arxiv.org/abs/1907.10786
近年来,对抗生成网络(GAN)的快速发展极大地增强了图像生成的质量,也因此得到了越来越广泛的应用。越来越多基于GAN的模型被提出来提高生成质量以及训练稳定性,但是对于生成模型的可解释性还鲜有研究。
本文以人脸生成模型为例,对GAN的隐空间进行了深入分析,目标在于理解GAN是如何将一个随机噪声转化为一张高质量图片的。本文提出了一种简单而通用的技术InterFaceGAN,用于在潜在空间中进行语义人脸编辑,可控制姿势以及其他面部属性,例如性别、年龄、眼镜等,还能够纠正GAN造成的伪影。
代表性论文:《ACGPN:基于图像的自适应生成保留虚拟换装》链接:https://arxiv.org/abs/2003.05863
本文关注基于图像的虚拟换装任务。现有方法取得了很多突破但仍然存在很大问题:(1)人物的肢体仍然是模糊的;(2)对于下装很难做到清楚的保留;(3)衣服的纹理容易产生过度形变。
为此本文利用一种语义敏感的方法,自适应的判断哪部分图像是应该保留的,解决了现有方法中无法对人物肢体与衣服有遮挡的情况的建模,极大程度地降低了生成结果中的伪影以及模糊细节;并通过引入仿射变换的共线性等性质,对变形衣服中的薄板样条插值变换起到约束,使得Logo和花纹不易扭曲变形。 ▎研究方向:三维点云理解与分析 代表性论文:《PV-RCNN: 基于Point-Voxel点云特征深度融合的3D物体检测算法》链接:https://arxiv.org/abs/1912.13192
本文关注基于点云数据的三维物体检测任务。文章提出了一个高性能的3D物体检测框架PV-RCNN,其通过构造Set Abstraction特征抽象操作将基于Point与Voxel的点云特征提取算法分别在Voxel-to-Keypoint阶段和Keypoint-to-RoIGrid 阶段深度融合,使其同时拥有可变感受野、精确的点云位置信息以及高召回率,从而有效提升3D物体检测的性能。
实验部分,PV-RCNN分别在竞争激烈的自动驾驶数据集KITTI以及更大规模的Waymo数据集上得到了验证。在KITTI数据集的3D物体检测榜Car类别上,PV-RCNN大幅领先其他所有算法,在三个难度上均取得了第一名。在更大规模的Waymo数据集上,PV-RCNN同样在所有难度以及不同距离上超越了现有算法,最高mAP增幅达近7个点。
▎研究方向:训练加速与模型量化
代表性论文:《用于加速卷积神经网络训练过程INT8训练技术》链接//arxiv.org/abs/1912.12607
卷积神经网络训练过程需要耗费大量的计算资源和时间,而各种深度学习硬件都提供非常高效的INT8计算支持。当把INT8计算应用到训练中同时加速网络的前传和反传过程时,梯度的独特分布给量化训练带来了极大挑战。
为了解决梯度量化带来的精度损失,论文进行了量化训练收敛稳定性的理论分析并基于此提出了“误差敏感的学习率调节”和“基于方向自适应的梯度截断”方法,将两个方法在图像分类数据集ImageNet、CIFAR和目标检测数据集PASCAL VOC、COCO上进行实验,均取得了极少的精度损失。
实验中也验证了该方法对Inception、MobileNet等不同网络结构的通用性。为了保证更高的加速比,论文还提出使用周期更新、量化卷积融合等技术来减少量化操作带来的时间开销。通过在GTX1080TI上实测,可以提升22%的训练过程。
研究方向:视频理解与分析 代表性论文:《TAPOS: 基于时序动作解析理解动作内部和不同动作间的语义》
动作理解是计算机视觉领域的核心问题之一,也是许多其他任务的基石,如智能视频检索,基于视觉的机器人学等。本文发现,人本身对于动作序列中子动作模式的转换是比较敏感的。
在这篇工作中,本文提出了一种时域解析器,可以挖掘人体动作中的子动作模式,并根据挖掘出的子动作模式对较复杂的动作序列进行时域上的解析。这种时域解析器不但能对一个给定的动作序列进行子动作边界划分,还可以找寻大量不同动作序列中相同的子动作模式。本文发现,对较复杂动作序列良好的时域解析可以帮助提升一些较为高层的任务的准确率,如动作识别等。
▎研究方向:网络结构搜索 代表性论文:《最高加速400倍,探索更好的网络评价方法EcoNas》链接:https://arxiv.org/abs/2001.01233 许多网络搜索算法需要耗费大量的算力,而这些算力绝大多数集中在候选网络(Candidate)的评估上。同样地,由于算力的限制,候选网络的评估往往需要在代理环境(Proxy)下进行,如较短的训练周期数。虽然每个NAS算法都要用到代理环境,但是代理环境对子网络评估的影响仍然是未知的。 本文的工作首次系统研究了不同代理参数对网络评估的影响。作者发现,使用更可靠的代理环境不仅可以极大压缩计算量,也有助于搜到更好的模型。基于对代理环境的研究,作者提出了一个层次化的搜索方法,EcoNAS在将进化算法加速400倍的同时,得到了更好的网络结构。
同样地,作者发现可靠的代理环境也可以被用于其他搜索算法中,例如权重共享算法,在不影响精度的同时,使得搜索效率进一步提升。
责任编辑:pj
全部0条评论
快来发表一下你的评论吧 !