一种无需监督的目标追踪新方法——给视频上色

zhKF_jqr_AI 2018-07-02 3281

电子说

1.2w人已加入

描述

追踪视频中的对象目标是计算机视觉的基本问题，这对于动作辨识、目标对象交互或者视频风格化等应用非常重要。然而，教机器在视觉上追踪物体是非常有挑战性的，因为它需要大型的、被标记的数据集进行训练，但是这些跟踪数据无法大规模标记。论智君昨天在六种人体姿态估计的深度学习模型和代码总结一文中谈到了对人体姿态估计的方法，感兴趣的读者可以阅读一下。

今天，谷歌AI博客发表文章，称他们找到了一种无需监督的目标追踪新方法——给视频上色。在之前的Tracking Emerges by Colorizing Videos一文中，谷歌研究者介绍了一种卷积神经网络，它可以给灰度视频上色，但是无法从单个参照系中复制颜色。为了达到这一目的，这次提出的的网络学会了如何在没有监督的情况下自动对目标物体进行视觉追踪。重要的是，虽然模型不能直接训练用于追踪，但它可以跟踪多个物体，同时在图形变换上能保持较高的鲁棒性，并且不需要任何标记过的训练数据。以下是论智对原文的编译。

上图是在DAVIS 2017数据集上的追踪预测示例。学会给视频上色后，一种用于追踪的机制就自动出现，不需要监督。我们在第一帧用不同颜色标出了需要识别的对象，之后模型不需要学习或监督就可以在接下来的视频中自动延续需要上色的部分。

学习对视频重新上色

我们假设，只在第一帧显示出的颜色可以提供大量训练数据，能让机器学习在视频中追踪所选定的区域。显然，有些情况下，颜色会暂时变得不连贯，比如光线突然改变，但是总体来说，颜色是稳定的。另外，大多数视频带有颜色，同时还有大量的自监督学习信号。我们对视频去颜色化，在给它们上色，是因为可能多个物体的颜色都相同，但是通过上色，我们可以教机器追踪具体的物体或区域。

为了训练我们的系统，我们用的是Kinestics数据集中的视频，该数据集中的视频记录的大多是日常活动。我们把视频中除了第一帧之外的所有帧都转换成了灰调，并训练一个卷积网络预测原本的颜色。我们希望模型学习如何追踪区域，从而能准确地复原颜色。我们主要的关注点在于，跟踪物体将会让模型自动学习。

我们用DAVIS 2017数据集中的视频说明这一过程，在模型中输入灰度视频和一帧带有颜色的视频，让其判断剩下视频的颜色。模型学会从第一帧中复制颜色，即它可以不在人类监督下学会追踪目标物体。

想从单一参照视频中复制颜色，模型需要在内部学会如何找到正确的区域，这样才能填充正确的颜色。这就迫使它学习一种可以用来追踪的机制。下面是模型上色的过程：

左：第一帧上色；中：输入视频；右：输出视频

虽然网络在训练时没有标准参照，我们的模型学会了以第一帧为参照对任意区域进行上色。我们可以跟踪任一物体甚至视频中的某个点。唯一的不同是，我们不是改变颜色，而是添加代表这一区域的标签。

分析跟踪器

由于模型在大量未标记的视频上训练，我们想掌握模型到底学到了什么。下面的动图展现了如何用模型学习来的可视化方法将嵌入映射到三维空间中，这一过程用到了主成分分析（PCA）并将其变成RGB格式的图像。结果显示，在与学到的嵌入空间最近的区域似乎更对应目标物体的识别，即使变了形或改变了视角。

第一行：DAVIS 2017数据集中的视频；第二行：上色模型内部的嵌入。相似的嵌入会在视觉表示中有相似的颜色，这说明目标识别将学习到的嵌入进行像素划分

姿态跟踪

我们发现，如果在开头帧中给定几个关键点，模型还可以跟踪人类的姿态。我们展示了JHMDB数据集中的几个结果，其中我们追踪了人类的关节骨架。

在这个例子中，输入的是第一帧人类的动作，接下来的动作模型会自动追踪。即使之前没有训练过此种场景，模型也能追踪到人类动作

虽然我们的模型还不足以超越监督模型，但是与最近基于光流的模型相比，它所学到的视频分割和人类姿势追踪表现已经胜出了。我们的模型比光流追踪方面更稳定，尤其在复杂的情况下，例如动态背景、快速运动和障碍物面前。想了解更多细节，请阅读原论文。

结语

我们的工作表示，给视频上色可以用作在无监督情况下学习追踪视频中的目标物体。另外，我们发现系统的失败会导致给视频上色时出现错误，这也说明，未来改善视频的上色模型可以提高姿态追踪系统的表现

打开APP阅读更多精彩内容