通用的时空预测学习框架实现高效视频预测案例

Dydg66778899 2023-06-19 481

人工智能

636人已加入

描述

本文介绍CVPR2023的中稿论文：Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning。这篇论文介绍了一种用于高效时空预测的时间注意力单元（Temporal Attention Unit，TAU）。该方法改进了现有框架，对时间和空间上的依赖关系分别学习，提出了时间维度上的可并行化时序注意力单元，实现了高效的视频预测。

神经网络

代码开源在我们的时空预测学习框架OpenSTL中。OpenSTL是一个全面的时空预测学习基准，涵盖了广泛的方法和不同的任务，从合成的移动物体轨迹到现实世界的场景，如人类运动、驾驶场景、交通流和天气预报。欢迎大家关注！

引言

时空预测学习是一种通过学习历史帧来预测未来帧的自监督学习范式，可以利用海量的无标注视频数据学习丰富的视觉信息，在气象预测、交通流量预测、人体姿势变化估计等领域有着广泛的应用场景。时空预测学习需要考虑视频中的空间相关性和时间演变规律，这是一项具有挑战性的任务。传统的方法主要基于循环神经网络来建模时间依赖关系，但是RNN有着计算效率低、难以捕捉长期依赖、容易出现梯度消失或爆炸等缺点。因此，如何设计一个高效、准确、稳定的时空预测学习模型，是一个亟待解决的问题。为了解决这个问题，我们首先研究现有的方法,并提出时空预测学习的通用框架，如下图所示。

神经网络

TAU

如下图所示，TAU模型不使用循环神经网络，而是使用注意力机制来并行化地处理时间演变。TAU模型将时空注意力分解为两个部分：帧内静态注意力和帧间动态注意力。帧内静态注意力使用小核心深度卷积和扩张卷积来实现大感受野，从而捕捉帧内的长距离依赖关系。帧间动态注意力使用通道间注意力的方式来学习不同帧之间的通道权重，从而捕捉帧间的变化趋势。

神经网络

TAU模块将时间注意力分为两部分：帧内静态注意力和帧间动态注意力。前者通过获得的大感受野捕捉帧内的长期依赖关系；而后者以挤压和激发的方式学习通道的注意力权重，以捕捉时间线上的时序演变。最后的注意力是动态注意力和静态注意力结合的产物。受ViTs和大核卷积的启发，研究者使用了深度卷积（DW Conv）、深度扩张卷积（DW-D Conv）和1x1通道卷积来建模大核卷积。

神经网络

此外，我们还提出了一种新颖的差分散度正则化方法，用于优化时空预测学习的损失函数。该方法同时考虑了帧内误差和帧间变化量。通过将预测帧和真实帧之间的差分转换为概率分布，并计算它们之间的KL散度，来强制模型学习到视频中固有的变化规律。差分散度正则化（differential divergence regularization）是预测帧与其对应的真实帧之间的Kullback-Leibler（KL）散度。具体而言，它是预测帧差分和真实帧差分之间的KL散度。

神经网络