导读
日前,计算机视觉和模式识别领域的三大顶级会议之一CVPR正在进行中,深兰DeepBlueAI团队在动作识别国际挑战赛 (ActivityNet) 研讨会上,参加了 MMAct 挑战赛中仅设的两个赛道——“跨模态裁剪动作识别”和“跨模态未裁剪动作时序定位”,并均以大比分领先取得第一。
冠军方案解读
竞赛要求参赛者提出跨模态视频动作识别/定位方法,以弥补使用 MMAct[1] 数据集的纯视觉方法的缺点。此任务的目标是利用基于传感器的,例如穿戴式传感器数据作为特权信息,以及基于视觉的模态,其方式可以克服训练(传感器 + 视频)和测试(仅视频)阶段之间模态差异所带来的限制。用于此竞赛的多模态数据包括:加速度、方向、陀螺仪、RGB 视频和人体关键点。
挑战赛促进了关于如何通过使用跨模态方法解决视觉挑战的另一种观点,希望扩大对视频动作理解的研究,以进一步利用日常使用的智能设备(例如智能手机)中的传感器。
赛题一
跨模态裁剪动作识别
Cross-Modal Trimmed Action Recognition
在此任务中,参与者使用来自MMAct 的修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。任务允许参与者使用修剪过的传感器数据和修剪过的视频进行训练,但不能同时使用交叉视角和交叉场景的数据,且仅对修剪过的视频进行测试以进行动作识别,并采用mAP作为评价指标。
赛题难点:
不同视频等多模态数据时序长度变化大,从几秒到几分钟不等;
测试阶段只提供了视频数据。
应用场景:
视频监控、异常行为识别
解决方案:
考虑到视频长度较长,为了有效地捕获视频中的动作信息,团队优先采用了等间隔采样的方式对每个视频进行采样,然后采用随机尺度裁剪、水平翻转等数据增强方式进行增强。
在算法选型上,团队优先采用了TSM[2]进行实验,它具有高效率和高性能。具体来说,它可以达到 3D CNN 的性能,但保持 2D CNN 的复杂性。TSM 沿时间维度移动部分通道,从而促进相邻帧之间的信息交换,它还可以插入到 2D CNN 中以实现零计算和零参数的时间建模。
作为对比,团队同时采用了滑动窗口的形式进行帧数据采样,并采用ir-CSN[3]进行实验。CSN探索了通道之间交互的重要性,并达到了节省计算参数和通道之间交互的平衡,网络具有结构精简、计算量小、速度快、准确率好的优点,并且还有一定的正则化能力。
最后,在进行了为每个视频采样不同的帧数,是否添加Non-Local模块,以及MixUp与ColorJitter数据增强的实验之后,团队采用TSM,以ResNet50作为Backbone, 并以等间隔采样的方式采样32帧,最终取得了最好的单模成绩。在融合ir-CSN结果后,取得了最好的线上成绩。
赛题二
跨模态未裁剪动作时序定位
Cross-Modal Untrimmed Action Temporal Localization,在这项任务中,参与者使用来自MMAct 的未修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。参与者允许使用未修剪的配对传感器数据和视频进行训练,然后在仅包含未修剪的视频数据的测试集上进行时间动作定位,输出未修剪视频中识别的动作类别及其开始和结束时间,并采用AP作为评价指标。
赛题难点:
视频时长较长,从几分钟到十几分钟不等;
测试阶段只提供了视频数据。
应用场景:
视频监控、异常行为识别、定位
解决方案:
考虑到在测试集中只提供了视频数据,因此团队的实现方案主要在视频数据上进行实验。在时序动作定位相关的工作中,主流的方法如BSN[5]、BMN[6]等。需要经过:视频抽帧-》提取光流-》行为识别算法进行特征提取-》时序动作定位算法进行动作定位-》行为识别算法进行动作识别等多个环节,整个方案实现流程十分繁杂。
在实现方案中为了简化方案流程,采用AFSD[7]作为算法实现。这是一个anchor-free的时序定位框架,并且是一个end-to-end使用视频帧作为输入而不是特征作为输入的算法。
为了获得模型的输入,团队对每个视频以动态帧率采样2304帧,并进行光流计算,这样可以保证10分钟以上的视频有大约3帧的采样帧率,不至于丢失过多的视频信息。最后再分别采用RGB数据和光流数据进行训练,并融合两种类型的预测结果后,取得了团队最好成绩。
编辑:jq
全部0条评论
快来发表一下你的评论吧 !