导读近日,全球三大计算机视觉顶级会议之一CVPR如期举行,深兰科技DeepBlueAI团队斩获TinyAction Challenge(低分辨率视频行为识别挑战赛)的冠军。
TinyAction Challenge是第六届动作识别国际挑战赛系列竞赛之一,该系列竞赛由CVPR2021 International Challenge on Activity Recognition (ActivityNet) workshop 主办,旨在推动视频理解的进一步发展。
冠军方案解读
赛题介绍
TinyAction Challenge使用TinyVirat-v2[1]数据集,旨在提高低分辨率高噪声等真实监控场景下的视频行为识别能力。比赛提供大量真实场景视频片段及标注,每个视频片段中可能含有多个动作,本质是一个多标签的行为识别任务,比赛结果采用precision、recall、F1-score等多个指标来评测。
赛题难点
视频分辨率很低,最小只有10x10像素尺度;
视频尺度多样,从10x10到128x128不等;
视频质量较差,含有大量噪声;
视频场景多样,行为多样,每个视频可能含有多个行为。
解决方案
在算法选择上,团队广泛尝试了TSM[2]、TPN-Slowonly[3]等经典算法,最终采用交互移除的CSN[4](ir-CSN)模型,在保证性能的前提下适当减少计算量,同时减轻对数据的过拟合。
数据增强方面,训练时团队首先随机调整尺度裁剪,再统一调整尺度到128x128,最后再随机翻转。而在测试时,通过Tencrop,即对视频帧及其水平翻转在中心与四角区域分别裁剪求平均,有效提高了inference时单模型性能。
测试阶段团队进一步使用了五折交叉验证的模型融合方法。另外由于观察到在比赛数据集的26类行为中有些类别是互斥的,因而对最终的结果添加了后处理规则,使得F1指标进一步提高0.6个点。通过一步步优化,DeepBlueAI团队单模型的F1指标即超过了第二名达到0.4447,并最终达到0.4782,实现大幅度领先。
总结
在本次比赛中,团队对任务及数据做了仔细的分析,合理地选择了模型算法,进行了精细的模型训练,同时在数据的后处理上做了大量的优化,有效实现了低分辨率高噪声视频中行为识别,并最终获得冠军。相信随着计算机视觉及多模态技术的深入发展,行为识别等视频理解问题能够得到更好的解决,并获得越来越广泛的实际应用。
参考文献:
[1] Demir U, Rawat Y S, Shah M. TinyVIRAT: low-resolution video action recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR)。 IEEE, 2021: 7387-7394
[2] Yang C, Xu Y, Shi J, et al. Temporal pyramid network for action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 591-600.
[3] Lin J, Gan C, Han S. TSM: Temporal Shift Module for Efficient Video Understanding[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV)。 IEEE, 2019.
[4] Du T, Wang H, Feiszli M, et al. Video Classification With Channel-Separated Convolutional Networks[C]// International Conference on Computer Vision. 0.
编辑:jq
全部0条评论
快来发表一下你的评论吧 !