深兰科技DeepBlueAI团队斩获低分辨率视频行为识别挑战赛的冠军

深兰科技 2021-06-30 2671

描述

导读近日，全球三大计算机视觉顶级会议之一CVPR如期举行，深兰科技DeepBlueAI团队斩获TinyAction Challenge（低分辨率视频行为识别挑战赛）的冠军。

TinyAction Challenge是第六届动作识别国际挑战赛系列竞赛之一，该系列竞赛由CVPR2021 International Challenge on Activity Recognition （ActivityNet） workshop 主办，旨在推动视频理解的进一步发展。

冠军方案解读

赛题介绍

TinyAction Challenge使用TinyVirat-v2［1］数据集，旨在提高低分辨率高噪声等真实监控场景下的视频行为识别能力。比赛提供大量真实场景视频片段及标注，每个视频片段中可能含有多个动作，本质是一个多标签的行为识别任务，比赛结果采用precision、recall、F1-score等多个指标来评测。

赛题难点

视频分辨率很低，最小只有10x10像素尺度；

视频尺度多样，从10x10到128x128不等；

视频质量较差，含有大量噪声；

视频场景多样，行为多样，每个视频可能含有多个行为。

解决方案

在算法选择上，团队广泛尝试了TSM［2］、TPN-Slowonly［3］等经典算法，最终采用交互移除的CSN［4］（ir-CSN）模型，在保证性能的前提下适当减少计算量，同时减轻对数据的过拟合。

数据增强方面，训练时团队首先随机调整尺度裁剪，再统一调整尺度到128x128，最后再随机翻转。而在测试时，通过Tencrop，即对视频帧及其水平翻转在中心与四角区域分别裁剪求平均，有效提高了inference时单模型性能。

测试阶段团队进一步使用了五折交叉验证的模型融合方法。另外由于观察到在比赛数据集的26类行为中有些类别是互斥的，因而对最终的结果添加了后处理规则，使得F1指标进一步提高0.6个点。通过一步步优化，DeepBlueAI团队单模型的F1指标即超过了第二名达到0.4447，并最终达到0.4782，实现大幅度领先。

总结

在本次比赛中，团队对任务及数据做了仔细的分析，合理地选择了模型算法，进行了精细的模型训练，同时在数据的后处理上做了大量的优化，有效实现了低分辨率高噪声视频中行为识别，并最终获得冠军。相信随着计算机视觉及多模态技术的深入发展，行为识别等视频理解问题能够得到更好的解决，并获得越来越广泛的实际应用。

参考文献：

［1］ Demir U， Rawat Y S， Shah M. TinyVIRAT： low-resolution video action recognition［C］//2020 25th International Conference on Pattern Recognition （ICPR）。 IEEE， 2021： 7387-7394

［2］ Yang C， Xu Y， Shi J， et al. Temporal pyramid network for action recognition［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020： 591-600.

［3］ Lin J， Gan C， Han S. TSM： Temporal Shift Module for Efficient Video Understanding［C］// 2019 IEEE/CVF International Conference on Computer Vision （ICCV）。 IEEE， 2019.

［4］ Du T， Wang H， Feiszli M， et al. Video Classification With Channel-Separated Convolutional Networks［C］// International Conference on Computer Vision. 0.

编辑：jq

打开APP阅读更多精彩内容