云知声与中国科大联合团队再创佳绩

云知声 2026-06-08 236

描述

近日，IEEE/CVF计算机视觉与模式识别会议（CVPR 2026）公布了第十届开放环境下情感行为分析国际挑战赛（The 10th Workshop and Competition on Affective Behavior Analysis in-the-Wild，简称10th ABAW）最终成绩。云知声与中国科学技术大学於俊副教授团队联合攻关，从全球众多参赛队伍中脱颖而出，在情绪模仿强度估计赛道（Emotional Mimicry Intensity Estimation，EMI）和动作单元检测赛道（Action Unit Detection，AU）中斩获冠军，在表情识别赛道（Expression Recognition，EXPR）中荣获季军，实现两冠一季的优异成绩。依托竞赛中的技术创新成果，联合团队进一步完成三篇CVPR 2026 Workshop论文并公开发表，充分展现了团队在开放环境情感行为分析与多模态理解领域的领先研究实力。

CVPR会议由IEEE与CVF联合主办，是计算机视觉领域最具影响力的国际顶级学术会议之一，与ICCV、ECCV并称计算机视觉三大顶级会议。ABAW赛事作为CVPR长期举办的重要Workshop与国际竞赛，专注于开放环境（in-the-wild）下的人类情感行为分析研究，已成为全球情感计算领域最具影响力的赛事之一。

经过来自全球高校、研究机构及工业界团队的激烈竞争，云知声-中国科大联合团队凭借扎实的算法创新和工程实践能力，在多个赛道中取得优异成绩。

人类情感行为分析旨在融合视觉、语音、文本等多种模态信息，自动理解和分析人类情绪状态、行为模式及社会互动过程，是人工智能迈向自然人机交互的重要研究方向。随着多模态大模型和生成式人工智能的发展，情感行为分析在智能助手、数字人、心理健康评估、智慧教育等领域展现出广阔应用前景。

本次ABAW10竞赛涵盖了表情识别（EXPR）、动作单元检测（AU）、情绪模仿强度估计（EMI）、暴力检测（VD）、模糊犹豫识别（AH）等多个具有挑战性的任务。云知声-中国科大联合团队围绕多模态融合、长时序建模及缺失模态鲁棒学习等关键问题展开深入研究，并取得了一系列创新成果。

一、EMI赛道：文本锚定的鲁棒多模态情绪模仿强度估计

论文地址：

https://openaccess.thecvf.com/content/CVPR2026W/ABAW/papers/Zhu_Anchoring_Emotions_in_Text_Robust_Multimodal_Fusion_for_Mimicry_Intensity_CVPRW_2026_paper.pdf

针对情绪模仿强度估计（EMI）任务中视觉与语音信号容易受到噪声干扰、模态缺失频繁发生的问题，研究团队提出了TAEMI（Text-Anchored Emotional Mimicry Intensity Estimation）框架。

该方法创新性地将文本信息作为稳定的语义锚点，引入Text-Anchored Dual Cross-Attention机制，以文本语义主动引导视觉与语音模态的对齐与融合。同时，通过Missing-Modality Token与Modality Dropout策略增强模型对于缺失模态场景的鲁棒性，使模型能够在复杂真实环境下稳定预测连续情绪强度变化。

实验结果表明，该方法在Hume-Vidmimic2数据集上显著优于官方基线方法，有效提升了情绪模仿强度估计的准确性与稳定性。

二、AU赛道：层次粒度对齐与状态空间建模的多模态动作单元检测

论文地址：

https://openaccess.thecvf.com/content/CVPR2026W/ABAW/papers/Yu_Hierarchical_Granularity_Alignment_and_State_Space_Modeling_for_Robust_Multimodal_CVPRW_2026_paper.pdf

针对开放环境下动作单元（Action Unit, AU）检测中存在的人脸姿态变化大、时序依赖长以及音视频关联复杂等问题，研究团队提出了一种基于层次粒度对齐（Hierarchical Granularity Alignment）与状态空间模型（State Space Model）的多模态框架。

该方法利用DINOv2与WavLM两类基础模型提取高质量视觉和语音特征，通过层次粒度对齐模块实现局部肌肉运动与全局面部语义之间的精细关联。同时，引入Vision-Mamba结构实现线性复杂度的超长时序建模，并设计Audio-Guided State Space机制利用语音线索动态调节视觉状态更新过程。

该方法在Aff-Wild2数据集上取得领先性能，验证了其在真实场景情感行为分析中的应用价值。

三、EXPR赛道：面向缺失模态与类别不均衡的双分支Transformer表情识别框架

论文地址：

https://openaccess.thecvf.com/content/CVPR2026W/ABAW/papers/Yu_A_Dual-Branch_Transformer_for_Affective_Computing_Tackling_Missing_Modalities_and_CVPRW_2026_paper.pdf

针对真实场景表情识别任务中频繁出现的视觉遮挡、模态缺失以及类别长尾分布问题，研究团队提出了一种双分支Transformer多模态表情识别框架。

该方法通过Dual-Branch Transformer分别建模视觉与语音特征，并利用Cross-Attention实现跨模态信息交互。同时设计Safe Attention机制解决缺失视觉输入时的数值稳定性问题，使模型能够自动退化为语音驱动决策模式。此外，采用Focal Loss缓解类别不平衡问题，并结合滑动窗口软投票策略实现长视频中的稳定情绪预测。实验结果表明，该方法能够有效提升复杂环境下表情识别系统的鲁棒性。

近年来，云知声与中国科大持续围绕多模态人工智能、情感计算以及大模型技术开展深入合作，推动相关技术在智慧医疗、智能客服、人机交互等领域的落地应用。本次10th ABAW竞赛成果充分体现了联合团队在开放环境情感行为分析领域的技术积累与创新能力。

展望未来，云知声-中国科大联合团队将继续深耕情感计算、多模态学习与人工智能基础研究，不断突破复杂真实场景下的人机情感理解能力，为构建更加自然、可信、富有情感智能的人机交互系统贡献力量。

打开APP阅读更多精彩内容