传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

描述

近日,国际计算机视觉大会(ICCV 2025)举办了第七届大型视频目标分割挑战赛(LSVOS Challenge),传音TEX AI团队凭借自主研发的创新技术方案,在复杂视频目标分割和语言指引视频目标分割两个赛道中均荣获全球第二名,击败众多国内外强队,充分展示了团队在复杂视频理解与多模态视频目标分割领域的深厚积累与世界级竞争力。

ICCV是由IEEE(电气与电子工程师协会)每两年举办一次的研究大会,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称为计算机视觉领域的三大顶级会议。LSVOS Challenge 作为国际计算机视觉领域的重要赛事之一,旨在推动视频目标分割技术的创新与落地应用,为多模态视频理解、视频编辑等方向的发展提供重要的学术研究与产业落地参考。本次赛事吸引了来自清华大学、牛津大学、上海交通大学、上海人工智能实验室、汉阳大学、南京理工大学、香港中文大学(深圳)、武汉大学、加利福尼亚大学默塞德分校、南洋理工大学、德国亚琛工业大学、荷兰埃因霍温理工大学、网易等国内外知名机构团队参赛。

复杂视频目标分割任务旨在在跨越数百至数千帧的长时复杂视频中,持续追踪并精确分割特定目标,即使在目标多次消失重现、外观剧烈变化、小尺寸目标、重度遮挡等困难场景下仍需保持时序一致性;语言指引视频目标分割则需根据自然语言描述在视频中定位并分割目标,既要理解外观信息,还需对动作、时序和多模态语义进行匹配。两个任务均具有高度不确定性与挑战性,考验算法在真实场景中的鲁棒性、泛化能力及跨模态理解水平。本届比赛分别使用 MOSE(长视频+复杂场景分割)与 MeViS(动作描述驱动的目标分割)等高难度数据集进行评测,对参赛方案的整体表现提出了极高要求。

在 VOS 赛道中,传音TEX AI团队在 SAM2Long 框架基础上引入伪标签增强的领域自适应训练策略(如图所示),先采用 SAM2Long(基础模型来自 SAM2)生成 MOSE 测试集的高质量伪标签,再与训练集融合重新微调 SAM2 以此缩小域差异。推理阶段并行使用概念驱动的 Segment Concept(SeC)模型,并通过级联决策机制动态融合两路预测结果,兼顾长时稳定性与外观变化适应性,最终在 MOSE 测试集上取得 J&F 0.8616 的成绩,距离冠军仅差 0.0021 分。

AI

图. 传音TEX AI团队在VOS任务上提出的算法技术方案示意图

在 RVOS 赛道中,团队在 Sa2VA 框架基础上进行了深度优化,提出 Video-Language Checker(VLC)利用视觉多模态大语言模型 Qwen2.5-VL 验证视频语义与语言描述的一致性,将测试集进行分类;并设计 Key-Frame Sampler(KFS) 将首段连续采样与全局均匀采样结合,提升捕捉目标和保持时序上下文的能力;最终由强化的 SEG token 驱动 SAM2 对关键帧进行分割,并将结果传播至全视频,实现时序一致的分割输出。在未进行额外微调或伪标签训练的前提下,该方案在 MeViS 测试集获得 J&F 0.6465,位列第二 。

AI

图. 传音TEX AI团队在RVOS任务上提出的算法技术方案示意图

未来,团队将进一步将视频目标分割技术应用到视频与动图(live Photos)的目标消除,通过算法智能填补缺失区域、去除干扰物、恢复复杂场景内容,实现更加自然流畅的视觉呈现。该能力可赋能视频编辑、老影片修复、运动场景遮挡消除及创意特效制作等多样化应用场景,传音TEX AI 团队将持续在视频理解与目标分割技术领域攻坚突破,推动全球行业技术发展。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分