全球最强医疗视频理解大模型发布并开源 邀请开发者共建创新生态

描述

近日,联影智能在GitHub、Hugging face等国际知名开发者平台正式发布全球规模最大、性能最强的医疗视频理解大模型——元智医疗视频理解大模型(uAI-NEXUS-MedVLM ),同步首批开源由6245个视频-指令对构成的标准测试集和模型,并设立“医疗视频理解大模型榜单”,向全世界开发者发出打榜邀请,以期推动构建统一、可验证的技术评测体系。

当前,人工智能已在影像辅助诊断、智能问诊等场景实现落地应用,但在手术等复杂动态临床场景中仍面临显著技术瓶颈。相较于静态影像,医疗视频理解对空间精度、时序逻辑和临床语义提出了更高要求:既要精准识别毫米级器械位置与解剖结构,又要完整还原手术过程中的关键步骤与先后关系,还需以专业语言准确表述具体操作及其临床意义。在多重挑战叠加下,即便全球领先的通用大模型,也难以有效完成手术视频理解任务,长期以来都是医疗大模型研发的“技术深水区”。

元智医疗视频理解大模型汇聚53万余条视频-指令数据、整合8个专业医学数据集,覆盖内镜、腹腔镜、开放手术、机器人手术及护理操作等核心临床场景,模型参数达70亿规模。在视频摘要、关键安全视野评估、下一步操作预测等8项医疗视觉任务测试中,模型整体性能显著优于 GPT-5.4、Gemini-3.1 等通用大模型,多项指标实现数倍领先。同时,模型支持4B/7B参数规模灵活切换,可实现单卡部署,具备良好的临床应用潜力。相关研究成果已被人工智能领域最具影响力的顶级会议IEEE国际计算机视觉与模式识别会议(CVPR 2026)收录。

在具体任务表现上,元智医疗视频理解大模型在手术安全评估任务中准确率达到89.4%,显著高于 GPT-5.4(1.8%)和 Gemini-3.1(10.1%);在满分5分的视频报告生成任务中,评分达到4.2分,同样大幅领先于通用模型。此外,该模型不仅能够正确识别医疗器械与手术操作,还可进一步理解其空间位置及临床操作意图,可应用于手术引导、术中安全保障、手术记录、医学教学及具身智能手术设备研发等场景。

在开源方面,模型研发负责人吴子彦表示:“相较于‘闭门造车’式的单点创新,我们选择开源高质量数据集,就是希望能为手术视频分析、特定病种诊断等细分赛道提供一把 ‘公共标尺’,让全球研究者和开发者能在可复现、可验证的环境下开展协同创新。这不仅能持续驱动技术迭代与场景落地,也有望促进医疗视频理解领域从分散探索迈向体系化发展,推动形成一个开放、共享的全球创新生态,与全球开发者共同推动创造一个更智能化的医疗未来。




审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分