近日,阿里巴巴正式发布千问3.7系列最新成员——Qwen3.7-Plus多模态智能体模型。该模型在Qwen3.7文本能力基础上全面升级视觉-语言能力,同时保留编码、工具使用和生产力工作流方面的完整智能体能力,定位为"多模态交互混合智能体基座"。消息发布当日,阿里美股盘前涨超6%,港股收涨6.6%,市场用真金白银为这款模型投了票。
Qwen3.7系列分为两大旗舰:Qwen3.7-Max为万亿级MoE纯文本大模型,主打深度逻辑推理;Qwen3.7-Plus则采用35B稠密参数架构,聚焦多模态全链路执行。两者分工明确——Max负责"想得深",Plus负责"做得全"。
Qwen3.7-Plus的核心定义是:单模型实现"看、想、写、做、验"全流程闭环。它原生统一文本、图片、截图、短视频、网页五大输入形态,打通GUI可视化界面与CLI命令行双操作环境。区别于市面多数只能图文问答的多模态模型,Qwen3.7-Plus的目标不是解析信息,而是根据视觉内容拆解任务、调用工具、编写代码、自主完成操作并自检纠错,是面向企业开发与行业数字化的工程级大模型。
Qwen3.7-Plus的性能较上代Qwen3.6-Plus实现了系统性突破:
视觉推理方面 ,在纯视觉推理BabyVision评测中,得分从上代的37.4大幅提升至64.7,超过Gemini 3.1-Pro,实现泛化能力的新飞跃;在SimpleVQA、MMSearchPlus、MMBC等搜索增强知识问答评测中,性能得分较前代最高提升2倍多,表现大多优于Claude-Opus-4.6 Max。
智能体能力方面 ,在Skillbench通用Agent评测中较上代提升10.2分;在Terminal Bench 2.0和SciCode编程评测中提升约9分,媲美Claude-Opus-4.6 Max;数学推理Apex评测中取得近3倍于上代的性能评分。
综合排名方面 ,在全球权威视觉模型榜单Vision Arena中,阿里凭借Qwen3.7-Plus跻身全球前五、中国第一。其纯文本能力更是接近同系列旗舰Qwen3.7-Max水平,是Plus级别中综合能力最强的模型。
GUI屏幕智能操控是Qwen3.7-Plus最具突破性的能力。在ScreenSpot Pro屏幕理解评测中取得79分,超越GPT-5.4和Gemini 3.1 Pro。模型可精准识别软件、App、网页内的按钮、输入框、弹窗等全部控件,自主规划操作步骤。在OSWorld和AndroidWorld真机实测中,可无人工干预完成电商下单、后台数据导出等复杂长周期任务。
视觉转代码方面,上传UI稿、产品截图或参考视频,即可一键生成SVG图标、前端网页代码或交互式程序源码。实测中,Qwen3.7-Plus曾连续11小时无人值守,从零完成一款英语单词学习App的全栈开发,累计生成超10000行代码;还能1:1复刻macOS原生Stocks股票应用,从需求拆解、代码编写、BUG调试到项目打包全自主落地,并通过10项核心功能验证测试。
多维度视觉深度推理方面,模型支持128K超长上下文,可一次性解析整本图文手册或完整源码工程,幻觉率低至22.9%,处于全球前沿低位。集成代码解释器后可处理找不同、解华容道等视觉谜题;接入搜索增强后,能精准剖析模糊的专业机械图纸。
视频与驾驶场景理解同样大幅增强,可识别视频中的事件、动作、时序和语义关系,为自动驾驶、具身智能等真实世界应用打下基础。
目前Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用,定价为输入0.4美元/百万Token、输出1.6美元/百万Token。模型具备跨框架泛化能力,无论通过Claude Code、OpenClaw还是Qwen Code部署,均能保持稳定表现。
在Agentic时代,AI正从"对话"走向"干活"。Qwen3.7-Plus不仅能看懂图片,更能理解视频、操作界面、生成代码并交付结果,标志着国产多模态AI正式从"实验室参数竞赛"迈向产业落地实用阶段。
全部0条评论
快来发表一下你的评论吧 !