阿里发布Qwen3.7-Plus

科技绿洲 2026-06-03 310

描述

近日，阿里巴巴正式发布千问3.7系列最新成员——Qwen3.7-Plus多模态智能体模型。该模型在Qwen3.7文本能力基础上全面升级视觉-语言能力，同时保留编码、工具使用和生产力工作流方面的完整智能体能力，定位为"多模态交互混合智能体基座"。消息发布当日，阿里美股盘前涨超6%，港股收涨6.6%，市场用真金白银为这款模型投了票。

Qwen3.7系列分为两大旗舰：Qwen3.7-Max为万亿级MoE纯文本大模型，主打深度逻辑推理；Qwen3.7-Plus则采用35B稠密参数架构，聚焦多模态全链路执行。两者分工明确——Max负责"想得深"，Plus负责"做得全"。

Qwen3.7-Plus的核心定义是：单模型实现"看、想、写、做、验"全流程闭环。它原生统一文本、图片、截图、短视频、网页五大输入形态，打通GUI可视化界面与CLI命令行双操作环境。区别于市面多数只能图文问答的多模态模型，Qwen3.7-Plus的目标不是解析信息，而是根据视觉内容拆解任务、调用工具、编写代码、自主完成操作并自检纠错，是面向企业开发与行业数字化的工程级大模型。

Qwen3.7-Plus的性能较上代Qwen3.6-Plus实现了系统性突破：

视觉推理方面 ，在纯视觉推理BabyVision评测中，得分从上代的37.4大幅提升至64.7，超过Gemini 3.1-Pro，实现泛化能力的新飞跃；在SimpleVQA、MMSearchPlus、MMBC等搜索增强知识问答评测中，性能得分较前代最高提升2倍多，表现大多优于Claude-Opus-4.6 Max。

智能体能力方面 ，在Skillbench通用Agent评测中较上代提升10.2分；在Terminal Bench 2.0和SciCode编程评测中提升约9分，媲美Claude-Opus-4.6 Max；数学推理Apex评测中取得近3倍于上代的性能评分。

综合排名方面 ，在全球权威视觉模型榜单Vision Arena中，阿里凭借Qwen3.7-Plus跻身全球前五、中国第一。其纯文本能力更是接近同系列旗舰Qwen3.7-Max水平，是Plus级别中综合能力最强的模型。

GUI屏幕智能操控是Qwen3.7-Plus最具突破性的能力。在ScreenSpot Pro屏幕理解评测中取得79分，超越GPT-5.4和Gemini 3.1 Pro。模型可精准识别软件、App、网页内的按钮、输入框、弹窗等全部控件，自主规划操作步骤。在OSWorld和AndroidWorld真机实测中，可无人工干预完成电商下单、后台数据导出等复杂长周期任务。

视觉转代码方面，上传UI稿、产品截图或参考视频，即可一键生成SVG图标、前端网页代码或交互式程序源码。实测中，Qwen3.7-Plus曾连续11小时无人值守，从零完成一款英语单词学习App的全栈开发，累计生成超10000行代码；还能1:1复刻macOS原生Stocks股票应用，从需求拆解、代码编写、BUG调试到项目打包全自主落地，并通过10项核心功能验证测试。

多维度视觉深度推理方面，模型支持128K超长上下文，可一次性解析整本图文手册或完整源码工程，幻觉率低至22.9%，处于全球前沿低位。集成代码解释器后可处理找不同、解华容道等视觉谜题；接入搜索增强后，能精准剖析模糊的专业机械图纸。

视频与驾驶场景理解同样大幅增强，可识别视频中的事件、动作、时序和语义关系，为自动驾驶、具身智能等真实世界应用打下基础。

目前Qwen3.7-Plus已在阿里云百炼平台上线，支持OpenAI兼容API与Anthropic协议调用，定价为输入0.4美元/百万Token、输出1.6美元/百万Token。模型具备跨框架泛化能力，无论通过Claude Code、OpenClaw还是Qwen Code部署，均能保持稳定表现。

在Agentic时代，AI正从"对话"走向"干活"。Qwen3.7-Plus不仅能看懂图片，更能理解视频、操作界面、生成代码并交付结果，标志着国产多模态AI正式从"实验室参数竞赛"迈向产业落地实用阶段。

打开APP阅读更多精彩内容