阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max

科技绿洲 2026-05-21 2010

描述

5月20日，阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max。这款面向智能体时代全面设计的大模型，在三方机构Arena全球大模型盲测总榜中一举超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等一众国产对手，与GPT、Claude、Gemini等国际最强模型水平接近，强势位列国产模型第一。

这不仅是千问系列的又一次能力跃升，更是国产大模型在全球竞技场中一次有力的证明。

Arena盲测登顶，国产第一实至名归

Arena盲测一直被视为大模型领域最具公信力的竞技平台之一。参测模型在完全匿名的条件下接受用户实时提问与评判，最终根据真实使用体验生成排名。在这一严苛的评测体系中，Qwen3.7-Max不仅力压国内多款顶尖模型，更直接对标GPT、Claude、Gemini等国际一线产品，最终取得了与它们最强版本接近的成绩。

这一结果意味着，在全球大模型的第一梯队中，国产模型已经占据了一席之地。Qwen3.7-Max用实打实的盲测数据证明，千问系列的技术积累已经达到了世界前列的水准。

为Agent而生，编程推理双突破

与上一代模型相比，Qwen3.7-Max最大的不同在于，它是面向当下智能体（Agent）场景全新设计的。这一定位决定了它在能力侧的演进方向——不再仅仅追求对话的流畅与准确，而是要真正成为一个能独立执行复杂任务的智能体大脑。

在编程能力上，Qwen3.7-Max实现了持续突破，能够理解并生成高质量代码，支持多轮迭代优化。在推理能力上，模型展现出了更强的逻辑链条构建能力，面对多步骤、多约束的复杂问题时，依然能够保持清晰的推理路径，给出准确可靠的答案。

这两项核心能力的同步提升，让Qwen3.7-Max具备了驱动智能体完成真实世界任务的底层能力，也让它在盲测中获得了大量来自开发者和专业用户的高分评价。

35小时超长程任务，全自主完成

Qwen3.7-Max最令人惊叹的表现，是它能够全自主完成长达35小时的超长程智能体复杂任务。

这不是一个简单的多轮对话，而是一个需要持续规划、动态调整、反复调用工具的超长链路任务。在整个过程中，模型需要自主判断下一步该做什么、该调用哪个工具、如何根据中间结果修正策略。35小时的时间跨度，意味着数千次甚至上万次的决策与执行，任何一个环节的偏差都可能导致整个任务失败。

而Qwen3.7-Max做到了。它在全程无需人工干预的情况下，自主完成了这一超长程复杂任务，展现出了远超当前主流模型的任务规划与持续执行能力。这一表现，标志着大模型从"能对话"真正迈向了"能干活"的新阶段。

自主编程实现内核自我进化，推理速度提升10倍

在当天的发布中，阿里还披露了一个极具震撼力的技术案例。在一个全新的芯片平台上，Qwen3.7-Max通过自主编程和超过1000次工具调用，独立完成了一个关键内核的自我进化。

整个过程中，模型自主分析了原版本内核的性能瓶颈，自主编写了优化代码，并通过反复测试与迭代，最终实现了推理速度较原版本提升10倍的成果。超过1000次工具调用意味着模型在整个优化过程中，不断地编译、运行、分析、修正，形成了一个完整的自主优化闭环。

这不是人类工程师指导下的代码优化，而是大模型完全自主完成的技术突破。它证明了Qwen3.7-Max已经具备了在真实技术场景中独立解决问题的能力，而不仅仅是在benchmark上拿高分。

国产大模型的新标杆

从Arena盲测登顶，到35小时超长程任务全自主完成，再到自主编程实现内核10倍提速，Qwen3.7-Max在发布当天就交出了一份极具说服力的成绩单。它不仅是千问系列的一次重大升级，更为整个国产大模型赛道树立了新的标杆。

当大模型的竞争从参数规模转向真实任务能力，当Agent成为AI落地的核心场景，Qwen3.7-Max用实际表现证明：国产模型不仅能跟上，而且能领跑。

打开APP阅读更多精彩内容