5月20日,阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max。这款面向智能体时代全面设计的大模型,在三方机构Arena全球大模型盲测总榜中一举超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等一众国产对手,与GPT、Claude、Gemini等国际最强模型水平接近,强势位列国产模型第一。
这不仅是千问系列的又一次能力跃升,更是国产大模型在全球竞技场中一次有力的证明。
Arena盲测登顶,国产第一实至名归
Arena盲测一直被视为大模型领域最具公信力的竞技平台之一。参测模型在完全匿名的条件下接受用户实时提问与评判,最终根据真实使用体验生成排名。在这一严苛的评测体系中,Qwen3.7-Max不仅力压国内多款顶尖模型,更直接对标GPT、Claude、Gemini等国际一线产品,最终取得了与它们最强版本接近的成绩。
这一结果意味着,在全球大模型的第一梯队中,国产模型已经占据了一席之地。Qwen3.7-Max用实打实的盲测数据证明,千问系列的技术积累已经达到了世界前列的水准。
为Agent而生,编程推理双突破
与上一代模型相比,Qwen3.7-Max最大的不同在于,它是面向当下智能体(Agent)场景全新设计的。这一定位决定了它在能力侧的演进方向——不再仅仅追求对话的流畅与准确,而是要真正成为一个能独立执行复杂任务的智能体大脑。
在编程能力上,Qwen3.7-Max实现了持续突破,能够理解并生成高质量代码,支持多轮迭代优化。在推理能力上,模型展现出了更强的逻辑链条构建能力,面对多步骤、多约束的复杂问题时,依然能够保持清晰的推理路径,给出准确可靠的答案。
这两项核心能力的同步提升,让Qwen3.7-Max具备了驱动智能体完成真实世界任务的底层能力,也让它在盲测中获得了大量来自开发者和专业用户的高分评价。
35小时超长程任务,全自主完成
Qwen3.7-Max最令人惊叹的表现,是它能够全自主完成长达35小时的超长程智能体复杂任务。
这不是一个简单的多轮对话,而是一个需要持续规划、动态调整、反复调用工具的超长链路任务。在整个过程中,模型需要自主判断下一步该做什么、该调用哪个工具、如何根据中间结果修正策略。35小时的时间跨度,意味着数千次甚至上万次的决策与执行,任何一个环节的偏差都可能导致整个任务失败。
而Qwen3.7-Max做到了。它在全程无需人工干预的情况下,自主完成了这一超长程复杂任务,展现出了远超当前主流模型的任务规划与持续执行能力。这一表现,标志着大模型从"能对话"真正迈向了"能干活"的新阶段。
自主编程实现内核自我进化,推理速度提升10倍
在当天的发布中,阿里还披露了一个极具震撼力的技术案例。在一个全新的芯片平台上,Qwen3.7-Max通过自主编程和超过1000次工具调用,独立完成了一个关键内核的自我进化。
整个过程中,模型自主分析了原版本内核的性能瓶颈,自主编写了优化代码,并通过反复测试与迭代,最终实现了推理速度较原版本提升10倍的成果。超过1000次工具调用意味着模型在整个优化过程中,不断地编译、运行、分析、修正,形成了一个完整的自主优化闭环。
这不是人类工程师指导下的代码优化,而是大模型完全自主完成的技术突破。它证明了Qwen3.7-Max已经具备了在真实技术场景中独立解决问题的能力,而不仅仅是在benchmark上拿高分。
国产大模型的新标杆
从Arena盲测登顶,到35小时超长程任务全自主完成,再到自主编程实现内核10倍提速,Qwen3.7-Max在发布当天就交出了一份极具说服力的成绩单。它不仅是千问系列的一次重大升级,更为整个国产大模型赛道树立了新的标杆。
当大模型的竞争从参数规模转向真实任务能力,当Agent成为AI落地的核心场景,Qwen3.7-Max用实际表现证明:国产模型不仅能跟上,而且能领跑。
全部0条评论
快来发表一下你的评论吧 !