2026年6月1日,稀宇科技正式发布新一代旗舰大模型MiniMax M3。这款模型一次性点满"前沿Coding能力、1M超长上下文、原生多模态"三条科技树,成为目前全球唯一同时具备这三项核心能力的开源模型。在SWE-Bench Pro编程评测中,M3以59.0%的得分超过GPT-5.5和Gemini 3.1 Pro,逼近Claude Opus 4.7;在面向自主Agent的端到端评测Claw-Eval中更是拿下最高分。
长上下文的难点从来不是把参数写成1M,而是在1M token下仍然算得动、跑得快、找得准。传统Transformer的全注意力机制让每个query关注所有key,序列长度增长时计算量近似平方级上升。窗口从128K扩到1M,不是多买几张卡就能解决的问题。
MiniMax给出的答案是自研稀疏注意力架构MSA(MiniMax Sparse Attention)。其核心思路是:先快速扫描一遍,筛选出最重要的KV区块,只在这些区块上做精细计算,而非全量token两两交互。配合KV outer gather Q算子,使每块KV只读一次、访存更连续。
官方数据显示,在100万上下文下,M3单token计算量仅为上代模型的约1/20,prefilling阶段加速超过9倍,decoding阶段加速超过15倍,底层推理算子性能较主流开源方案提升4倍以上。这意味着百万上下文不再只是窗口参数,而是Agent可以真实使用的工作记忆。
M3不是"文本大模型+外接视觉编码器"的缝合方案,而是从训练第一步就采用文本、图片、视频多模态混合训练的原生模型。MiniMax特别强调了交错数据(Interleaved Data)的价值——文本与图像在序列中自然交替排列,对模型性能的提升比一般认为的更加关键。
重构整套数据管线后,M3的训练数据Token规模已推至100万亿量级。模型不仅支持图片与视频理解,还具备Computer Use能力,可在复杂跨应用环境中执行桌面操作。在多模态测试集OmniDocBench上,M3得分超过Gemini 3.1 Pro;在SVG-Bench图形生成评测中甚至超越了Opus 4.7。
M3在编程能力上的突破最具说服力。在SWE-Bench Pro上得分59.0%,超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7。在BrowseComp智能体评测中以83.5分超越Opus 4.7的79.3分。
更值得关注的是两个极端实测。第一个:M3独立复现一篇ICLR 2025杰出论文,连续运行近12小时,自主产出18次commit与23张实验图表,成功跑通核心实验——这同时考验了1M长上下文、编程Agent能力与原生多模态三项核心能力。第二个:M3在约24小时内自主完成147次Benchmark提交、近2000次工具调用,将NVIDIA Hopper FP8硬件峰值利用率从7.6%提升至71.3%,实现9.4倍加速。在第145次尝试才找到最优解,经历了多个平台期仍未放弃。
M3同步推出配套Agent产品MiniMax Code,可将大型任务拆解为多阶段、可并发、可动态调整的工作流,由Agent集群协作推进。
商业化方面,Token Plan订阅方案分为Plus(49元/月,6亿Token)、Max(119元/月,18亿Token)、Ultra(469元/月,55亿Token)三档。API层面,512K上下文版本上线7天限时五折,输入2.1元/百万token,输出8.4元/百万token。模型权重与技术报告将于10天内开源。
值得注意的是,MiniMax已于5月29日向上海证监局提交A股上市辅导备案,正式开启A股上市进程,冲刺"A股大模型第一股"。
从长上下文到智能体,从多模态到真实执行,M3证明了一件事:开源模型不必在单项能力上妥协,三项全能可以同时实现。MiniMax正以"开源+多能力合一"的差异化定位,在全球AI竞赛中占据一个越来越清晰的身位。
全部0条评论
快来发表一下你的评论吧 !