海光DCU完成阶跃星辰基座模型Step 3.5 Flash推理适配

CHANBAEK 2026-03-26 941

近日，海光DCU正式完成对阶跃星辰旗舰开源基座模型Step 3.5 Flash的全流程适配与深度调优。得益于新一代海光DCU原生支持FP8精度、超越主流旗舰产品的更大显存等核心优势，高效完成Step 3.5 Flash FP8的推理适配，打造“适配更全面、性能更卓越”的国产算力解决方案。

作为阶跃星辰推出的新一代基座模型，Step 3.5 Flash总参数达1960亿，推理时仅激活约110亿参数，单请求代码任务下推理速度最高可达350TPS，专为智能体(Agent)场景设计，在复杂推理和长链任务中表现出色，其推理深度可媲美部分顶级闭源模型，获得全球开发者广泛认可。

本次适配工作中，海光DCU团队充分依托以DTK(异构计算平台)在内的全栈AI软件栈协同优势，针对Step 3.5 Flash的稀疏MoE架构特性，重点开展底层算子优化、硬件调度加速与全流程推理性能打磨，优化模型推理时延与吞吐效率，确保模型在海光DCU平台上实现高可靠、低延迟的稳定运行。

相较于主流的FP16精度，新一代海光DCU原生支持的FP8在相同硬件平台上可大幅增加理论峰值性能，同时降低内存占用与通信开销，有效节约模型部署成本、提升Token Efficiency，为开发者提供更具性价比的算力支撑。

现在，全球开发者可在光合开发者社区一键下载Step 3.5 Flash及Step 3.5 Flash FP8模型并落地部署，满足多样化推理需求。

打开APP阅读更多精彩内容