近日,海光DCU正式完成对阶跃星辰旗舰开源基座模型Step 3.5 Flash的全流程适配与深度调优。得益于新一代海光DCU原生支持FP8精度、超越主流旗舰产品的更大显存等核心优势,高效完成Step 3.5 Flash FP8的推理适配,打造“适配更全面、性能更卓越”的国产算力解决方案。
作为阶跃星辰推出的新一代基座模型,Step 3.5 Flash总参数达1960亿,推理时仅激活约110亿参数,单请求代码任务下推理速度最高可达350TPS,专为智能体(Agent)场景设计,在复杂推理和长链任务中表现出色,其推理深度可媲美部分顶级闭源模型,获得全球开发者广泛认可。
本次适配工作中,海光DCU团队充分依托以DTK(异构计算平台)在内的全栈AI软件栈协同优势,针对Step 3.5 Flash的稀疏MoE架构特性,重点开展底层算子优化、硬件调度加速与全流程推理性能打磨,优化模型推理时延与吞吐效率,确保模型在海光DCU平台上实现高可靠、低延迟的稳定运行。
相较于主流的FP16精度,新一代海光DCU原生支持的FP8在相同硬件平台上可大幅增加理论峰值性能,同时降低内存占用与通信开销,有效节约模型部署成本、提升Token Efficiency,为开发者提供更具性价比的算力支撑。
现在,全球开发者可在光合开发者社区一键下载Step 3.5 Flash及Step 3.5 Flash FP8模型并落地部署,满足多样化推理需求。
全部0条评论
快来发表一下你的评论吧 !