海光DCU完成阶跃星辰基座模型Step 3.5 Flash推理适配

描述

近日,海光DCU正式完成对阶跃星辰旗舰开源基座模型Step 3.5 Flash的全流程适配与深度调优。得益于新一代海光DCU原生支持FP8精度、超越主流旗舰产品的更大显存等核心优势,高效完成Step 3.5 Flash FP8的推理适配,打造“适配更全面、性能更卓越”的国产算力解决方案。

作为阶跃星辰推出的新一代基座模型,Step 3.5 Flash总参数达1960亿,推理时仅激活约110亿参数,单请求代码任务下推理速度最高可达350TPS,专为智能体(Agent)场景设计,在复杂推理和长链任务中表现出色,其推理深度可媲美部分顶级闭源模型,获得全球开发者广泛认可。

本次适配工作中,海光DCU团队充分依托以DTK(异构计算平台)在内的全栈AI软件栈协同优势,针对Step 3.5 Flash的稀疏MoE架构特性,重点开展底层算子优化、硬件调度加速与全流程推理性能打磨,优化模型推理时延与吞吐效率,确保模型在海光DCU平台上实现高可靠、低延迟的稳定运行。

相较于主流的FP16精度,新一代海光DCU原生支持的FP8在相同硬件平台上可大幅增加理论峰值性能,同时降低内存占用与通信开销,有效节约模型部署成本、提升Token Efficiency,为开发者提供更具性价比的算力支撑。

现在,全球开发者可在光合开发者社区一键下载Step 3.5 Flash及Step 3.5 Flash FP8模型并落地部署,满足多样化推理需求。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分