燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

描述

2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek‑V4,同步推出1.6T DeepSeek‑V4‑Pro与284B DeepSeek‑V4‑Flash两大版本,全系标配百万token长上下文能力,燧原L600已完成对上述两个模型在FP8精度上的极速适配。

FP8原生支持

此次成功以FP8完成DeepSeek-V4的适配,标志着燧原科技在低精度大模型适配领域的关键技术突破。依托燧原L600原生FP8计算能力、Triton算子与全链路混合精度优化,大幅降低了显存占用、提升推理吞吐,有效适配了V4的MoE架构与超长上下文特性。相较于常规FP16方案,FP8适配面临数值稳定性控制、稀疏结构算子重构、跨栈精度对齐等多重技术难题,综合优化门槛更高。Day 1适配验证了燧原AI芯片低精度加速的硬实力,更能显著降低超大模型的部署成本,为行业高并发推理、规模化落地及下一代更低精度算力演进筑牢技术基础。

自研算子Agent

同时采用自研的算子生成智能体,凭借自动化算子编译、融合优化与跨架构迁移能力,快速完成MoE架构、稀疏注意力等新型算子的批量生成,实现了高效适配与性能调优,并通过智能调度与策略优化,缩短模型迁移周期,保障推理性能与运行精度双向达标。

vLLM和Triton算子深度优化

此外通过vLLM推理框架定制调度逻辑,Triton 算子的深度优化与性能调优,大幅压缩了模型迁移适配周期,充分释放了硬件算力潜能,为超大模型高效推理、应用落地与规模化服务构筑关键支撑。

燧原科技始终坚持全栈自研、生态开放的技术路线,已完成国内多款主流开源模型的极速适配,覆盖语言、多模态等全领域。未来,燧原将紧跟大模型迭代节奏,深化与产业链上下游协同,打造自主可控、高效易用的 AI 算力底座,赋能国产大模型在千行百业规模化落地,为中国 AI 产业高质量发展注入强劲算力动能。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分