燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

燧原科技Enflame 2026-04-28 146

描述

2026年4月24日，深度求索（DeepSeek）正式发布并开源新一代旗舰大模型DeepSeek‑V4，同步推出1.6T DeepSeek‑V4‑Pro与284B DeepSeek‑V4‑Flash两大版本，全系标配百万token长上下文能力，燧原L600已完成对上述两个模型在FP8精度上的极速适配。

FP8原生支持

此次成功以FP8完成DeepSeek-V4的适配，标志着燧原科技在低精度大模型适配领域的关键技术突破。依托燧原L600原生FP8计算能力、Triton算子与全链路混合精度优化，大幅降低了显存占用、提升推理吞吐，有效适配了V4的MoE架构与超长上下文特性。相较于常规FP16方案，FP8适配面临数值稳定性控制、稀疏结构算子重构、跨栈精度对齐等多重技术难题，综合优化门槛更高。Day 1适配验证了燧原AI芯片低精度加速的硬实力，更能显著降低超大模型的部署成本，为行业高并发推理、规模化落地及下一代更低精度算力演进筑牢技术基础。

自研算子Agent

同时采用自研的算子生成智能体，凭借自动化算子编译、融合优化与跨架构迁移能力，快速完成MoE架构、稀疏注意力等新型算子的批量生成，实现了高效适配与性能调优，并通过智能调度与策略优化，缩短模型迁移周期，保障推理性能与运行精度双向达标。

vLLM和Triton算子深度优化

此外通过vLLM推理框架定制调度逻辑，Triton 算子的深度优化与性能调优，大幅压缩了模型迁移适配周期，充分释放了硬件算力潜能，为超大模型高效推理、应用落地与规模化服务构筑关键支撑。

燧原科技始终坚持全栈自研、生态开放的技术路线，已完成国内多款主流开源模型的极速适配，覆盖语言、多模态等全领域。未来，燧原将紧跟大模型迭代节奏，深化与产业链上下游协同，打造自主可控、高效易用的 AI 算力底座，赋能国产大模型在千行百业规模化落地，为中国 AI 产业高质量发展注入强劲算力动能。

打开APP阅读更多精彩内容