智源FlagOS携手海光信息完成DeepSeek V4 Flash全量适配

CHANBAEK 2026-05-14 1021

近日，北京智源研究院众智FlagOS社区宣布，已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量适配与推理部署，同步实现三大关键技术突破，让国产主流算力平台可高效运行新一代千亿级MoE大模型。

DeepSeek当日发布V4系列两大模型，其中DeepSeekV4Flash采用MoE架构，总参数284B，激活参数13B，支持100万token上下文长度，在长文本、复杂推理、代码与数学任务上表现突出。

海光平台核心适配成果

依托FlagOS三大技术突破，海光芯片实现对DeepSeekV4Flash的稳定高效运行：

全算子覆盖，无CUDA依赖

FlagGems算子库实现模型推理全链路算子替代，MoE调度Attention、RMSNorm、TopK 路由等核心模块均基于Triton重新实现，海光可脱离NVIDIA私有库独立运行，适配效率大幅提升。

突破显存限制，覆盖主流配置

针对ogroup=8机制，FlagOS采用独立张量并行策略，在保证ogroup切分不超8份前提下，支持模型其他部分超8份张量并行，让更小显存芯片可正常加载与推理，不再局限于高端大显存硬件。

精度路径打通，效果无损对齐

DeepSeekV4Flash原生为FP4+FP8混合精度，FlagOS完成权重反量化、计算路径重建与精度对齐验证，海光平台运行效果与原生版本保持一致，满足生产级部署要求。

极简部署与生态支持

FlagOS为海光等芯片提供开箱即用的DeepSeekV4Flash版本，开发者可通过源码安装或直接下载模型镜像快速部署：

·支持单机8 卡、双机16卡推理，一键开启FlagGems加速

·模型与镜像已发布至FlagRelease、魔搭、HuggingFace等平台

·底层优化自动生效，无需修改业务代码，兼容原生使用习惯

经GPQA_Diamond、AIME等权威评测集验证，海光平台上的FlagOS适配版，在语言理解、复杂推理、代码生成、数学计算等能力与CUDA原生版本对齐，可用于金融、政企、教育、研发等关键场景。

本次适配标志着以海光为代表的国产AI芯片，已具备支撑新一代千亿级MoE大模型的能力。FlagOS将传统数周的跨芯片适配周期缩短至数天，实现 “模型发布即多芯片支持”，大幅降低大模型规模化落地成本。

作为FlagOS生态重要硬件平台，海光持续参与异构算力协同建设，依托统一系统软件栈实现模型快速迁移、高效推理，与智源研究院、众智FlagOS社区共同推进国产AI算力普惠化，为大模型与智能体时代提供安全、高效、可控的算力底座。

打开APP阅读更多精彩内容