智源FlagOS携手海光信息完成DeepSeek V4 Flash全量适配

描述

近日,北京智源研究院众智FlagOS社区宣布,已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量适配与推理部署,同步实现三大关键技术突破,让国产主流算力平台可高效运行新一代千亿级MoE大模型。

DeepSeek当日发布V4系列两大模型,其中DeepSeekV4Flash采用MoE架构,总参数284B,激活参数13B,支持100万token上下文长度,在长文本、复杂推理、代码与数学任务上表现突出。

海光平台核心适配成果

依托FlagOS三大技术突破,海光芯片实现对DeepSeekV4Flash的稳定高效运行:

全算子覆盖,无CUDA依赖

FlagGems算子库实现模型推理全链路算子替代,MoE调度Attention、RMSNorm、TopK 路由等核心模块均基于Triton重新实现,海光可脱离NVIDIA私有库独立运行,适配效率大幅提升。

突破显存限制,覆盖主流配置

针对ogroup=8机制,FlagOS采用独立张量并行策略,在保证ogroup切分不超8份前提下,支持模型其他部分超8份张量并行,让更小显存芯片可正常加载与推理,不再局限于高端大显存硬件。

精度路径打通,效果无损对齐

DeepSeekV4Flash原生为FP4+FP8混合精度,FlagOS完成权重反量化、计算路径重建与精度对齐验证,海光平台运行效果与原生版本保持一致,满足生产级部署要求。

极简部署与生态支持

FlagOS为海光等芯片提供开箱即用的DeepSeekV4Flash版本,开发者可通过源码安装或直接下载模型镜像快速部署:

·支持单机8 卡、双机16卡推理,一键开启FlagGems加速

·模型与镜像已发布至FlagRelease、魔搭、HuggingFace等平台

·底层优化自动生效,无需修改业务代码,兼容原生使用习惯

经GPQA_Diamond、AIME等权威评测集验证,海光平台上的FlagOS适配版,在语言理解、复杂推理、代码生成、数学计算等能力与CUDA原生版本对齐,可用于金融、政企、教育、研发等关键场景。

本次适配标志着以海光为代表的国产AI芯片,已具备支撑新一代千亿级MoE大模型的能力。FlagOS将传统数周的跨芯片适配周期缩短至数天,实现 “模型发布即多芯片支持”,大幅降低大模型规模化落地成本。

作为FlagOS生态重要硬件平台,海光持续参与异构算力协同建设,依托统一系统软件栈实现模型快速迁移、高效推理,与智源研究院、众智FlagOS社区共同推进国产AI算力普惠化,为大模型与智能体时代提供安全、高效、可控的算力底座。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分