沐曦股份Day 0适配DeepSeek-V4-Flash模型

描述

4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统,率先完成DeepSeek-V4核心算子的Day0适配。

截至目前,沐曦股份已完成针对国内19款主流开源模型的极速适配,全面覆盖DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商最新旗舰模型,种类涵盖语言、多模态、OCR、3D生成等全领域,效率领跑行业。

能够取得这一成果,既得益于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的长期技术积累,也与上海人工智能实验室、FlagOS合作伙伴的深度协同密不可分。

FlagOS三大核心技术支持,沐曦芯片完成全量适配

在沐曦股份与FlagOS的合作中,背后有三大关键技术提供支持:

高性能通用大模型算子库FlagGems。据FlagOS介绍,FlagGems 提供支持8种以上芯片的全算子替代。此次DeepSeek V4在注意力机制和量化策略上引入了5个新算子,FlagGems针对全部5个算子进行了重新实现,以支持国产多芯片适配。

FlagOS采用独立并行策略,解除张量并行最多单机8卡限制,将可运行芯片范围从“仅限单机80GB以上显存的个别高端卡”扩展到“多机64GB/32GB的更多主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度” 到 BF16的精度转换。此次 DeepSeek-V4-Flash模型发布时首次采用 FP4+FP8混合精度,FlagOS 完成了从 FP4 到 BF16 的完整精度转换,使得模型可部署在 FP8 及 BF16 生态的主流国产芯片上。

目前,FlagOS已经完成针对DeepSeek-V4开源模型的多芯全量适配与推理部署,开发者可直接获取对应芯片的开箱即用方案。

沐曦适配版本链接

魔搭:

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace:

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速,沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是解锁国产算力的关键。

沐曦股份在与上海人工智能实验室的合作中,借助实验室研发的智能算子迁移系统KernelSwift,沐曦芯片率先完成了DeepSeek-V4核心算子的Day0适配, 算子平均通过率约80%。

在DeepSeek-V4模型发布后,KernelSwift启动全自动流程生成核心算子并适配多元国产芯片,全程无人工干预。DeepSeek-V4模型共计21个核心算子中,KernelSwift采用融合策略,核心算子相比‌TileLang‌达到1.2倍以上性能加速,国产芯片平均实现75%+正确性,平均加速比达3.4倍。自动生成的算子经人工修改后,国产芯片平均实现100%正确性,大大提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势,沐曦股份快速响应大模型迭代节奏,高效完成了多款主流模型的适配工作,以全栈技术实力为大模型快速落地筑牢算力支撑。

未来,沐曦股份将继续与上海人工智能实验室、FlagOS深度合作,以Day 0适配为标准,实现大模型“发布即落地”,共同打造从底层算力到上层应用的无缝衔接生态,加速AI技术在千行百业的规模化部署,共建自主可控的智能计算新底座。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分