软通华方超节点服务器产品全面适配DeepSeek V4模型

描述

4月24日,随着DeepSeek V4大模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引擎架构,基于核心产品A800T A3/超强A800I A3超节点服务器,率先完成了对DeepSeek V4的全栈适配与验证工作。这一举措不仅展现了公司在国产算力领域的深厚技术积淀,更为广大企业用户提供了稳定、高效的算力底座,加速DeepSeek V4在行业端的规模化落地与应用。

DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。软通华方超强A800T A3/超强A800I A3超节点产品也全面适配,同时为便于用户快速微调,提供了基于超节点的训练参考实现。

软通华方超强A800T A3/超强A800I A3超节点系列产品,DeepSeek V4-Flash模型单卡Decode吞吐2000+TPS,超强A800I A3风冷超节点采用平等架构、全局内存统一编址、点对点互联带宽达784GB/s。提供32到384多种规格满足不同业务需求,满足互联网、运营商、金融等行业对大模型推理超高吞吐、超大并发的极致性能需求。

基于超强A800I A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐,单卡吞吐持续提升。针对DeepSeek V4-Pro模型,超期A800I A3同步支持推理部署,性能持续优化中。

软件生态部分,华为CANN推出了PyPTO编程范式与TileLang方案同步开源。

为了解决自定义算子开发门槛高、周期长的痛点,昇腾CANN推出了PyPTO编程范式。PyPTO提供完善的Python API,使开发者能够以符合Python习惯的语法进行算子开发。

高效的算子开发:PyPTO依托内置高级编译优化,可自动完成流水编排与内存管理,使开发者无需关注硬件细节而专注于计算流表达,实现DeepSeek V4新一代模型算子开发周期可缩短至天级。

高性能Kernel自动生成:针对Attention、Compressor、mHC等复杂逻辑算子,PyPTO可自动生成高度优化的Kernel,避免开发者手动处理繁琐的同步与数据搬运,显著缩短从算法验证到部署落地的开发周期。

PTO ISA虚拟指令集跨代兼容:PyPTO基于PTO虚拟指令集(PTO ISA),实现了对硬件新特性的“零感适配”,针对不同代际芯片统一指令接口,实现了同一套算子代码,在不同代际芯片上的兼容实现。借助毕昇编译器的VF(Vector Fusion)自动融合能力,可在micro kernel级别实现更优融合。

TileLang社区生态:TileLang-Ascend是TileLang针对华为昇腾平台深度优化的实现,分别对应Tilelang-Ascend的Expert和Developer开发模式,提供AscendC基础指令和PTO AS两种对接层次,为各种编程前端语言和编译器提供多层开放接口。DeepSeek V4模型相关实现已在TileAI开源社区正式发布,后续将持续推进性能优化与功能迭代。

软通华方超强A800T A3/超强A800I A3产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。我们期待与广大客户及开发者携手共进,在DeepSeek V4的新纪元中探索无限可能。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分