中兴通讯重磅发布超节点技术白皮书

描述

近日,中兴通讯重磅发布《超节点技术白皮书》,提出以超节点为核心打造标准化“AI工厂”,通过系统级架构创新突破算力极限与能效瓶颈,为AI基础设施可持续发展开辟全新路径。

打破通信瓶颈:

超节点实现高效协同计算

当AI模型参数进入万亿时代,算力亟需告别拥堵、低效的传统分布式训练,从单芯片堆叠向系统级协同转型,为此,超节点采用高速互联协议和专用交换芯片,通过构建高带宽域(HBD)将数十到数百颗GPU芯片整合为统一编址、低延迟、高带宽的协同计算系统,在保留GPU物理独立性的同时,带来类单机的编程与调度体验,轻松满足大规模模型训练和推理需求。

根本性创新:

零线缆OEX正交无背板互联

在硬件层面,《白皮书》重点阐述的自研OEX正交无背板互联交换架构,通过零线缆的物理设计根本性创新,集高密集成、高可靠、简化运维、开放兼容四大核心亮点于一身,单位空间算力密度实现飞跃,大规模集群通信又快又稳,平均故障修复时间缩短至分钟级,更有自研“凌云”大容量交换芯片加持,支持TB级互联带宽与百纳秒级时延,全面兼容国内外主流标准及专业定制化互联协议。

AI工厂模式:

开启标准化“智造”流水线时代

针对AI落地复杂度高、交付周期长等痛点,《白皮书》倡导从“项目制”向“工厂模式”转型,将AI能力建设升级为标准化流水线,在软件层面,通过统一虚拟化资源池与智能编排实现异构算力深度调度与管理,将资源利用率拉到“满格”。同时,依托Nebula单体超节点与Nebula Matrix集群超节点,将算力从百卡平滑扩展至万卡,灵活满足不同阶段大模型训练需求。

全栈协同:

打造开放共享的智算生态

《白皮书》还强调构建AI工厂是一项复杂的系统工程,中兴通讯依托40余年的通信工程积累,构建起从自研芯片、复杂系统设计到全球工程交付的全栈能力体系。

展望未来,我们将秉持开源开放理念,携手产业伙伴推动智算基础设施标准化、生态化,共同构建高效、绿色、可持续的AI发展体系。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分