中科曙光scaleFabric开启高速互联新路径

描述

随着全球AI算力基础设施建设持续提速,大模型训练从千卡部署迈向万卡、十万卡规模,高速互联作为集群协同的核心支撑,正成为产业链布局的重点方向。

中科曙光自研的400G原生无损RDMA高速网络scaleFabric,作为国内首款全链路自主可控的类InfiniBand产品,正是对这一趋势的直接回应——由其配套支撑的scaleX万卡超集群惊艳亮相,并作为重大成果展示登陆央视《新闻联播》,为超大智算集群提供了互连新方案,助力全国一体化算力网建设。

算力迭代,超大集群催生国产互联刚需

随着大模型参数攀升、MoE架构规模化普及,集群内数据交互量呈指数级增长,网络通信性能直接决定了算力系统的运转效率。

传统互联方案在十万卡级超大规模组网场景下,逐渐暴露出时延偏高、易出现拥塞波动、扩展能力受限等问题,高端无损互联国产化缺口日益凸显。scaleFabric锚定行业发展痛点,以原生RDMA架构为设计核心,精准匹配当下万卡集群时代的组网诉求。

全栈自主,夯实智算高速互联底座

scaleFabric实现从112G SerDes底层IP、交换与网卡芯片,到整机、驱动软件的全链路自研,补齐国产智算在高端高速互联领域的短板。面向高性能计算和AI集群,基于信用流控机制实现传输零丢包,网卡端口带宽400Gbps,端到端通信时延小于1微秒,交换机单端口最高支持800Gbps,交换时延仅260纳秒。

在扩展能力层面,产品交换机端口密度实现优化,单子网可支持11.4万卡集群部署,交换机端口密度较国际领先产品提升25%,网络总成本降低约30%。

依托原生IB协议兼容性,scaleFabric适配多元计算芯片与主流通信库,全方位满足智算中心长期扩容需求。

真机实景,拓宽规模化应用边界

历经超1100万小时链接可靠性验证、万卡规模长期不间断上线运行,国产原生RDMA技术路线正逐步成熟,围绕其形成的高性能网络产业生态正在加速成型。

目前,scaleFabric已落地国家超算互联网郑州核心节点,支撑三套万卡scaleX集群同步上线。针对超大规模模型训练,支持万亿参数模型的整机训练与容错恢复;面向高通量推理场景,已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能;在AI for Science领域,支撑国内某材料研发大模型刷新世界纪录,助力国内顶级科研团队将蛋白质研究效率提升3个以上数量级等;同时搭配OneScience科学大模型一站式开发平台,大幅降低多学科交叉研究的创新门槛。

产业端,中科曙光依托光合组织下设的“数据中心网络优化项目组”,联动产业链伙伴推动自主网络标准制定与场景化方案研发,以开放生态为国内智算产业提供了自主可控的高速互联新路径,真正实现“让中国算力更好地跑在中国网络上”。

面向产业未来,中科曙光将以全自研的高速网络技术,持续助力国产超算基础设施建设,为“人工智能+”纵深落地筑牢根基。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分