中科曙光scaleFabric开启高速互联新路径

中科曙光 2026-06-14 128

描述

随着全球AI算力基础设施建设持续提速，大模型训练从千卡部署迈向万卡、十万卡规模，高速互联作为集群协同的核心支撑，正成为产业链布局的重点方向。

中科曙光自研的400G原生无损RDMA高速网络scaleFabric，作为国内首款全链路自主可控的类InfiniBand产品，正是对这一趋势的直接回应——由其配套支撑的scaleX万卡超集群惊艳亮相，并作为重大成果展示登陆央视《新闻联播》，为超大智算集群提供了互连新方案，助力全国一体化算力网建设。

算力迭代，超大集群催生国产互联刚需

随着大模型参数攀升、MoE架构规模化普及，集群内数据交互量呈指数级增长，网络通信性能直接决定了算力系统的运转效率。

传统互联方案在十万卡级超大规模组网场景下，逐渐暴露出时延偏高、易出现拥塞波动、扩展能力受限等问题，高端无损互联国产化缺口日益凸显。scaleFabric锚定行业发展痛点，以原生RDMA架构为设计核心，精准匹配当下万卡集群时代的组网诉求。

全栈自主，夯实智算高速互联底座

scaleFabric实现从112G SerDes底层IP、交换与网卡芯片，到整机、驱动软件的全链路自研，补齐国产智算在高端高速互联领域的短板。面向高性能计算和AI集群，基于信用流控机制实现传输零丢包，网卡端口带宽400Gbps，端到端通信时延小于1微秒，交换机单端口最高支持800Gbps，交换时延仅260纳秒。

在扩展能力层面，产品交换机端口密度实现优化，单子网可支持11.4万卡集群部署，交换机端口密度较国际领先产品提升25%，网络总成本降低约30%。

依托原生IB协议兼容性，scaleFabric适配多元计算芯片与主流通信库，全方位满足智算中心长期扩容需求。

真机实景，拓宽规模化应用边界

历经超1100万小时链接可靠性验证、万卡规模长期不间断上线运行，国产原生RDMA技术路线正逐步成熟，围绕其形成的高性能网络产业生态正在加速成型。

目前，scaleFabric已落地国家超算互联网郑州核心节点，支撑三套万卡scaleX集群同步上线。针对超大规模模型训练，支持万亿参数模型的整机训练与容错恢复；面向高通量推理场景，已服务于多家头部互联网用户的核心智能化业务，并通过联合深度优化持续提升推理效能；在AI for Science领域，支撑国内某材料研发大模型刷新世界纪录，助力国内顶级科研团队将蛋白质研究效率提升3个以上数量级等；同时搭配OneScience科学大模型一站式开发平台，大幅降低多学科交叉研究的创新门槛。

产业端，中科曙光依托光合组织下设的“数据中心网络优化项目组”，联动产业链伙伴推动自主网络标准制定与场景化方案研发，以开放生态为国内智算产业提供了自主可控的高速互联新路径，真正实现“让中国算力更好地跑在中国网络上”。

面向产业未来，中科曙光将以全自研的高速网络技术，持续助力国产超算基础设施建设，为“人工智能+”纵深落地筑牢根基。

打开APP阅读更多精彩内容