奇异摩尔助力OISA全向智感互联IO芯粒技术白皮书发布

描述

在今日举行的2025开放数据中心委员会(ODCC)峰会期间,中国移动主导的《OISA全向智感互联IO芯粒技术白皮书》正式发布,并荣获2025 ODCC 年度卓越成果奖。作为AI网络全栈式互联解决方案提供商,奇异摩尔凭借其在芯粒领域的深厚技术积累与产业实践,多方位贡献于该白皮书的撰写与关键技术路径的梳理工作。

自OISA 1.0技术体系提出,再到OISA 2.0协议的发布,奇异摩尔持续跟进并深度参与其技术体系的演进与迭代,在GPU互联领域多个关键方向贡献前瞻性建议。公司专注于以芯粒为基础的高性能互联全栈解决方案,推动开放、标准化互联生态的构建。

此外,公司还作为主编单位,深度参与了中国移动牵头编制的《人工智能加速器互联芯粒技术要求》标准制定工作,为构建自主可控的超节点互联体系提供了关键技术支持。

半导体行业正处于一个根本性转折点,传统的SoC正战略性地转向芯粒式设计。这一转型遵循从微观到宏观的技术演进路径,本文也由微观至宏观进行展开梳理,对《OISA全向智感互联IO芯粒技术白皮书》中的关键内容,沿着芯粒级、芯片级到系统级,最后囊括生态级的全栈技术路径进行解读。

一、 芯粒级:战略转型与核心益处   

数十年来,摩尔定律通过驱动性能、功耗、面积和成本(PPAC)的同步优化,成为半导体行业技术进步与经济模型的核心支柱。

然而,在先进工艺节点(7nm及以下),摩尔定律正面临双重挑战:一方面,非经常性工程(NRE)成本呈指数增长,大幅提高了芯片开发的门槛和风险;另一方面,物理限制如光刻掩模版尺寸极限(“光刻墙”)阻碍了单芯片面积的持续扩展。在经济可行性与物理规律的双重约束下,行业正被迫从传统单片系统级芯片(SoC)转向新的架构范式——以芯粒为基础的分解式系统设计,以延续算力增长。

在芯粒的设计理念下,形成了两种主要的集成策略,分别为同构集成和异构集成。其中异构集成将不同工艺节点、功能甚至可能来自不同制造商的芯粒进行优化并组合集成于同一封装,可视为“超越摩尔定律”(More than Moore)的真正体现。

芯粒范式最强大的地方在于它赋予了系统架构师对PPAC四个维度进行“解耦”和独立优化的能力,从而带来了多方面的战略优势:

1良率提升与成本控制

2异构集成带来的成本优化

3加速产品上市时间

这种战略上的灵活性,使得芯粒架构成为应对后摩尔时代挑战、延续半导体行业创新活力的核心驱动力。

二、芯片级:IO芯粒演变为系统枢纽   

从行业应用来看,领先AI芯片厂商产品中已融入了计算Die与IO Die解耦设计和性能提升的思路:华为昇腾Ascend 910芯片采用了Side IO Die设计、英伟达下一代AI GPU产品Rubin将导入多制程节点芯粒设计。

IO芯粒作为芯粒设计理念中最具影响力的实践之一,是将IO功能从核心计算单元中分离出来,形成一个独立的专用芯片。通过芯粒技术实现IO功能与计算功能的分离,可为系统设计和商业模式带来多方面的决定性优势:

1解耦开发生命周期,加速核心创新

2芯粒可复用显著降低成本

3可配置的互联带宽与产品线扩展

在此背景下,IO芯粒已从昔日简单的物理接口(PHY)裸片,演变成一个高度复杂的复杂多芯粒系统的集成与管理中心。

根据《人工智能加速器互联芯粒技术要求》等规范性文件的定义,一个典型的IO芯粒包含清晰的层次化架构和多个核心功能模块:

分层架构:IO芯粒的内部逻辑遵循标准的网络三层模型(协议层、数据链路层、物理层),确保了功能的模块化和清晰的职责划分,这与全向智感互联(OISA)协议栈的结构相呼应。

核心功能模块:IO芯粒内部集成了接口管理与协议转换模块、数据传输与缓存模块、电源管理模块、安全与加密模块,以能够分别实现不同协议之间的转换处理、数据在芯粒内外的流动管理、精细化的功耗控制策略、数据的完整性和隐私保护,以保证实现芯粒级复杂的功能。

此外,IO芯粒提供一套标准化的核心接口(例如:缓存一致性与I/O一致性内存流量接口、地址转换服务接口、中断处理与系统控制接口)确保与计算芯粒的无缝集成和整个系统的稳定运行,这也使其成为一个名副其实的“系统网络集线器”。

从行业应用角度,奇异摩尔的超节点互联芯粒 Kiwi G2G IOD是行业内目前唯一一种基于芯粒架构和开放生态方案。Kiwi G2G IOD支持高带宽、集成多种复杂协议,并且有多语义支持,具备UCIe接口,兼顾高性能和客户灵活性,可满足不同厂商不同场景的需求,在百花齐放的Scale-Up生态系统中支持多协议类型及其升级方案,从而降低持续研发难度和开发成本。

三、互联网络:协议与物理层   

芯粒集成技术是实现高性能、高能效异构计算架构的关键路径,而其核心基础在于芯粒之间的“通用语言”——高性能互联协议。

在D2D通信领域,存在核心架构选择,从根本上决定了芯粒间交互的效率、灵活性和应用场景。目前互联协议的演进呈现出两种路径分化:

1协议无关的流式传输(Agnostic Streaming)

以UCIe为代表的“通用适配器”——致力于通过协议无关的流式传输,能兼容如PCIe、CXL等多种协议,适合异构集成,可构建一个最广泛、最开放的互操作生态系统;

2原生内存语义(Native Memory Semantics)

以OISA、NVLink等为代表的“领域专用网络”——通过原生内存语义和网络内计算等深度优化,适合需要高效通信的场景,为AI/HPC等特定工作负载提供极致性能。

数据中心

(图:英伟达NVLink)

两种路线的选择取决于具体的应用场景,不存在绝对的优劣。

然而,构建世界上最强大的AI超级计算机需要一个与处理单元(GPU)和主要工作负载(分布式训练)深度协同设计的互连网络。为结合蓬勃发展的需求、提升AI训练和推理的性能,定义和采用关于AI超级计算机“超级节点”这一应用场景最适合的互联协议也成为了迫在眉睫的业内难题。

四、系统级:集成与协同  

支撑万亿参数模型训推的关键基础设施正在转向新的架构范式“超级节点”(Super Node)

定义“超级节点”:这不再是传统意义上的单个服务器,而是一个逻辑上的、紧密耦合的计算单元。它由数十个乃至数百个加速器(GPU/NPU)组成,这些加速器在一个机柜或少数几个机柜内,通过一个超高带宽、超低延迟的“Scale Up”网络紧密地连接在一起,形成一个巨大的、统一的计算和内存资源池。这与传统集群仅依赖“Scale Out”网络进行节点间通信的模式形成了鲜明对比。超级节点的设计目标是,让内部的所有加速器能够像一个单一的巨型加速器一样协同工作。

数据中心

(图:AI超级节点互联架构对比)

Scale Up的意义已经不再局限于机柜内通信;支持MoE专家并行及张量并行的工作负载不仅依赖极低延迟的专有“Scale Up”网络,用于节点内部的紧密耦合通信;同时也依赖一个更标准化的、高性能的“Scale Out”网络,用于节点间的通信需要。

然而,IO芯粒正是坐落在这个关键的交汇点上。它必须同时包含连接其同级计算裸片的专有Scale-Up网络的PHY和协议逻辑,以及连接外部世界的、基于标准的Scale-Out网络的PHY和协议逻辑。因此,IO芯粒成为了连接两个不同网络世界的桥梁和翻译官。

另一个层面,为满足分布式训练中梯度同步和参数交换对延迟和带宽的极端要求,原生支持内存语义(Native Memory Semantics)的互联协议已成为必然选择。加上NVIDIA NVLink为私有化垂直解决方案,种种因素共同催生了像OISA这样专业的、开放的、基于内存语义的互联技术。这些专用互联技术集成了集合通信加速计算(OISA中的CCA,类似NVLink中的SHARP)等功能,对大规模互联的性能至关重要。

数据中心

(图源:奇异摩尔)

中国移动OISA体系的推出,正是为了在中国构建这样一个自主、可控且高性能的AI硬件生态系统。

OISA协议具备两大特点:①集合通信加速(CCA)为核心创新,通过OISA交换芯片内嵌计算单元实现网络内计算,大幅降低All-Reduce操作延迟和GPU负载;②智能感知技术(Intelligent Sensing)为先进带内互联随路感知技术,实现动态路由选择和流量优化,保障确定性性能。

OISA不仅是一个技术规范,更是一个产业联盟,旨在通过开放协作,协同产业链上下游,共同攻克技术难题,打造具有竞争力的智算基础设施。随着光电IO等下一代技术的成熟,OISA及其所代表的芯粒互连技术将继续演进,成为未来计算架构中不可或缺的核心基石。

在OISA GPU技术标准化的过程中,奇异摩尔作为OISA的重要联盟成员持续推进OISA芯粒技术的协同与适配。尽管如此,通往一个完全开放、即插即用的芯粒市场的道路依然充满挑战。这仍需各环节紧密协作,从技术标准化、生态协作与产业链垂直整合三个维度共同突破,使得芯粒技术真正释放其潜力,赋能下一代AI超算与异构计算架构的持续演进。

关于我们

AI网络全栈式互联架构产品及解决方案提供商 

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale-out网络的AI原生超级网卡、面向南向Scale-up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分