奇异摩尔分享计算芯片Scale Up片间互联新途径

奇异摩尔 2024-12-09 2374

描述

开放数据中心委员会ODCC冬季全员会议于12月4日-6日在春暖花开的昆明举行。奇异摩尔首席系统架构师朱琛作为网络工作组ETH-X超节点项目的核心成员分享了AI Networking Scale Up卡间互联的新路径解决方案并展开了相关应用分析。

随着人工智能大模型训推的需求日益增长，更大的模型并行规模，模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信。这对于AI网络Scale Up加速卡通讯提出了更高的显存容量及带宽、更低的延迟需求。

通常来说，Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽，同时由于对于延迟的需求，要求GPU Direct直出互联的设计，并节省更多的面积给芯片的计算核心、更高的IO集成能力。

传统的做法是GPU SoC内部集成不同的IO IP通过片上网络进行通信互联。然而，Scale Up网络还在不断的演进当中，行业目前在标准制定与生态上还缺乏完备的解决方案。随着相关技术的革新与演进，对GPU的未来设计及其相关性能提出更复杂的需求与挑战。

传统基于GPU SoC IO IP的方案在先进工艺的成本与灵活性方面缺乏优势，计算芯片需要和IP使用统一一致的工艺节点；另一方面，如果对于互联的设计产生较大的改变，将花费更多的时间与精力重新设计整体芯片方案。

奇异摩尔

（传统直接集成IO IP的计算芯片）

奇异摩尔作为ETH-X超节点项目的成员提出了一种新的GPU片间互联路径。一种GPU内集成IO Die （边缘IO Chiplet）的创新方案在未来Scale Up互联的场景下能够灵活应用并达到更可靠的GPU互联通信效率。

奇异摩尔

（基于IO Die的计算芯片，计算芯粒和IO芯粒解耦,通过UCIe互联）

GPU计算芯粒与IO 芯粒解耦，更灵活的技术演进和创新

IO Die 让GPU芯粒和IO芯粒解耦并通过UCIe D2D互联，这种方式让GPU芯粒和IO Die能够分开进行设计，并使用不同的先进工艺节点。当前Scale up的技术正处于不断演进的过程中，基于IO Die的方案相比SoC可以提供更快的技术迭代。

复用IO Die，降低成本

采用独立的IO Die使在新的设计中复用已有的IOD成为可能，比如Central IOD AMD EPYC Turin继续复用上一代6nm制程的IOD 继续实现制程/芯粒解耦，减少工艺成本。Intel的至强6使用了边缘IOD的方式同样实现了计算芯粒和IOD的解耦。

奇异摩尔

（图：AMD 使用Central IOD实现内核工艺节点与IO分开，并复用IOD来降低成本）

灵活性及扩展性

基于Chiplet 的灵活性，用户根据各自的带宽需求自主选择IO Die的数量和类型，在Scale Up的场景下来实现互联带宽的灵活配置。

奇异摩尔的Kiwi NDSA-G2G就是上述这种GPGPU集成IO Die芯粒的新路径解决方案，不仅具备上述所列优势，并内建Scale Up所需要的网络加速控制引擎。客户只需自研计算芯粒，免去自研互联芯粒的成本，基于统一的互联协议和接口采用Kiwi NDSA-G2G芯粒来实现片间TB级的互联。

使用UCIe建立GPU芯粒与IO Die间互联

奇异摩尔

奇异摩尔的GPU Link NDSA G2G (IO Chiplet) 通过基于UCIe的D2D IP与计算芯粒互联。UCIe是主流的D2D国际互联标准，目前已经受到了广泛芯粒上下游的认可。UCIe 1.1v 本身支持主流Streaming等协议，并通过FLIT的按需交织实现多协议的复用。基于UCIe的D2D互联无论从芯片面积占用、延迟(ns)、以及功耗的增加都在一个极低的可控制范围。

关于GPU芯粒和IO Die的通信

如果GPU芯粒和IO Die在协议层使用同种协议，互通可以无缝实现，无需进行额外的协议转换。如果GPU芯粒和IO Die在协议层采用不同的协议时，协议适配与转换可以根据客户的芯粒设计所处阶段来适配协议在哪一侧进行转换。

随着国内芯粒生态以及Scale Up网络相关技术标准的日益完善，奇异摩尔展望从片间协议再到片内协议，推动行业建立统一互联标准，从而携手产业链共同实现超过十万张加速卡的高效互联。AI网络的春天即将到来，希望的曙光在不久的将来将照拂行业的每一位前行者。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔，成立于2021年初，是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术，创新性地构建了统一互联架构——Kiwi Fabric，专为超大规模AI计算平台量身打造，以满足其对高性能互联的严苛需求。我们的产品线丰富而全面，涵盖了面向不同层次互联需求的关键产品，如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案，为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXP、Intel、Broadcom等公司的精英，他们凭借丰富的AI互联产品研发和管理经验，致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验，为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界，愿景是让计算变得简单。奇异摩尔以创新为驱动力，技术探索新场景，生态构建新的半导体格局，为高性能AI计算奠定稳固的基石。

打开APP阅读更多精彩内容