随着人工智能 (AI) 工作负载在复杂性和规模方面的激增,传统的系统级芯片 (SoC) 模式正面临三重挑战——能效低下、性能瓶颈和产品上市时间延长。头部云服务提供商曾主导的单芯片设计领域已无法满足现代 AI 基础设施的发展需求。
在即将于下周拉开帷幕的 2025 年 OCP 全球峰会上,Arm 将重点聚焦一大转变:由 Arm 计算子系统 (Compute Subsystems, CSS) 和芯粒系统架构 (Chiplet System Architecture, CSA) 所赋能的芯粒创新,正为芯片提供商创造新的机遇,这些企业无需具备头部云服务提供商的规模,也可构建 AI 优化的设计。
从单芯片到模块化 AI 芯片
多年来,全定制 SoC 主导着高端 AI 基础设施。计算单元、内存控制器、互连系统和加速器等都集成在一个单晶粒 (die) 上。虽然这种设计可确保严格的控制,并带来性能优势,但也存在显著的利弊权衡,包括:
随着工艺节点不断突破极限,功耗和散热成本持续上升;
大型异构模块的验证和确认相对复杂;
设计、工具开发和制造的交付时间长。
而采用芯粒技术的计算,则通过将系统分解为更小的专用晶粒(包括计算、内存、I/O、加速器),让 SoC 架构师和设计人员能够灵活搭配组件,并按需扩展,以实现产品的快速迭代。目前,这种模块化仍有其局限性,例如设计的碎片化、标准化互连的缺乏、IP 复用的挑战,以及较大的前期风险和成本。
解题关键:Arm CSS 和 CSA 模式
Arm 正通过两个基本框架弥合差距:
CSS:这是一套整合了经过预先验证的高性能 IP 构建模块的计算子系统,涵盖计算核心、AI 加速器、内存子系统等,其设计、验证和性能特性已在真实或仿真芯片中得到验证。通过使用 CSS,设计人员无需从头开始打造每个模块,也无需再次验证其可行性;而能直接利用成熟且经优化的组件。
CSA:这是一个开放且以标准为导向的架构,用于实现芯粒在不同供应商间的互连、通信与集成。CSA 定义了电气、物理和协议层的兼容性,以便不同来源的 IP(例如,来自合作伙伴 A 的加速器和来自代工厂 B 的内存晶粒)可以在共享平台上可靠地进行互操作。
CSS 和 CSA 让 Socionext、Rebellions 等芯片提供商实现定制的 AI 优化芯片,其性能可媲美头部云服务提供商的设计方案,与此同时所承担的风险更低、开发周期更短,且灵活性更高。芯片提供商可根据其具体的工作负载需求(如视觉模型、推理引擎和多租户实例)灵活选择计算模块、加速器、内存类型及集成路径,而非受制于单片设计的权衡取舍中。
OCP 助力加速行业发展
开放计算项目 (Open Compute Project, OCP) 长期以来是开放硬件协作、模块化和高效率的核心阵地,这些原则与芯粒技术的革新密切相关。在 2025 年 OCP 全球峰会上,Arm 不仅将展示其技术理论架构,还会通过实际案例,生动呈现云服务提供商、OEM 厂商和芯片提供商如何结合使用 CSS 和 CSA,打造面向未来需求的 AI 基础设施。
OCP 合作伙伴所获得的主要优势包括:
灵活性:针对特定区域的功耗、散热或可靠性限制,灵活定制芯片;
更低的总体拥有成本 (TCO):通过供应链可选性降低 TCO,即能够从多家代工厂采购芯粒或晶粒,并随着产量的扩大灵活组合晶粒,而非受制于单一供应商;
更快的上市时间:经过验证的 CSS 模块和标准化的互连使得大部分设计工作得以“预先完成”,从而实现更快速的原型设计、测试和部署。
业务影响及未来展望
对于 AI 基础设施建设者来说,无论是云服务提供商、OEM 厂商还是刚刚涉足 AI 领域的芯片公司,CSS 和 CSA 方法都能帮助他们实现以下的成果:
每瓦性能的提升:计算和内存被置于最高效的位置,避免资源浪费。
设计风险的降低:复用经过验证的 IP,以及利用标准互连技术。
供应链弹性的提高:模块化设计使更换供应商、扩展晶粒产量或首选代工厂工艺节点变得更为可行。
设计周期的加速:设计周期的缩短能实现 AI 模型、特性集和部署的快速迭代。
这不仅仅是芯片架构,它更是 AI 时代企业实现业务敏捷性的关键杠杆。
了解更多信息
在 2025 年 OCP 全球峰会上,Arm 将举办系列会议和技术简报会,现场展示 CSS 和 CSA 的实际应用。无论你是探索 AI 硬件未来的芯片设计人员、基础设施架构师还是云服务提供商,这都为你突破现有局限、见证无限可能提供了绝佳契机。
数据中心的未来仰赖于各种规模的创新,Arm 始终致力于让所有企业(不仅是头部云服务提供商)都有打造定制 AI 芯片的能力!
全部0条评论
快来发表一下你的评论吧 !