迈入人工智能 (AI) 时代,系统性能越来越多地受到功耗、散热、内存带宽和数据传输等多重因素制约,而且影响所有计算场景,从千兆瓦级超大规模数据中心到毫瓦级边缘设备,无一例外。
正如Futurum 的报告《Arm 处于 AI 和数据中心变革的中心》中所述:“AI 并非单一工作负载,也不存在单一理想化的基础设施。相反,AI 是一系列工作负载的集合,需要一套连贯的策略,兼顾成本效益与性能,满足多样化需求。”
代理式 AI 的兴起,进一步催生了上述需求。此类模型不再仅对单条提示词做出响应,而是以多个自主智能体的协作运行,完成规划、推理并执行各类任务。与孤立的推理调用不同,代理式 AI 系统会生成持续的工作流,涉及内存检索、工具调用、跨模型与跨服务协同调度,对算力、内存带宽和系统编排提出源源不断的要求。
在这一趋势的影响下,计算基础设施的设计思路正在发生根本性转变。AI 系统不再是各种芯片的简单堆砌,而是形成一体化的整体,CPU、加速器、内存与网络组件全都协同运行。由此,系统级智能如今已成为决定芯片性能、能效与可扩展性的重中之重。
追求可持续的系统级表现,而非不计成本的极致性能
在现代 AI 数据中心的建设中,客户不再单纯选购“最强 CPU”或“最快加速器”,而是着重于优化机架能效,重点关注每瓦性能,尤其看重在持续、真实工作负载下的表现,而非短时峰值跑分成绩。如今单个机架的设计功耗可达 50kW 至 300kW 以上,因此不得不从整体层面进行权衡,单芯片“极限”性能指标的重要性因此下降。
系统平衡变得更为关键:
在各个计算组件之间高效传输数据;
在机架层面实现每瓦功耗产生更多有效算力;
让 CPU、GPU、NPU、内存池与互联架构协同一致、整体运行。
Futurum 报告也指出,行业关注点已从:“能堆多少原始算力”转向“如何在系统层面,针对多样化的需求与环境,更加智能地编排算力?”
这一转变重构了芯片的定位。加速器决定了原始算力吞吐能力,而系统编排(涵盖任务调度、内存管理、安全管控与数据传输)则决定了这种吞吐能否在大规模下持续。若缺少高效的系统编排,从机架层面,受制于内存、网络或控制面瓶颈,即便最强大的加速器也可能陷入闲置状态,无法充分发挥性能。
在代理式 AI 工作负载场景中,这种现象会愈发明显。数百万软件智能体并发运行,查询数据、调用工具、生成输出、跨服务协同,算力需求从“突发式”供给,转变为结构性持续供给。为此,基础设施必须能够支撑持续不间断的系统编排与数据传输,而非仅满足模型的瞬时峰值吞吐需求。
CPU 在 AI 时代的重要性愈发凸显
随着 AI 模型、工作负载与部署环境的多样化发展,CPU 正越来越多地充当 AI 的头节点,即系统的控制中枢,负责对整个系统进行协调与编排。
在大规模 AI 平台中,CPU 主要负责:
在各种异构加速器之间分派与调度任务;
为各类工作负载管理内存一致性、数据本地化与主机内存卸载,例如 KV 缓存和向量数据库;
处理纯矩阵运算之外的数据预处理与后处理任务;
在整个系统范围内执行控制平面操作、安全防护与资源隔离。
简而言之,加速器负责执行驱动 AI 模型的运算,而 CPU 则是将算力转化为可靠、可扩展、具备实际应用价值的核心。
CPU 的重要性已得到行业头部企业的验证和认可。在彭博社的一次采访中,NVIDIA 创始人兼 CEO 黄仁勋证实,全新 Vera Rubin 平台所搭载的基于 Arm 架构的 Vera CPU 将作为独立产品推出。此举清楚表明,CPU 在 AI 系统设计中的重要性正与日俱增。
此外,随着 AI 基础设施日益多元化,CPU 架构凭借灵活性、高能效和系统协同能力,价值和重要性将大幅提升。Arm 的优势也由此显现。Futurum 的研究报告明确指出:“GPU 和 TPU 等专用加速器通常会与基于 Arm 架构的 CPU 搭配使用,以承担通用控制与数据管理任务,同时有效避免高昂的成本与功耗开销。”
Arm 引领系统级基础设施的发展
Arm 计算架构的优势体现在性能、能效、可扩展性与庞大的生态系统上,能够帮助系统架构师在日新月异的 AI 领域更好地管控风险,而且精准匹配新一代机架级 AI 系统的需求。
以上优势已在头部超大规模云服务提供商的实践中得到验证:
亚马逊云科技将基于 Arm 架构的 Graviton CPU 与 Nitro DPU 及 Trainium 加速器相结合,优化机架级能效;
Google 基于 TPU 的系统正越来越多地搭配集成 Arm CPU 核心的 Google Axion 处理器,承担编排与控制任务;
NVIDIA 的 Grace、Grace-Hopper 和即将推出的 Vera 平台,均将 GPU 与基于 Arm 架构的 CPU,以及 DPU 配对,打造高度集成化的 AI 系统。
Arm 计算平台正作为系统基石,将加速器、内存与网络组件整合到一起,构成协同统一、高能效的整体系统。
AI 正迈向以推理为先的发展阶段
尽管模型训练常常占据新闻头条,但推理才是 AI 实现规模化的核心。代理式 AI 的兴起进一步提升了推理的重要性,因为智能体需要持续运行,执行一连串推理操作,而非单次调用模型。
从众多路线图来看,未来十年内推理工作负载将超越训练工作负载,而推理对系统的要求,与训练截然不同,主要体现在:
需要更低的延迟;
对内存带宽更为敏感;
需要持续不间断运行;
功耗与散热限制严格。
上述要求不仅针对数据中心,同样适用于边缘侧场景,包括我们日常生活中的消费电子设备与物联网系统。与云端一样,边缘计算同样遵循相同的系统级设计原则:
性能由加速能力与系统间的数据传输效率共同决定;
安全防护依赖系统级协同,实现跨工作负载与内存间的全域防护;
集成速度直接影响产品上市时间。
在边缘 AI 系统中,如果加速器与内存、互联没有紧密耦合,系统就会迅速陷入带宽、功耗及软件复杂度等多重瓶颈。只有将 CPU 加速、内存与互联进行深度集成,才能提供更稳定的性能、更高效的扩展能力,也更利于开发者使用。
Futurum 的报告指出:“以往需要依托云端完成的任务,如今可借助 Arm 高能效核心与集成的 AI 引擎在本地实现。”
规模化系统设计
随着系统复杂度不断攀升,集成与验证环节(而非晶体管设计)正成为成本与风险的主要来源。因此,行业开始转向采用预集成的计算子系统和标准化系统接口。
在此行业趋势下,Arm 计算子系统 (Compute Subsystems, CSS) 应运而生,市场需求持续增长。CSS 提供经过预先验证的子系统,为定制化系统设计提供了明确路径,在降低集成风险的同时,助力合作伙伴实现产品差异化。CSS 不再仅提供独立的 IP 模块,而是提供预先验证的系统设计方案,涵盖 CPU、互联、一致性协议与内存管理机制,实现各组件原生协同。
此外,Arm 的系统 IP 产品组合涵盖互联控制器、内存控制器与一致性互联架构,能够帮助合作伙伴以更低风险、更快速度,设计出全方位面向 AI 优化的系统。在 AI 工作负载同时对带宽、延迟与功耗提出严苛要求的背景下,此等系统级基础平台的重要性愈发凸显。
核心价值与意义
随着 AI 从孤立的模型推理转向由智能体驱动的系统,计算基础设施面临的核心挑战变为协同调度,要确保各类处理器、内存系统与网络能够作为协调统一的整体运行。
AI 领域的核心竞争力将聚焦于系统层面的四大能力:
在功耗约束下构建高能效系统;
整合异构计算资源,避免架构割裂;
以尽可能低的能耗完成数据传输;
将安全与性能内化为系统原生属性,而非附加功能。
Futurum 的报告总结道:“行业格局的重塑,不仅取决于谁能制造出性能最强的芯片,更取决于谁能打造出覆盖全场景、高度集成化且高能效的系统。”
凭借系统层面的定制化、高能效与多样化选择,Arm 架构正支撑越来越多高可扩展性 AI 计算环境,覆盖超大规模数据中心至边缘设备全场景。
AI 的未来,并非单纯追求芯片算力提升,而是依托 Arm 架构打造更智能、更高效、更具扩展性的整体系统。
全部0条评论
快来发表一下你的评论吧 !