系统级智能为何是AI发展的基石

Arm社区 2026-04-01 495

描述

迈入人工智能 (AI) 时代，系统性能越来越多地受到功耗、散热、内存带宽和数据传输等多重因素制约，而且影响所有计算场景，从千兆瓦级超大规模数据中心到毫瓦级边缘设备，无一例外。

正如Futurum 的报告《Arm 处于 AI 和数据中心变革的中心》中所述：“AI 并非单一工作负载，也不存在单一理想化的基础设施。相反，AI 是一系列工作负载的集合，需要一套连贯的策略，兼顾成本效益与性能，满足多样化需求。”

代理式 AI 的兴起，进一步催生了上述需求。此类模型不再仅对单条提示词做出响应，而是以多个自主智能体的协作运行，完成规划、推理并执行各类任务。与孤立的推理调用不同，代理式 AI 系统会生成持续的工作流，涉及内存检索、工具调用、跨模型与跨服务协同调度，对算力、内存带宽和系统编排提出源源不断的要求。

在这一趋势的影响下，计算基础设施的设计思路正在发生根本性转变。AI 系统不再是各种芯片的简单堆砌，而是形成一体化的整体，CPU、加速器、内存与网络组件全都协同运行。由此，系统级智能如今已成为决定芯片性能、能效与可扩展性的重中之重。

追求可持续的系统级表现，而非不计成本的极致性能

在现代 AI 数据中心的建设中，客户不再单纯选购“最强 CPU”或“最快加速器”，而是着重于优化机架能效，重点关注每瓦性能，尤其看重在持续、真实工作负载下的表现，而非短时峰值跑分成绩。如今单个机架的设计功耗可达 50kW 至 300kW 以上，因此不得不从整体层面进行权衡，单芯片“极限”性能指标的重要性因此下降。

系统平衡变得更为关键：

在各个计算组件之间高效传输数据；

在机架层面实现每瓦功耗产生更多有效算力；

让 CPU、GPU、NPU、内存池与互联架构协同一致、整体运行。

Futurum 报告也指出，行业关注点已从：“能堆多少原始算力”转向“如何在系统层面，针对多样化的需求与环境，更加智能地编排算力？”

这一转变重构了芯片的定位。加速器决定了原始算力吞吐能力，而系统编排（涵盖任务调度、内存管理、安全管控与数据传输）则决定了这种吞吐能否在大规模下持续。若缺少高效的系统编排，从机架层面，受制于内存、网络或控制面瓶颈，即便最强大的加速器也可能陷入闲置状态，无法充分发挥性能。

在代理式 AI 工作负载场景中，这种现象会愈发明显。数百万软件智能体并发运行，查询数据、调用工具、生成输出、跨服务协同，算力需求从“突发式”供给，转变为结构性持续供给。为此，基础设施必须能够支撑持续不间断的系统编排与数据传输，而非仅满足模型的瞬时峰值吞吐需求。

CPU 在 AI 时代的重要性愈发凸显

随着 AI 模型、工作负载与部署环境的多样化发展，CPU 正越来越多地充当 AI 的头节点，即系统的控制中枢，负责对整个系统进行协调与编排。

在大规模 AI 平台中，CPU 主要负责：

在各种异构加速器之间分派与调度任务；

为各类工作负载管理内存一致性、数据本地化与主机内存卸载，例如 KV 缓存和向量数据库；

处理纯矩阵运算之外的数据预处理与后处理任务；

在整个系统范围内执行控制平面操作、安全防护与资源隔离。

简而言之，加速器负责执行驱动 AI 模型的运算，而 CPU 则是将算力转化为可靠、可扩展、具备实际应用价值的核心。

CPU 的重要性已得到行业头部企业的验证和认可。在彭博社的一次采访中，NVIDIA 创始人兼 CEO 黄仁勋证实，全新 Vera Rubin 平台所搭载的基于 Arm 架构的 Vera CPU 将作为独立产品推出。此举清楚表明，CPU 在 AI 系统设计中的重要性正与日俱增。

此外，随着 AI 基础设施日益多元化，CPU 架构凭借灵活性、高能效和系统协同能力，价值和重要性将大幅提升。Arm 的优势也由此显现。Futurum 的研究报告明确指出：“GPU 和 TPU 等专用加速器通常会与基于 Arm 架构的 CPU 搭配使用，以承担通用控制与数据管理任务，同时有效避免高昂的成本与功耗开销。”

Arm 引领系统级基础设施的发展

Arm 计算架构的优势体现在性能、能效、可扩展性与庞大的生态系统上，能够帮助系统架构师在日新月异的 AI 领域更好地管控风险，而且精准匹配新一代机架级 AI 系统的需求。

以上优势已在头部超大规模云服务提供商的实践中得到验证：

亚马逊云科技将基于 Arm 架构的 Graviton CPU 与 Nitro DPU 及 Trainium 加速器相结合，优化机架级能效；

Google 基于 TPU 的系统正越来越多地搭配集成 Arm CPU 核心的 Google Axion 处理器，承担编排与控制任务；

NVIDIA 的 Grace、Grace-Hopper 和即将推出的 Vera 平台，均将 GPU 与基于 Arm 架构的 CPU，以及 DPU 配对，打造高度集成化的 AI 系统。

Arm 计算平台正作为系统基石，将加速器、内存与网络组件整合到一起，构成协同统一、高能效的整体系统。

AI 正迈向以推理为先的发展阶段

尽管模型训练常常占据新闻头条，但推理才是 AI 实现规模化的核心。代理式 AI 的兴起进一步提升了推理的重要性，因为智能体需要持续运行，执行一连串推理操作，而非单次调用模型。

从众多路线图来看，未来十年内推理工作负载将超越训练工作负载，而推理对系统的要求，与训练截然不同，主要体现在：

需要更低的延迟；

对内存带宽更为敏感；

需要持续不间断运行；

功耗与散热限制严格。

上述要求不仅针对数据中心，同样适用于边缘侧场景，包括我们日常生活中的消费电子设备与物联网系统。与云端一样，边缘计算同样遵循相同的系统级设计原则：

性能由加速能力与系统间的数据传输效率共同决定；

安全防护依赖系统级协同，实现跨工作负载与内存间的全域防护；

集成速度直接影响产品上市时间。

在边缘 AI 系统中，如果加速器与内存、互联没有紧密耦合，系统就会迅速陷入带宽、功耗及软件复杂度等多重瓶颈。只有将 CPU 加速、内存与互联进行深度集成，才能提供更稳定的性能、更高效的扩展能力，也更利于开发者使用。

Futurum 的报告指出：“以往需要依托云端完成的任务，如今可借助 Arm 高能效核心与集成的 AI 引擎在本地实现。”

规模化系统设计

随着系统复杂度不断攀升，集成与验证环节（而非晶体管设计）正成为成本与风险的主要来源。因此，行业开始转向采用预集成的计算子系统和标准化系统接口。

在此行业趋势下，Arm 计算子系统 (Compute Subsystems, CSS) 应运而生，市场需求持续增长。CSS 提供经过预先验证的子系统，为定制化系统设计提供了明确路径，在降低集成风险的同时，助力合作伙伴实现产品差异化。CSS 不再仅提供独立的 IP 模块，而是提供预先验证的系统设计方案，涵盖 CPU、互联、一致性协议与内存管理机制，实现各组件原生协同。

此外，Arm 的系统 IP 产品组合涵盖互联控制器、内存控制器与一致性互联架构，能够帮助合作伙伴以更低风险、更快速度，设计出全方位面向 AI 优化的系统。在 AI 工作负载同时对带宽、延迟与功耗提出严苛要求的背景下，此等系统级基础平台的重要性愈发凸显。

核心价值与意义

随着 AI 从孤立的模型推理转向由智能体驱动的系统，计算基础设施面临的核心挑战变为协同调度，要确保各类处理器、内存系统与网络能够作为协调统一的整体运行。

AI 领域的核心竞争力将聚焦于系统层面的四大能力：

在功耗约束下构建高能效系统；

整合异构计算资源，避免架构割裂；

以尽可能低的能耗完成数据传输；

将安全与性能内化为系统原生属性，而非附加功能。

Futurum 的报告总结道：“行业格局的重塑，不仅取决于谁能制造出性能最强的芯片，更取决于谁能打造出覆盖全场景、高度集成化且高能效的系统。”

凭借系统层面的定制化、高能效与多样化选择，Arm 架构正支撑越来越多高可扩展性 AI 计算环境，覆盖超大规模数据中心至边缘设备全场景。

AI 的未来，并非单纯追求芯片算力提升，而是依托 Arm 架构打造更智能、更高效、更具扩展性的整体系统。

打开APP阅读更多精彩内容