Arm Neoverse计算平台驱动AI基础设施开启全新纪元

描述

十余年来,云计算依托抽象化架构实现规模化扩展。标准化服务器、虚拟化资源与通用型基础设施,让超大规模云服务提供商得以在同质化硬件基础上持续叠加软件创新,实现高速增长。而这个时代,已然落幕。

人工智能 (AI) 彻底改写了这一格局。现代 AI 工作负载对数据中心的业务格局、供电保障与系统设计提出的要求,已远超基于传统 x86 架构的通用基础设施所能承载的限度。由此,行业正迎来一场根本性变革:从由通用部件组装而成的通用型基础设施,转向为 AI 端到端量身设计的定制化融合型系统。

这绝非小修小补的局部优化,而是全球顶尖计算平台在设计、部署与规模化层面的结构性变革。

AI 促使对数据中心设计的重新思考

这场变革的规模之大,再怎么强调都不为过。这种增长绝非依靠能效优化或扩大采购规模就能消化的渐进式提升。

AI 工作负载 —— 尤其是大规模训练与快速增长的推理场景 —— 对基础设施提出了本质上截然不同的需求:

训练负载需要极致计算密度、先进散热方案,以及高度协同的系统。

支撑实时 AI 应用的推理负载,对延迟高度敏感,规模化部署时能耗高,且正愈发趋向靠近用户的分布式部署。

据麦肯锡预测[1],到 2030 年,推理将超越训练,成为主要的 AI 工作负载,占比将超过 AI 总算力的一半,贡献数据中心总需求的 40% 之多。仅这一转变,就足以彻底重塑基础设施的设计逻辑。

与此同时,《麻省理工科技评论》指出[2],超大规模 AI 设施正越来越多地被打造为专用超级计算机,搭载定制芯片、专用散热系统,乃至量身定制的供电方案。如今,部分超大型计算设施的耗电量已突破一吉瓦,相当于一座城市的整体用电需求。

结论显而易见:基于传统架构、高能耗的通用型基础设施,已然无法满足新时代的需求。

为何通用方式已难以满足新时代需求

过去,云服务提供商主要通过组装定制化配置形成差异化优势 —— 将现成的 CPU 与加速器、网络及存储设备,按适配特定工作负载的方式进行优化。当性能提升主要来自于软件和规模时,这种方法是有效的。

然而 AI 打破了这一模式。它将传统云端工作负载进一步融入 AI 业务本身。现代 AI 系统要求计算、内存、网络、电力及软件之间实现高度协同。训练过程中的功耗波动可在毫秒内达到 30% 至 60%,这就需要稳定的电力传输与容错设计;与此同时,推理负载必须在大规模场景下(往往是在严格的能耗限制下),提供稳定、低时延的性能表现。

随着 AI 系统不断扩展,通用计算处理正日益与推理并行运行,处于训练流水线的上游,以及调度工作负载、迁移数据、执行安全策略并保障复杂系统可靠运行的编排层之下。

简而言之,随着 AI 基础设施日益系统化运行,CPU 正变得更加核心。在 AI 工作负载需持续供给、协同、保障安全并实现规模化扩展的当下,通用计算正从一个相对独立的层级,演进为将整个 AI 平台紧密联结的关键纽带。

正如麦肯锡在其 AI 工作负载报告中所指出的,这一趋势正推动超大规模云服务提供商转向专用架构,包括更多采用定制芯片、专用加速器,以及围绕每瓦性能优化的 Arm 架构。

这种转变并非为了定制而定制,而是体现了一种深刻认知:尤其是在推理规模化场景下,AI 经济逻辑如今由能效、利用率与系统级优化所决定。

定制化正逐渐成为行业标准

这一趋势在整个云生态系统中已初现端倪。据麦肯锡报告显示,如今 70% 的新建核心云计算园区,正将通用计算与 AI 推理整合在同一物理空间内,而非将 AI 系统孤立部署在独立设施中。超大规模云服务提供商也正从以往分散的节点,加速整合为统一、面向 AI 优化的园区模式,预计到 2030 年,该模式将占全部部署量的 70%。

德勤的研究[3]同样印证了这一趋势。随着企业从 AI 试验阶段快速迈向规模化落地,AI 已成为基础能力,基础设施策略也随之转向混合式、按工作负载优化的架构,以便在云端、本地和边缘环境之间平衡性能、成本与能效。

与此同时,“融合型 AI 数据中心”的兴起 —— 即专为 AI 处理而设计的集成化环境 —— 进一步凸显出一个行业共识:要实现 AI 的可持续扩展,就必须从一开始就围绕 AI 需求设计系统,而不是在传统架构上进行改造。

定制化系统需要系统级的协同设计

定制化并不意味着“单一用途”,而是指以明确目标为导向的架构设计,让系统中的每一层都能协同强化。

随着 AI 基础设施从独立的工作负载,迈向高度集成的系统架构,CPU 在硬件层面的战略价值愈发凸显。CPU 不再仅服务于通用计算,更是控制层面的核心枢纽:负责协调日益复杂的运行环境、调度与均衡 AI 及通用计算负载、管理全系统数据迁移,并在大规模部署中保障安全与隔离能力。

智能体 AI (Agentic AI) 的崛起,正是这一系统级变革的典型体现。与传统 AI 流水线不同,这类系统从架构设计层面就依赖异构计算。在这种模式中,CPU 作为高性能头节点,承担规划与系统编排、通过小语言模型进行模式识别、管理上下文与内存,以及系统各部分的具体执行等任务。与此同时,加速器则专注发挥所长,为大语言模型与多模态工作负载提供高吞吐推理能力。

在这一层级的系统编排中,任何单一组件或企业都无法孤立运作。专为 AI 打造的平台,唯有让硬件、软件及生态伙伴整体设计、协同运转,才能真正释放价值。

Arm Neoverse 平台正是这一模式的典范。它依托贯通云端到边缘侧的统一架构,将 CPU 创新、系统 IP、软件赋能及全球合作伙伴生态深度融合,支撑 AI 工作负载的规模化部署。Neoverse 不追求一刀切的通用方案,而是支持面向特定市场与场景的定制化设计,无论是超大规模云端推理、企业级 AI,还是边缘侧部署,均可精准赋能。

在 AI 工作负载日趋多元化的当下,这种灵活性至关重要。轻量化、高能效的模型快速普及,推理环节愈发贴近用户终端设备;与此同时,从机器人到自主设备等全新物理 AI 系统,对实时性、功耗与安全性都提出了更高要求。定制化平台能够系统性地满足这些需求,同时避免软件生态的碎片化。

一系列合作伙伴及生态发展表明,整个行业正向定制化解决方案迈进。各个超大规模云服务提供商,正将基于 Neoverse 的计算平台,作为平衡性能、能效及实现规模化的标准路径:

Amazon Graviton CPU:目前在 EC2 前 1000 大的客户中采用率达 98%,新增 CPU 算力中超 50% 基于 Graviton。如今已迭代至第五代的基于 Arm 架构的 Graviton,正成为行业整体变革的重要一环;Arm 也日益成为定义 AI 时代各类平台的核心支撑。在 Amazon Trainium3 UltraServers 中,Trainium3 加速器、Graviton CPU 与 Amazon Nitro 卡深度协同,基于 Arm 的定制化芯片是其核心基石。

Microsoft Azure Cobalt 处理器 (Cobalt 100 /Cobalt 200) 为优化 Microsoft  Azure AI 数据中心提供算力支撑。

Google Axion 处理器凭借更丰富的虚拟机选项,进一步提升云端与 AI 工作负载的性能表现。

NVIDIA Grace Blackwell 与最新的NVIDIA Vera Rubin 平台则将 Arm CPU 与 AI 加速器结合,赋能全球领先的 AI 系统及超级计算机。

各大主流云服务提供商纷纷推出基于 Arm 架构的自研 CPU,这并非碎片化,而是行业在定制化模式上的高度收敛:在现代 AI 基础设施中,能效比、可预期的扩展能力、与加速器的深度协同,远比一刀切的通用兼容性更重要。

更值得关注的是,这些方案并非路线各异,而是高度趋同:Amazon Graviton、Microsoft Azure Cobalt、Google Axion 以及 NVIDIA Grace、Vera Rubin 均为独立研发,却最终指向同一结论 —— 基于 Neoverse 的定制化计算,正在重新定义现代 AI 数据中心;而通用 x86 处理器,已无法适配现代 AI 基础设施的规模化部署与成本效益需求。

从通用到定制化:未来迈向何方

电力供应已成为战略性制约因素,向定制化基础设施转型,不再只是技术选择,更是经济层面的必然决策。AI 已成为数字基础设施的核心重心。在此背景下,能效比、可预期的扩展能力及系统级效率,早已不是附加选项,而是核心竞争优势。

在此背景下,行业已转向全新模式,即采用专为规模化、可持续、高效释放 AI 性能而打造的 Arm 定制化平台。这场转型仍在推进,但方向已然清晰。云端 AI 的未来,不在于堆砌更多硬件组件,而在于构建更优的系统,将 AI 作为核心需求,而非事后附加功能的系统。

定制化基础设施,正是行业通往这一未来的路径。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分