作者:Arm 云 AI 事业部软件生态系统总监 Yan Fisher
Google Cloud 正通过多项升级举措,稳步推进代理式人工智能 (Agentic AI) 的规模化落地。此次更新包含全新 TPU 8t 和 TPU 8i 系统,同时在 Google Kubernetes Engine (GKE) 上线 Agent Sandbox。作为定制化部署框架,它能够高效、安全地运行复杂的多步骤 AI 系统。这套全新的代理式基础设施,搭载Google 基于 Arm Neoverse 平台打造的 Axion 处理器,充分体现出行业核心趋势:新一代 AI 工作负载正加速转向定制化 CPU 架构。
随着代理式 AI 从技术试验迈向商用部署,基础设施的需求正在迭代变革。传统推理仅依赖单次模型调用,而智能体系统需要持续编排调度逻辑推理链、工具调用和实时数据读取。这大幅拉高了并发压力、时延敏感度与整体算力消耗,让 CPU 成为承载业务稳定运行的核心关键。
这正是 Arm 架构基础设施的核心优势所在。Arm Neoverse 平台专为高吞吐、高能效计算场景打造,Google Axion 便是典型代表,已然成为规模化部署代理式 AI 的坚实底座。
规模化代理式 AI:Axion 走在前沿
Google Cloud 正式发布第八代 TPU 系统,延续了其长期深耕定制芯片设计的技术积淀。本次新品针对训练与推理应用做出差异化划分,推出 TPU 8t 与 TPU 8i 两款型号;同时首次搭载 Google Axion CPU 作为计算头节点 (header)。该设计有效降低数据预处理时延,保障 TPU 算力引擎满载运行、杜绝算力闲置卡顿。
当然,TPU 并非全部布局。Google Cloud 正全力推进“AI Hypercomputer”协同设计愿景,另一项关键发布是 GKE Agent Sandbox。它提供可扩展、低时延的基础设施,使智能体能够在不牺牲性能的前提下,安全地执行不受信任的代码和工具调用。借助 Google Axion,用户可以在领先的基础设施之上构建智能体,同时兼顾成本效益与技术选择的灵活性。
运行在 Google Axion 处理器之上、基于 gVisor 打造,且支持 Kata Containers 的 GKE Agent Sandbox,可实现以下性能指标:
每个集群每秒支持 300 个沙箱
首指令执行时延低于 1 秒
要维持如此高的沙箱吞吐能力和低时延执行表现,底层基础设施始终承受着持续压力。随着代理式 AI 逐步成为主流部署范式,其所依赖的基础设施必须在吞吐能力、响应速度与能效方面同步提升,才能在大规模场景下可靠运行智能体工作负载。Axion 正是为满足这一需求而设计。
随着智能体系统不断扩张,推理效率的重要性愈发凸显。低效的推理能力会直接导致智能体无法正常运转;而缺少智能体编排,推理算力也将长期处于闲置状态。将两大核心任务部署到基于 CPU 的基础设施之上,企业即可在严控成本的前提下,实现高性能智能体系的规模化扩展。
Axion 赋能 AI 推理:以极致性能重构成本效益
C4A 虚拟机搭载基于 Arm Neoverse V2 平台的 Axion CPU,经过深度优化,可与专用加速器形成能力互补。依托通用计算底座高效承载高并行、时延敏感型工作负载,实现高吞吐 AI 推理。
该优势已在实际部署环境中得到充分验证。欧洲在线旅游平台 loveholidays 需在 PB 级数据之上,稳定运行大规模向量嵌入与推理工作负载;规模化部署场景下,纯加速器方案成本高昂,落地门槛极高。
loveholidays 工程负责人 Dimitri Lerko 表示:“业务高速发展下,我们的词元 (token) 处理需求增速已远超预算扩容节奏。面对现有海量数据规模,依靠 GPU 承载大规模向量嵌入与推理负载成本难以为继,因此提升 CPU 能效成为核心诉求。依托 Axion 系列的 C4A 和 N4A 虚拟机,我们获得了充足的性价比优势,得以基于 CPU 构建实时 AI 决策管线,运行定制化模型与开源模型推理。这一落地模式在以往完全不具备可行性。”
实测数据显示,在多种 AI 推理工作负载中,C4A 始终优于当前一代的 x86 实例:

Axion 产品组合扩展
针对需要更高控制能力的工作负载,Axion 系列新增 C4A Metal 原生裸金属实例(预览版),将一致的 Arm 架构从云端延伸至边缘侧。该实例支持跨环境统一开发、验证与部署,可直接访问硬件资源,消除虚拟化层 (hypervisor) 性能损耗,提供稳定可预期的运行表现。十分适用于需求严苛的用例,包括汽车 vHIL、原生安卓 CI/CD,以及对控制能力、性能表现与架构一致性有严苛要求的专用企业基础设施。
松下汽车系统北美公司首席技术官 Andrew Poliak 表示:“松下正跨云端与车端,打造新一代车载体验。在 C4A Metal 实例预览阶段,我们采用与边缘侧架构完全一致的 Arm 裸金属环境,研发团队可依托统一平台,完成车载应用的全流程开发、测试与验证。依托比特级一致性能力,我们可实现云端至车端的无缝迁移,在两端运行完全相同的二进制程序,无需因架构不同而为迁移部署耗费资源。”
与此同时,作为 Axion 系列最新成员的 N4A,为 Web 服务、API 调用以及数据处理管线等横向扩展型工作负载提供了高性价比的计算基础。
C4A、C4A Metal 与 N4A 共同构成了一个统一、面向不同工作负载优化的产品组合,既覆盖 AI 推理,也支持横向扩展型应用,并贯穿云端到边缘环境,帮助团队在 Arm 计算平台上同时实现性能与成本的优化。
Arm 优先部署,构筑领先生态
Arm 已支撑起业内规模庞大、增速领先的软件生态系统,持续推动云端与边缘侧向以 Arm 架构优先的计算转型。Google 已在 Axion 处理器上运行包括 BigQuery、Spanner、Bigtable、Google Earth Engine、Google Compute Engine、GKE Dataflow、Cloud Batch 等多项生产级服务,并在其部署环境中完成超 30,000 款内部应用的架构迁移。
对于刚刚启动迁移的企业,Arm 的云迁移资源中心 (Arm Cloud Migration Resource Hub)[1] 提供了 100 多条 Learning Path[2],覆盖 Google Axion 上的常见工作负载模式。在整个 Neoverse 生态中,Arm Software Ecosystem Dashboard[3] 可用于追踪已验证的软件及其推荐版本;同时,遵循 SystemReady VE 标准,可确保软件从部署第一天起即可实现无缝互操作。Elastic、MongoDB、Palo Alto Networks、Redis Labs 以及 Couchbase 等领先的独立软件开发商 (ISV) 均已在基于 Axion 的基础设施上完成全面验证。
开始使用 Google Axion
无论是通过 GKE Agent Sandbox 部署智能体工作负载,在 C4A 上优化推理性能,还是借助 N4A 扩展通用计算能力,Axion 都为现代 AI 基础设施提供了一个一致、基于 Arm 计算平台的坚实基础。
全部0条评论
快来发表一下你的评论吧 !