Arm为何是扩展AI技术栈的理想之选

描述

随着人工智能 (AI) 在数据中心、终端设备及各类中间场景中迅速普及,当前的核心挑战已不再是打造智能计算本身,而是构建支撑其规模化应用所需的基础设施。

AI 并非单一维度的问题,而是一个由全球领先的科技企业共同塑造的庞大生态系统。在这场价值数万亿美元级别的产业变革中,Arm 架构持续脱颖而出。

AI 数据中心:

由行业领袖企业定义,以 Arm 技术为基石

AI 领域的领军企业,如 NVIDIA、亚马逊云科技 (AWS)、微软、Google、Oracle 和 OpenAI 正与 Arm 携手,共同推动下一代数据中心的建设。据估计,为了满足模型训练、推理和具有成本效益的规模化扩展需求,AI 基础设施领域的投资将突破万亿美元级别。

预计到 2025 年,出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。目前,AWS (Graviton)、Google Cloud (Axion) 和 Microsoft Azure (Cobalt) 均已在其云基础设施中部署了基于 Arm 架构的芯片,从而显著节省能源和成本,并提升可扩展性。NVIDIA 的 Grace CPU 基于 Arm Neoverse 平台构建,是 NVIDIA Grace Blackwell AI 超级芯片的核心组件;该超级芯片广受市场青睐,仅全球前四大超大规模云服务提供商就已订购 360 万颗。事实上,目前已有超过 10 亿颗基于 Arm Neoverse 平台的 CPU 部署至数据中心,这一数据充分凸显了 Arm 架构在全球数据中心建设中的核心地位。

在当今先进的 AI 数据中心技术栈中,Arm 架构作为普遍采用的基础平台,提供了传统架构难以企及的可扩展性、效率和灵活性,其性价比和能效优势包括:

与 x86 系统相比,NVIDIA 的 Grace-Hopper 超级芯片的模型训练速度提升高达 8 倍,LLM 推理性能提升高达 4.5 倍[1]。

与 x86 相比,Google 的 Axion 推荐性能提升高达 3 倍[2],推理能力提升 2.5 倍,同时成本降低达 64%[3]。

截至 2024 年 12 月,AWS EC2 云服务的算力中,超过 50% 基于 AWS Graviton 所构建[4]。

此外,根据咨询公司 Signal65 近期的分析报告显示,基于 Arm Neoverse 平台的 AWS Graviton4 芯片,不仅在性价比方面领先业界,更在企业级工作负载的整体性能上远超 AMD 和英特尔推出的同类 x86 芯片。例如,Signal65 的基准测试结果表明,Graviton4 的大语言模型 (LLM) 推理性能比 AMD 同类产品高 168%,性价比高 220%;同时网络吞吐量比英特尔同类产品高出 53%,机器学习 (ML) 训练速度快于 34%。这些数据充分印证了 Arm 在 AI 和通用计算任务方面的显著架构优势。

从云端到边缘侧,AI 亟需新型计算平台

AI 正在突破数据中心的边界,向更广阔的应用场景延伸。如今,无论是智能手机、个人电脑 (PC) 还是物联网设备——小至低功耗传感器,大到高性能工业应用——都需要端侧生成式 AI 来重塑用户体验。

在此趋势下,Arm 同样独具优势。面向消费电子设备的全新Arm Lumex 计算子系统 (CSS) 平台,可支持智能助手、语音翻译和个性化服务等实时端侧 AI 应用场景,而搭载 SME2 技术的全新 Arm CPU 则可实现高达 5 倍的 AI 性能提升。同时,全球首个基于 Armv9 架构的边缘 AI 计算平台,专为物联网应用中的边缘 AI 工作负载优化,可支持参数规模超 10 亿的端侧 AI 模型运行。

Arm 正在驱动一场从云端到边缘端的变革,凭借其本身的架构优势赋能全场景的规模化部署。

软件铸就差异化优势,Arm 工具为 AI 时代赋能

在 AI 领域,硬件构筑底层基础,而软件决定用户体验。随着 AI 工作负载日益复杂、应用场景不断拓展,开发者亟需一个能够紧跟创新步伐的生态系统。而这正是 Arm 的优势所在:一套统一的架构,搭配从云端到边缘端、强大且经过优化的软件生态系统。

多达 2,200 万规模的 Arm 开发者群体将受益于这一协同生态系统,无论是数据中心的大规模模型训练,还是边缘侧的实时推理,相同的代码、工具与框架均可在不同设备上无缝运行。这种架构一致性显著加速开发进程,简化优化路径,实现更广泛的部署落地,避免冗余工程投入。

PyTorch ExecuTorch、TensorFlow Lite 和MediaPipe 等主要框架,现已通过 Arm KleidiAI 与基于 Arm 架构的系统实现深度集成和优化。Arm KleidiAI 是轻量级的开源优化层,可激活基于 Arm 架构进行优化的底层微内核。如此一来,开发者无需修改代码即可自动获取性能增益——从超大规模云平台到智能手机、嵌入式设备,全场景适用。

例如,在 Graviton4 上,KleidiAI 的集成使 Llama 3 的词元 (token) 首次响应时间较基准提升了 2.5 倍;而在移动端,基于 MediaPipe 的方案在 Gemma 2B 等模型上,也实现了高达 30% 的性能提升。无论是管理 AI 工厂,还是在边缘侧部署聊天机器人,开发者均可获得可预测、高性能和高能效的软件体验。

这种无缝、具备系统感知能力的软件赋能方式,正是 Arm 平台的核心差异化所在。开发者无需应对碎片化技术栈的困扰,也无需重复开展后端重构工作;相反,他们能够直接借助这套软硬件协同设计的生态系统,实现 AI 的性能和效率优势。

在“每瓦性能”至关重要的 AI 时代,Arm 的软件生态系统不仅紧跟行业需求,更能贴合开发者的实际场景,加速其创新进程。

AI 规模化发展的核心支柱

从万亿美元级的数据中心,到下一代智能手机与智能车载系统,AI 正在以前所未有的规模快速发展。作为贯通这些场景的桥梁,Arm 架构正发挥着关键作用。

凭借超大规模云服务提供商的广泛部署、灵活的边缘计算能力,以及充满活力、AI 就绪的软件生态系统,Arm 已成为当下和未来 AI 基础设施的核心支柱。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分