从按下快门前就对照片进行即时锐化,到通话过程中实时消除背景噪音,再到离线状态下与人工智能 (AI) 助手互动,端侧 AI 正在重塑移动体验。而 Arm 计算平台正是实现这些无缝交互体验的强劲驱动力。
随着 AI 工作负载变得日益复杂且广泛渗透至各个领域,移动开发者面临的需求也与日俱增:他们需要在内存、电力和热预算等严格且多样化的限制下,实现实时且高效的性能表现,同时确保不会给应用及其工作负载增加额外的复杂性。
为了应对这些挑战,Arm 推出了可伸缩矩阵扩展 2 (SME2) 技术,以直接在移动 CPU 上加速高强度的矩阵计算工作负载——这些工作负载对计算机视觉和生成式 AI 应用至关重要。SME2 是 Armv9 架构中的一组高级 CPU 指令,它基于 SME 升级、能够在 AI 异构计算框架下,高效支持图像处理、自然语言处理、语音生成等实时移动端推理任务。
开发者如何获取 SME2 的优势
移动开发者无需改动现有代码、模型或应用程序,即可直接获取 SME2 带来的性能提升。这得益于 Arm 的软件加速层——Arm KleidiAI,它能够无缝集成到主流运行时库和 AI 框架中,为开发者提供开箱即用的性能体验。
得益于 KleidiAI 深入且广泛的集成,SME2 已在 Google 专为安卓系统优化的神经网络推理库 XNNPACK 中实现支持。此外,SME2 也被集成至多个框架中,包括阿里巴巴 MNN、Google LiteRT 和 MediaPipe、微软 ONNX Runtime,以及 llama.cpp。这些集成意味着 SME2 已深度嵌入到软件栈中。当设备支持并启用 SME2 时,XNNPACK 会自动通过 KleidiAI 将矩阵计算密集型任务路由至 SME2,从而让开发者在无需改动任何应用逻辑或基础架构的情况下,直接实现性能提升。
与此同时,KleidiAI 不仅着眼于当下的性能加速,更是为满足未来需求而设计。随着 Arm 不断推出新特性与架构升级,KleidiAI 将持续为所支持的 AI 框架和运行时库带来自动的性能提升,而无需开发者投入额外精力。
大规模 AI 性能与能效优化
搭载 SME2 增强硬件的安卓新机即将上市,开发者可率先通过硬件加速解锁 AI 性能跃升。与此同时,SME2 已支持最新的 iOS 设备[1],只要应用中使用了集成 SME2 的 AI 框架,便可自动享受这些性能提升。
在搭载 SME2 增强硬件的设备上运行 Google Gemma 3 模型时,其聊天交互中的 AI 响应速度比未启用 SME2 的同款设备快六倍。此外,仅用单个 CPU 核心,Gemma 3 便可在不到一秒的时间内启动多达 800 字的文本摘要任务。目前,一家领先的独立软件供应商 (ISV) 已承诺将其应用中的大部分词元 (token) 生成工作负载从云端迁移到移动端,这在一定程度上得益于端侧 AI 能力的持续突破。
“
Google 安卓杰出软件工程师 Iliyan Malchev 表示:借助 SME2 增强的硬件,更先进的 AI 模型(如 Gemma 3)能够直接在各类设备上运行。随着 SME2 的持续扩展,移动开发者能够在不同生态系统中无缝部署下一代 AI 功能,从而为终端用户带来低延迟、广泛可用的智能手机体验。
”
除了性能的提升,SME2 还为 Arm 生态系统(如 iOS 与安卓)提供了可移植的解决方案。目前,已有 900 万款应用在 Arm 计算平台上运行,超过 2,200 万名软件开发者基于 Arm 平台构建他们的应用和工作负载。
助力开发者构建 AI 的未来
对安卓开发者而言,他们只要将应用构建在集成了 KleidiAI 的 AI 框架和运行时库之上,就能自动获得 SME2 带来的性能提升,并可在各类设备上无缝部署下一代 AI 功能。
开发者若提前布局,即可确保其应用在 SME2 增强硬件推向市场时实现优化,无需改动任何一行代码,便可为用户带来更快的性能、更低的延迟以及更高的能效。
此外,Arm 还发布了开发者启动平台,帮助移动开发者充分利用 SME2 的技术优势,通过丰富案例展示如何针对 KleidiAI 增强框架进行开发,从而默认激活硬件层面的最新加速能力。
作者:Arm 人工智能平台和开发者平台与服务高级副总裁 Alex Spinelli
全部0条评论
快来发表一下你的评论吧 !