Arm技术赋能ExecuTorch 1.0正式版发布

Arm社区 2025-11-20 606

描述

作者：Arm 人工智能平台和开发者平台副总裁 Sharbani Roy

试想这样的场景：专用的端侧人工智能 (AI) 助手与语音交互无需连接云端即可运行，且响应延迟极低；聊天机器人能在用户输入时实时推荐回复内容；游戏体验可根据玩家操作实时调整；可穿戴设备与物联网设备中，更智能的常开式高能效传感器能以低功耗实现强大的智能功能。

这类 AI 体验均可通过 ExecuTorch（Meta 针对 PyTorch 打造的端侧运行时）与 Arm 共同助力开发者实现。二者结合能通过统一的 PyTorch 工作流带来优化的性能与更高效的开发流程，数十亿基于 Arm 架构的边缘侧设备上在该工作流上无缝运行。近期，ExecuTorch 迎来重要里程碑 —— 发布正式版，该版本将“AI 无处不在”的愿景，转化为可供数百万开发者落地的规模化方案。

ExecuTorch 1.0 正式版

赋能一套工作流，覆盖数十亿边缘侧设备

ExecuTorch 1.0 正式版彻底改变了开发者规模化落地 PyTorch 模型的方式。以往，开发者需要针对不同设备类型，单独调整模型版本、管线或框架；如今，只需一套 PyTorch 工作流，开发者即可完成从模型创建、导出、优化、量化到部署的端到端操作，且覆盖移动端、嵌入式与边缘侧设备，不仅大幅减少了开发碎片化问题，同时缩短了产品上市时间。

借助这套工具集，开发者可无缝部署应用与工作负载，在从超高能效微控制器到旗舰智能手机等各类搭载 Arm CPU、GPU 和 Arm Ethos-U NPU 的边缘侧设备上，充分释放更先进、更快速的 AI 体验与特性。

助力 ExecuTorch 的 Arm 技术

Arm KleidiAI、CMSIS-NN 与张量算子集架构 (TOSA) 通过在 ExecuTorch 中集成后端，共同构建了统一的优化框架。这意味着，当应用与工作负载面向基于 Arm 架构的边缘侧设备时，开发者无需修改代码或模型，即可自动获得性能与效率提升。

KleidiAI 可提供 Arm 内核集成，为当前及未来的 Arm CPU 平台加速 AI 工作负载。目前，该技术已集成到多个框架和运行时中，包括 ExecuTorch 使用的 XNNPACK 运行时。同时，CMSIS-NN ExecuTorch 后端集成相当于 Arm Cortex-M 系列微控制器的性能加速器，能为资源受限的边缘侧设备提供高效、直接集成的推理支持。

ExecuTorch 中的 TOSA 集成为在 Arm GPU 和 Ethos-U NPU 上运行的边缘 AI 与机器学习 (ML) 工作负载，提供了统一的执行接口。TOSA 可将模型转换为独立于硬件的标准化表示，既能确保在这些技术平台上实现一致的部署、移植和验证，又能减少工程开发工作量。

ExecuTorch 1.0 正式版

为移动端和边缘 AI 市场带来价值

移动端领域

在移动端领域，ExecuTorch 1.0 正式版可帮助开发者，在当前数十亿基于 Arm 架构的智能手机及新一代移动设备上，更快、更高效地部署更智能的端侧 AI 体验。

主要优势包括：

与安卓应用工作流无缝集成，且从模型开发到端侧部署均全面支持 PyTorch，大幅缩短产品上市时间。

借助 KleidiAI 优化实现内置性能提升，为文本生成、音频生成、实时语音交互和虚拟助手等各类先进端侧 AI 功能和体验，带来更快的启动速度、更低的延迟以及更少的内存占用。例如，Stable Audio Small 文本转音频模型在基于 Arm CPU 的端侧运行时，生成 11 秒音频仅需 7 到 8 秒，而在启用 SME2 的消费电子设备上，生成时间可缩短至 4 秒以内。

广泛的 Arm 技术支持，确保 AI 模型可在当前及未来的各类 Arm CPU 和 GPU 上运行，具体包括：

Arm Cortex-A CPU 及新一代 Arm CPU（包括启用 SME2 的 Arm C1 CPU），可通过 XNNPACK 中的 KleidiAI 集成实现支持。

当前的 Arm Mali 和 Arm Immortalis GPU 可通过 Vulkan 路径实现支持。

2026 年推出的搭载 Arm 神经技术的 Arm Mali GPU，可通过 Vulkan 和 VGF 后端实现支持，助力开发者在移动设备上提升实时 4K 游戏的 AI 性能。

边缘 AI 与高性能物联网

Arm Ethos-U 处理器系列为物联网市场的各类边缘 AI 应用提供出色的加速能力，是 ExecuTorch 1.0 正式版广泛支持的关键生产后端。

这将带来以下价值：

借助提前 (AoT) 编译、运行时支持，以及虚拟平台的可用性，开发者可在基于 Ethos-U 的硬件上市前，提前开始构建应用与工作负载，从而缩短产品上市时间。例如，通过 Arm Corstone 子系统，开发者可先在固定虚拟平台 (FVP) 上模拟 Ethos-U 目标设备，再迁移至 FPGA 原型，最终落地到基于 Corstone 构建的芯片实现方案。

为开发者提供丰富的产品组合，包含 100 多个预先验证的 AI 模型[1]，涵盖图像分类、关键词识别等场景。开发者可直接通过 ExecuTorch 在 Ethos-U NPU 上完成端到端部署。

通过 TOSA 标准提升可移植性，这意味着为一个 Arm 平台构建的模型，可部署到多个平台上。

集成 Arm Vela 编译器简化模型编译流程。该编译器可为 Ethos-U NPU 优化并分配 AI 工作负载，无需额外人工操作，即可自动提升效率、降低延迟。

即便在功耗预算极其受限的场景下，也能实现高效的 AI 推理。这得益于强大的算子支持、量化工具，以及回退路径（比如针对基于 Cortex-M 的微控制器的 CMSIS-NN 支持）。

[1] 多款模型可在https://docs.pytorch.org/vision/main/models.html 和https://docs.pytorch.org/audio/main/models.html 查看

此外，在高性能物联网领域，KleidiAI 与主流 AI 框架的集成，还可提升 Arm CPU 上关键模型（包括 Meta Llama 3 和 Phi-3）的性能与效率。

开发者现可获取

ExecuTorch 1.0 正式版的各项优势

开发者即日起就可体验 ExecuTorch 1.0 正式版的各项优势。访问 developer.arm.com，探索 ExecuTorch 的所有 Learning Path、查看相关文档和教程，并将工作流集成到模型导出、编译和部署管线中。此外，开发者还可在 PyTorch 页面[2]查看 ExecuTorch 的更多详细信息，以及获取 XNNPACK、Ethos-U、VGF 和 Vulkan 设备的开发者文档[3]。无论是面向移动设备、PC、可穿戴设备还是边缘传感器开发，开发流程均统一且无缝。

[2] PyTorch 页面：https://pytorch.org/projects/executorch/

[3] 开发者文档：https://docs.pytorch.org/executorch/main/backends-arm-vgf.html

让边缘 AI 无处不在

惠及每一个人

ExecuTorch 1.0 正式版再次印证了 Arm 的愿景——让 AI 在硬件生态系统的每一个层面，都能一致且无缝地运行。依托 Arm 计算平台的强大性能与广泛的生态系统，ExecuTorch 1.0 不仅解锁了规模化部署、高性能表现与创新能力，将助力新一代边缘 AI 体验无处不在，惠及每一个人。

打开APP阅读更多精彩内容