Arm技术赋能ExecuTorch 1.0正式版发布

描述

作者:Arm 人工智能平台和开发者平台副总裁 Sharbani Roy

试想这样的场景:专用的端侧人工智能 (AI) 助手与语音交互无需连接云端即可运行,且响应延迟极低;聊天机器人能在用户输入时实时推荐回复内容;游戏体验可根据玩家操作实时调整;可穿戴设备与物联网设备中,更智能的常开式高能效传感器能以低功耗实现强大的智能功能。

这类 AI 体验均可通过 ExecuTorch(Meta 针对 PyTorch 打造的端侧运行时)与 Arm 共同助力开发者实现。二者结合能通过统一的 PyTorch 工作流带来优化的性能与更高效的开发流程,数十亿基于 Arm 架构的边缘侧设备上在该工作流上无缝运行。近期,ExecuTorch 迎来重要里程碑 —— 发布正式版,该版本将“AI 无处不在”的愿景,转化为可供数百万开发者落地的规模化方案。

ExecuTorch 1.0 正式版

赋能一套工作流,覆盖数十亿边缘侧设备

ExecuTorch 1.0 正式版彻底改变了开发者规模化落地 PyTorch 模型的方式。以往,开发者需要针对不同设备类型,单独调整模型版本、管线或框架;如今,只需一套 PyTorch 工作流,开发者即可完成从模型创建、导出、优化、量化到部署的端到端操作,且覆盖移动端、嵌入式与边缘侧设备,不仅大幅减少了开发碎片化问题,同时缩短了产品上市时间。

借助这套工具集,开发者可无缝部署应用与工作负载,在从超高能效微控制器到旗舰智能手机等各类搭载 Arm CPU、GPU 和 Arm Ethos-U NPU 的边缘侧设备上,充分释放更先进、更快速的 AI 体验与特性。

助力 ExecuTorch 的 Arm 技术

Arm KleidiAI、CMSIS-NN 与张量算子集架构 (TOSA) 通过在 ExecuTorch 中集成后端,共同构建了统一的优化框架。这意味着,当应用与工作负载面向基于 Arm 架构的边缘侧设备时,开发者无需修改代码或模型,即可自动获得性能与效率提升。

KleidiAI 可提供 Arm 内核集成,为当前及未来的 Arm CPU 平台加速 AI 工作负载。目前,该技术已集成到多个框架和运行时中,包括 ExecuTorch 使用的 XNNPACK 运行时。同时,CMSIS-NN ExecuTorch 后端集成相当于 Arm Cortex-M 系列微控制器的性能加速器,能为资源受限的边缘侧设备提供高效、直接集成的推理支持。

ExecuTorch 中的 TOSA 集成为在 Arm GPU 和 Ethos-U NPU 上运行的边缘 AI 与机器学习 (ML) 工作负载,提供了统一的执行接口。TOSA 可将模型转换为独立于硬件的标准化表示,既能确保在这些技术平台上实现一致的部署、移植和验证,又能减少工程开发工作量。

ExecuTorch 1.0 正式版

为移动端和边缘 AI 市场带来价值

移动端领域

在移动端领域,ExecuTorch 1.0 正式版可帮助开发者,在当前数十亿基于 Arm 架构的智能手机及新一代移动设备上,更快、更高效地部署更智能的端侧 AI 体验。

主要优势包括:

与安卓应用工作流无缝集成,且从模型开发到端侧部署均全面支持 PyTorch,大幅缩短产品上市时间。

借助 KleidiAI 优化实现内置性能提升,为文本生成、音频生成、实时语音交互和虚拟助手等各类先进端侧 AI 功能和体验,带来更快的启动速度、更低的延迟以及更少的内存占用。例如,Stable Audio Small 文本转音频模型在基于 Arm CPU 的端侧运行时,生成 11 秒音频仅需 7 到 8 秒,而在启用 SME2 的消费电子设备上,生成时间可缩短至 4 秒以内。

广泛的 Arm 技术支持,确保 AI 模型可在当前及未来的各类 Arm CPU 和 GPU 上运行,具体包括:

Arm Cortex-A CPU 及新一代 Arm CPU(包括启用 SME2 的 Arm C1 CPU),可通过 XNNPACK 中的 KleidiAI 集成实现支持。

当前的 Arm Mali 和 Arm Immortalis GPU 可通过 Vulkan 路径实现支持。

2026 年推出的搭载 Arm 神经技术的 Arm Mali GPU,可通过 Vulkan 和 VGF 后端实现支持,助力开发者在移动设备上提升实时 4K 游戏的 AI 性能。

边缘 AI 与高性能物联网

Arm Ethos-U 处理器系列为物联网市场的各类边缘 AI 应用提供出色的加速能力,是 ExecuTorch 1.0 正式版广泛支持的关键生产后端。

这将带来以下价值:

借助提前 (AoT) 编译、运行时支持,以及虚拟平台的可用性,开发者可在基于 Ethos-U 的硬件上市前,提前开始构建应用与工作负载,从而缩短产品上市时间。例如,通过 Arm Corstone 子系统,开发者可先在固定虚拟平台 (FVP) 上模拟 Ethos-U 目标设备,再迁移至 FPGA 原型,最终落地到基于 Corstone 构建的芯片实现方案。

为开发者提供丰富的产品组合,包含 100 多个预先验证的 AI 模型[1],涵盖图像分类、关键词识别等场景。开发者可直接通过 ExecuTorch 在 Ethos-U NPU 上完成端到端部署。

通过 TOSA 标准提升可移植性,这意味着为一个 Arm 平台构建的模型,可部署到多个平台上。

集成 Arm Vela 编译器简化模型编译流程。该编译器可为 Ethos-U NPU 优化并分配 AI 工作负载,无需额外人工操作,即可自动提升效率、降低延迟。

即便在功耗预算极其受限的场景下,也能实现高效的 AI 推理。这得益于强大的算子支持、量化工具,以及回退路径(比如针对基于 Cortex-M 的微控制器的 CMSIS-NN 支持)。

[1] 多款模型可在https://docs.pytorch.org/vision/main/models.html 和https://docs.pytorch.org/audio/main/models.html 查看

此外,在高性能物联网领域,KleidiAI 与主流 AI 框架的集成,还可提升 Arm CPU 上关键模型(包括 Meta Llama 3 和 Phi-3)的性能与效率。

开发者现可获取

ExecuTorch 1.0 正式版的各项优势

开发者即日起就可体验 ExecuTorch 1.0 正式版的各项优势。访问 developer.arm.com,探索 ExecuTorch 的所有 Learning Path、查看相关文档和教程,并将工作流集成到模型导出、编译和部署管线中。此外,开发者还可在 PyTorch 页面[2]查看 ExecuTorch 的更多详细信息,以及获取 XNNPACK、Ethos-U、VGF 和 Vulkan 设备的开发者文档[3]。无论是面向移动设备、PC、可穿戴设备还是边缘传感器开发,开发流程均统一且无缝。

[2] PyTorch 页面:https://pytorch.org/projects/executorch/

[3] 开发者文档:https://docs.pytorch.org/executorch/main/backends-arm-vgf.html

让边缘 AI 无处不在

惠及每一个人

ExecuTorch 1.0 正式版再次印证了 Arm 的愿景——让 AI 在硬件生态系统的每一个层面,都能一致且无缝地运行。依托 Arm 计算平台的强大性能与广泛的生态系统,ExecuTorch 1.0 不仅解锁了规模化部署、高性能表现与创新能力,将助力新一代边缘 AI 体验无处不在,惠及每一个人。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分