作者:Jacob Beningo
边缘视觉识别正成为许多产品的一个越来越关键的特性,机器学习 (ML) 和人工智能 (AI) 的应用范围不断扩大。开发人员面临的问题在于,ML/AI赋能的视觉运行识别算法所需要的计算能力可能超出了功耗受限应用所能提供的能力。如果需要昂贵的热管理解决方案,则成本还会增加。
边缘 ML/AI 的目标是找到最优架构方法以平衡性能与功耗,同时提供一个强大的软件生态系统来开发应用程序。
基于这些考虑,本文介绍了 Renesas Electronics RZ/V2 系列微处理器单元 (MPU) 解决方案,该方案内置 AI硬件加速器。本文探讨了 MPU——而非微控制器 (MCU) 或高端图形处理单元 (GPU)——如何解决设计人员面临的几个问题,本文还说明了如何利用 RZ/V2系列设计视觉识别系统,并提供了一些有助于顺利完成该过程的“技巧与诀窍”。
RZ/V2 系列 MPU 介绍
RZ/V2 系列 MPU 解决方案为使用三核微处理器的开发人员解锁了许多能力。RZ/V2L 系列微处理器包含两个运行在 1.2 GHz 的 ArmCortex-A55 处理器和一个运行在 200 MHz 的实时微控制器内核 (Arm® Cortex®-M33)。此外,该系列器件包含一个基于 ArmMali-G31 多媒体处理器的 GPU,具有 NEON 单指令/多数据 (SIMD)指令。这三个处理核心和多媒体处理器相结合,为从事视觉识别系统的开发人员提供了功能全面的解决方案。
RZ/V2 系列目前有两类 MPU,即 RZ/V2L 和 RZ/V2M 系列。RZ/V2L 有一个简单的图像信号处理器 (ISP)、3D图形引擎和一个高度通用的外设集。RZ/V2M 则增加了一个高性能 ISP,支持每秒 30 帧 (fps) 的 4K 分辨率。本文重点介绍 RZ/V2L系列,包括 R9A07G054L23GBG 和R9A07G054L24GBG。这两款器件的主要区别在于:R9A07G054L23GBG 采用 15 mm2456-LFBGA 封装,而 R9A07G054L24GBG 采用 21 mm2 551-LFBGA 封装。
RZ/V2L 系列的方框图如图 1 所示。除了三个处理核心外,这些 MPU 还包括 DDR3/DDR4内存、SPI、USB、以太网、I²C、CAN、SCI、GPIO、模数转换器 (ADC)等标准外设的接口。此外,这些器件包含安全功能,如安全启动、加密引擎和真随机数发生器 (TRNG)。不过,该 MPU 系列的出众之处在于其动态可配置处理器(DRP) AI 加速器。
秘密武器——DRP-AI 加速器
DRP-AI 加速器是让 RZ/V2L 系列 MPU 以较少的能耗和较低的温度快速执行视觉识别应用的秘密武器。DRP-AI 包括两个元件:DRP 和 AI乘法累加 (MAC),二者能通过内部开关优化数据流来高效处理卷积网络和全组合层的操作(图 2)。
DRP-AI 硬件专门用于执行 AI 推理。DRP-AI 采用 Renesas开发的独特动态可配置技术,可提供灵活性、高速处理和高能效。此外,免费软件工具 DRP-AI 翻译器可以让用户实施优化的 AI 模型,迅速实现性能最大化。由DRP-AI 翻译器输出的多个可执行文件可以放在外部存储器中。然后,应用程序可以在运行时在多个 AI 模型之间动态切换。
DRP 可以通过动态改变硬件配置来快速处理复杂的活动,如图像预处理和 AI 模型池化层。
DRP-AI 翻译器
DRP-AI 翻译器工具从训练好的 ONNX 模型生成 DRP-AI 优化的可执行文件,与具体 AI 框架无关。例如,开发人员可以使用PyTorch、TensorFlow 或任何其他 AI 建模框架,只要能输出 ONNX 模型即可。模型一旦训练完毕,就被送入 DRP-AI 翻译器,由其生成DRP 和 AI-MAC 可执行文件(图 3)。
DRP-AI 翻译器有三个主要用途:
调度 AI 模型处理的每个操作。
隐藏开销,如计划表中每个操作的转换期间发生的内存访问时间。
优化网络图结构。
翻译器自动将 AI 模型的每个进程分配给 AI-MAC 和 DRP,用户无需成为硬件专家就能轻松使用DRP-AI。开发人员可通过所提供的驱动程序进行调用,以运行高性能 AI 模型。此外,DRP-AI 翻译器可持续更新以支持新开发的 AI模型,而无需改变硬件。
系统用例和流程
使用 RZ/V2L MPU 训练和部署视觉识别应用的一般流程如图 4所示。像平常一样,工程师可以获取数据集,并使用它来训练自己的视觉识别模型。无论尝试识别的是猫咪、购物车中的产品,还是装配线上的故障零件,他们都可以使用熟悉的AI 框架开展训练流程。模型训练完成后,就会被转换成 ONNX 格式,并被送入 DRP-AI 翻译器,翻译器进而输出可以在 DRP-AI硬件上执行的目标代码。随后,来自摄像头、加速计或其他传感器的数据经采样后馈入可执行文件,提供运行推理的结果。
工程师在其设计中可以通过多种方式利用 RZ/V2L MPU(图 5)。首先,RZ/V2L MPU 可用于独立的设计中,RZ/V2L用作系统中唯一的处理器。它有三个核心和 AI 加速硬件,系统可以不需要额外的计算能力。
第二个用例是 RZ/V2L 用作更大系统中的 AI 处理器。在此用例中,RZ/V2L 运行 AI推理,并将结果返回给另一个处理器或系统,后者针对该结果进行操作。所选用例取决于多个因素,如成本、整体系统架构、性能和实时响应要求。
现实生活应用示例
有许多可以部署视觉识别技术的用例。一个有趣的例子是在超市。如今,在杂货店结账时,员工或购物者通常会扫描购物车中的每件物品。一个有趣的用例是利用视觉识别检测穿过传送带的物品,并自动计费。
可以使用简单的 CMOS 摄像头和 Renesas 的 RTK9754L23S01000BE 评估板来构建原型(图 6)。RZ/V2L嵌入式开发板带有系统级模块 (SOM) 和载板,便于开发人员快速启动和运行。此外,开发板支持 Linux 和 DRP-AI 翻译器等各种工具。
图 7 中可以看到获取图像数据和产生 AI 结果所需的操作概述。在此应用示例中,使用 CMOS 传感器通过板载 ISP拍摄传送带的图像。然后,图像被保存到存储器中并被送入 DRP-AI 引擎。最后,DRP-AI 引擎运行推理并提供 AI结果。例如,结果可能是发现了香蕉或苹果,或其他某种水果。
该结果通常伴随一个 0 到 1 的置信度。例如,置信度 0.90 意味着 AI 确信检测到苹果,而置信度 0.52 可能表示 AI认为是苹果但不确定。将多个样本的 AI 结果进行平均以提高正确结果的概率,这种做法并不罕见。
最后,在此例中,检测到的物体周围会绘制一个方框,识别到的物体的名称与置信度一起显示在方框中(图 8)。
RZ/V2L 入门技巧与诀窍
希望在 Renesas 的 RZ/V2L MPU
上开始机器学习的开发人员会发现,他们有很多资源可资利用。为了简化和加快开发,开发人员应牢记以下几个“技巧和窍门”:
从开发板和现有示例开始,体验应用的部署和运行。
如果有必要执行多个推理,则将可执行模型保存到外部存储器中,并使用 DRP-AI 功能在模型间快速切换。
查看 Renesas 的 RZ/V 嵌入式 AI MPU 网站上的文档和视频。
下载 DRP-AI 翻译器。
下载 RZ/V2L DRP-AI 支持包。
开发人员遵循这些“技巧和窍门”,可以在开始使用时节省更多的时间并省去更多的麻烦。
结语
ML 和 AI 正在进入许多边缘应用,实时识别物品的能力变得越来越重要。设计人员的困难在于找到合适的架构,以便在边缘执行 AI/ML。GPU通常非常耗电,而 MCU 可能没有足够的计算能力。
如本文所述,配备 DRP-AI 的 Renesas RZ/V MPU 系列具备多个优点,如硬件加速 AI,同时还有大量的工具链和原型开发支持。
全部0条评论
快来发表一下你的评论吧 !