利用Renesas的RZ/V2系列MPU加速视觉识别系统设计

eeDesigner 2022-11-05 9233

描述

随着边缘视觉识别成为许多产品中越来越重要的功能，机器学习（ML）和人工智能（AI）正在进入广泛的应用领域。开发人员面临的问题是，与功耗受限的应用程序相比，支持 ML/AI 的视觉可能需要更多的计算能力来运行识别算法。如果需要昂贵的热管理解决方案，这也会增加成本。

边缘 ML/AI 的目标是找到平衡性能和功耗的最佳架构方法，同时提供强大的软件生态系统来开发应用程序。

考虑到这些条件，本文介绍了瑞萨电子RZ/V2系列微处理器单元（MPU）及其内置AI硬件加速器的解决方案。本文探讨了MPU而不是微控制器（MCU）或高端图形处理单元（GPU）如何解决设计人员面临的几个问题。本文介绍了他们如何使用RZ/V2系列开始设计视觉识别系统，以及一些"提示和技巧"，以简化这一过程。

RZ/V2 系列 MPU 简介

RZ/V2 系列是一种解决方案，可为使用三核微处理器的开发人员解锁许多功能。RZ/V2L系列微处理器包含两个运行在1.2千兆赫（GHz）的Arm Cortex-A55处理器和一个运行在200兆赫（MHz）的实时微控制器内核（Arm® Cortex-M33®）。此外，该系列中的部件还包含一个基于 Arm Mali-G31 多媒体处理器的 GPU，该处理器具有 NEON 单指令/多数据（SIMD）指令。将这三个处理内核与多媒体处理器相结合，为从事视觉识别系统的开发人员提供了全面的解决方案。

目前RZ/V2系列有两种MPU等级，RZ/V2L和RZ/V2M系列。RZ/V2L 具有简单的图像信号处理器（ISP）、3D 图形引擎和高度通用的外设集。就其本身而言，RZ / V2M增加了一个高性能ISP，支持每秒4帧（fps）的30K分辨率。本文重点介绍RZ/V2L系列，由R9A07G054L23GBG和R9A07G054L24GBG组成。这两部分之间的主要区别在于R9A07G054L23GBG采用15毫米尺寸 ^2^ ，456-LFBGA 封装，而 R9A07G054L24GBG 采用 21 mm 封装 ^2^ ，551-LFBGA 封装。

RZ/V2L系列的框图如图1所示。除了三个处理内核外，MPU 还包括用于标准外设的接口，如 DDR3/DDR4 内存、SPI、USB、以太网、I²C、CAN、SCI、GPIO 和模数转换器（ADC）。此外，这些部件还包括安全启动、加密引擎和真随机数生成器（TRNG）等安全功能。然而，让 MPU 系列与众不同的是动态可重新配置处理器（DRP） AI 加速器。

图 1：RZ/V2L MPU 系列支持各种外设接口、安全性和视频处理选项。视觉识别应用的关键特性是DRP-AI加速器。（图片来源：瑞萨电子株式会社）

DRP-AI 加速器秘诀

DRP-AI 加速器是使 RZ/V2L 系列 MPU 能够以更低的能耗和更低的热分布快速执行视觉识别应用的秘诀。DRP-AI 由两个组件组成：DRP 和 AI 乘法累加（MAC），它们可以通过内部交换机优化数据流来有效地处理卷积网络和全组合层中的操作（图 2）。

DRP-AI 硬件专用于 AI 推理执行。DRP-AI采用瑞萨电子开发的独特动态可重构技术，可提供灵活性、高速处理和能效。此外，DRP-AI 转换器是一种免费软件工具，可让用户实现优化的 AI 模型，从而快速最大限度地提高性能。DRP-AI转换器输出的多个可执行文件可以放置在外部存储器中。然后，应用程序可以在运行时在多个 AI 模型之间动态切换。

DRP 可以通过动态更改硬件配置来快速处理复杂的活动，例如图像预处理和 AI 模型池化层。

Renesas 图 2：DRP-AI 由 DRP 和 AI-MAC 组成，它们可以通过优化内部交换机的数据流，共同有效地处理卷积网络和全组合层中的操作。（图片来源：瑞萨电子株式会社）

DRP-AI 转换器

The DRP-AI Translator tool generates DRP-AI optimized executables from trained ONNX models, independent of any AI framework. For example, a developer could use PyTorch, TensorFlow, or any other AI modeling framework if it outputs an ONNX model. Once the model is trained, it is fed into the DRP-AI Translator, which generates the DRP and AI-MAC executables (Figure 3).

Renesas Figure 3: AI models are trained using any ONNX compatible framework. The ONNX model is then fed into the DRP-AI Translator, which generates the DRP and AI-MAC executables. (Image source: Renesas Electronics Corporation)

The DRP-AI Translator has three primary purposes:

Scheduling of each operation to process the AI model.2. Hiding overhead such as memory access time that occurs during each operation's transition in the schedule.3. Optimizing the network graph structure.

The Translator automatically allocates each process of the AI model to the AI-MAC and DRP, thus allowing the user to easily use DRP-AI without being a hardware expert. Instead, the developer can make calls through the supplied driver to run the high-performance AI model. In addition, the DRP-AI translator can continuously update to support newly developed AI models without hardware changes.

系统用例和流程

使用 RZ/V2L MPU 训练和部署视觉识别应用的一般流程如图 4 所示。像往常一样，工程师可以获取他们的数据集并使用它来训练他们的视觉识别模型。无论他们是试图识别猫、购物车中的产品还是装配线上出现故障的零件，训练过程都将使用熟悉的 AI 框架进行。训练模型后，将其转换为 ONNX 格式并馈送到 DRP-AI 转换器，后者又输出可在 DRP-AI 硬件上执行的目标代码。然后，对来自摄像头、加速度计或其他传感器的数据进行采样并馈送到可执行文件中，从而提供运行推理的结果。

Renesas 图 4：在 RZ/V2L MPU 上训练和运行视觉识别算法的过程。（图片来源：瑞萨电子株式会社）

工程师可以通过多种方式在设计中利用 RZ/V2L MPU（图 5）。首先，RZ/V2L MPU 可用于独立设计，其中 RZ/V2L 是系统中唯一的处理器。凭借其三个内核和AI加速硬件，可能不需要额外的计算能力。

第二个用例是RZ/V2L在更广泛的系统中用作AI处理器。在此用例中，RZ/V2L 运行 AI 推理并将结果返回给另一个处理器或系统，然后由该处理器或系统对该结果进行操作。选择的用例将取决于各种因素，例如成本、整体系统架构、性能和实时响应要求。

！[瑞萨电子RZ/V2L MPU的两个用例示意图]（//file.elecfans.com/web2/M00/77/AB/poYBAGNkz22AKy4aAABBuflzq2w981.jpg“瑞萨电子RZ/V2L MPU的两个用例”）图 5：RZ/V2L MPU的两个用例是在应用中独立使用它们，或者作为在更广泛的系统中使用的 AI 处理器使用。（图片来源：瑞萨电子株式会社）

实际应用示例

有许多用例可以部署视觉识别技术。一个有趣的例子是在超市。今天，在杂货店结账时，员工或购物者通常会扫描购物车中的每件商品。一个有趣的用例是使用视觉识别检测穿过传送带的产品并自动收费。

可以使用简单的CMOS相机和瑞萨电子的[RTK9754L23S01000BE]（https://www.digikey.com/en/products/detail/renesas-electronics-america-inc/RTK9754L23S01000BE/16187521）评估板构建原型（图6）。RZ/V2L 嵌入式开发板具有模块系统（SOM）和载板，使开发人员能够快速启动和运行。此外，该开发板还支持Linux以及DRP-AI转换器等各种工具。

！[瑞萨电子RZ/V2L嵌入式开发板图像]（https://www.digikey.com/-/media/Images/Article%20Library/TechZone%20Articles/2022/September/Accelerate%20Vision%20Recognition%20System%20Design/article-2022september-accelerate-vision-recognition-system_fig6.jpg?la=en&ts=203d0787-6ae7-4716-8e1f-00dce15d82f9“Renesas RZ/V2L嵌入式开发板”）*图 6：RZ/V2L 嵌入式开发板具有 SOM和载板，使开发人员能够快速启动和运行。（图片来源：瑞萨电子株式会社）*

图 7 显示了获取图像数据和生成 AI 结果所需的操作概述。在本应用示例中，传送带的图像使用CMOS传感器通过板载ISP拍摄。接下来，将图像保存到内存中并输入DRP-AI引擎。最后，DRP-AI 引擎运行推理并提供 AI 结果。例如，结果可能是发现了香蕉、苹果或其他水果。

结果通常伴随着 0 到 1 的置信水平。例如，0.90 置信度表示 AI 确信它检测到了一个苹果。另一方面，0.52的置信度可能意味着人工智能认为它是一个苹果，但不确定。获取 AI 结果并在多个样本中平均以提高获得正确结果的机会的情况并不少见。

！[瑞萨电子RZ/V2L嵌入式开发板示意图]（file.elecfans.com/web2/M00/77/AB/poYBAGNkz2-ADWgeAABVKqnBB7g602.jpg“瑞萨电子RZ/V2L嵌入式开发板”）图 7：RZ/V2L 嵌入式开发板用于运行 AI 推理，以识别传送带上的各种水果。该图演示了获取图像并生成 AI 结果所需的步骤。（图片来源：瑞萨电子株式会社）

最后，在本例中，在检测到的对象周围绘制一个框，并显示识别对象的名称以及置信度（图 8）。

！[瑞萨电子RZ/V2L的输出示例]（https://www.digikey.com/-/media/Images/Article%20Library/TechZone%20Articles/2022/September/Accelerate%20Vision%20Recognition%20System%20Design/article-2022september-accelerate-vision-recognition-system_fig8.jpg?la=en&ts=06c253a5-b285-4dda-a005-be06d4026a2e“来自瑞萨电子RZ/V2L的输出”）*图 8：RZ/V2L 在检测传送带上的水果和蔬菜的应用中的示例输出。（图片来源：瑞萨电子株式会社）*

开始使用 RZ/V2L 的提示和技巧

希望在瑞萨电子RZ/V2L MPU上开始机器学习的开发人员会发现，他们有大量资源可以利用来启动和运行。以下是开发人员应牢记的几个"提示和技巧"，可以简化和加快他们的开发：

从开发板和现有示例开始，了解部署和运行应用程序的情况。*如果需要执行多个推理，请将可执行模型保存到外部存储器，并使用 DRP-AI 功能在模型之间快速切换。*查看瑞萨电子RZ/V嵌入式AI MPU网站上的文档和视频。*下载[DRP-AI 转换器]（https://www.renesas.com/us/en/products/microcontrollers-microprocessors/rz-arm-based-high-end-32-64-bit-mpus/drp-ai-translator）。*下载 RZ/V2L[DRP-AI 支持包]（https://www.renesas.com/us/en/products/microcontrollers-microprocessors/rz-arm-based-high-end-32-64-bit-mpus/rzv2l-drp-ai-support-package）。

遵循这些"提示和技巧"的开发人员在开始时将节省相当多的时间和悲伤。

结论

ML 和 AI 正在进入许多边缘应用，实时识别对象的能力变得越来越重要。对于设计人员来说，困难在于找到合适的架构来在边缘执行 AI/ML。GPU 往往耗电，而 MCU 可能没有足够的计算能力。

如图所示，采用DRP-AI的瑞萨电子RZ/V MPU系列具有硬件加速AI等多个优势，以及大量的工具链和原型设计支持。

打开APP阅读更多精彩内容