瑞萨嵌入式AI技术漫谈 · AIoT的语音和视觉应用及瑞萨解决方案

RA生态工作室 2026-06-16 861

描述

书接上文：

瑞萨嵌入式AI技术漫谈 · 让终端具备智能

瑞萨嵌入式AI技术漫谈 · AIoT发展趋势与瑞萨电子的AIoT产品体系一览

AIoT的三大核心应用方向

语音（Voice）

语音是人类最自然、最直观的沟通方式。语音用户界面（VUI）让人们能够用自然语言直接与设备交互，从而降低学习门槛，让整体体验变得更加顺畅便捷。通过语音控制恒温器、照明、家电等各类智能设备，使系统操作更轻松，也更具吸引力。然而，即便VUI技术已有长足进展，其开发仍面临准确性、鲁棒性、隐私保护、多语言支持等挑战。

若这些问题处理不当，原本友好的用户体验很容易转变为令人挫败的使用感受。为了打造适用于全球市场的系统，多语言与不同口音的适配更是必不可少，而这往往意味着庞大的前期准备工作，包括面向多语言和语音特征的数据采集、训练、评估与反复优化——整个过程耗时且复杂，常常伴随大量开发压力。

此外，由于语音数据高度敏感，必须具备严格的隐私和安全机制。理想的方案，是一种具备成本效益、支持去中心化、可运行在嵌入式终端设备上的语音系统。

瑞萨电子为VUI提供了完整的一体化解决方案，使开发者能够快速将自有VUI集成到实际应用中。其开发环境已经处理了语音开发中最繁琐的部分，并通过易用的嵌入式硬件平台，让开发者无需具备大量编码经验或专门的语音算法团队即可完成系统搭建。该平台基于小型通用MCU，可作为独立的语音控制解决方案使用。

在软件层面，套件中提供了Cyberon的DSpotter可视化建模工具，为开发者带来简洁高效的GUI开发体验。

Cyberon DSpotter

https://www.renesas.com/en/products/microcontrollers-microprocessors/ra-cortex-m-mcus/ra-partners/cyberon-dspotter

在硬件层面，瑞萨也为用户专门准备了相关的开发板，开发板覆盖RAMCU家族、RX671以及RX72N等系列，开发者可以根据自身所需选择适合的开发板进行开发体验：RX72N、RA6E1、RA4E1、RA2L1、R9A06G150、RX671、RA8M1。

瑞萨微控制器与微处理器（MCU，MPU）

https://www.renesas.com/en/products/microcontrollers-microprocessors

通过加入该工具，用户能够轻松构建终端语音命令识别（VCR）或自然语言理解（NLU）系统。工具内置覆盖44种以上语言的预训练模型，大幅减少数据采集和模型训练工作量。开发者只需输入文本即可生成自定义指令，并可离线调优与性能测试。

此外，瑞萨电子还提供一系列增强功能与参考用例，例如语音防伪（防录音攻击）、音频前端处理（AFE）、噪声抑制、波束形成以及说话人识别等。借助这些特性，VCR或NLU系统可进一步提升安全性、抗噪性能、个性化能力，并更好地保护用户隐私。这些增强特性不仅扩展了VUI的使用场景，也显著提高了系统在现实环境中的实用价值。

瑞萨电子官方网站还提供了丰富的技术资源，包括完整文档、网络研讨会、教学视频以及实操培训课程，帮助开发者快速掌握VUI的构建方法并顺利推进项目开发。

本节所述工具与示例，可在瑞萨电子官网瑞萨电子语音解决方案页面中获取完整资料。

瑞萨电子语音解决方案

https://www.renesas.com/key-technologies/artificial-intelligence/voice

如果你计划在产品中引入端侧语音交互，瑞萨提供完整的MCU+工具链方案，支持快速构建离线语音命令系统，若你希望进行实际评估，可联系瑞萨电子销售或者代理商获取支持。

视觉（Vision）

基于摄像头的视觉系统让机器能够从图像和视频中提取、解读并理解视觉信息。作为人工智能的重要分支，计算机视觉致力于通过各种算法与技术，对视觉数据进行分析、处理并提取有意义的特征。凭借这些能力，视觉系统推动了众多技术创新的发展，包括图像分割、目标检测、面部识别、边缘检测、模式识别、图像分类以及特征匹配等应用，广泛服务于制造业、医疗健康、交通运输、智慧城市与基础设施、楼宇自动化以及日常生活场景。

然而，视觉系统的发展仍面临多项关键挑战，例如可扩展性与处理效率、数据的可获得性以及模型质量与鲁棒性的保障。最为重要的是，如何从开发之初便妥善应对这些问题，以避免准备大量数据、评估与训练模型所带来的沉重负担。

同时，在嵌入式设备上部署视觉AI也提出了额外要求，开发者必须考虑资源受限环境下的计算性能、内存占用以及功耗管理等因素。

尽管挑战重重，这些问题都可以通过合适的方法逐步解决，包括降低早期开发成本、缩短从设计到部署的周期，并加速产品上市时间。面对这些复杂性，开发者究竟应该从何入手，又该如何高效地推进视觉AI的实现呢？

开始入门：硬件选择

对于AI/ML系统而言，硬件的选择至关重要。设计人员需要能够灵活扩展的硬件平台，以满足不同应用在处理能力、内存容量、连接方式、尺寸限制以及功耗方面的需求。因此，基于项目目标评估现成的嵌入式系统、开发板或定制硬件解决方案，是推进设计并最终实现产品目标的必要步骤。

瑞萨电子提供了丰富而全面的产品组合，其中包含多款具备可扩展性的MCU和MPU产品家族，同时还配套提供参考硬件、应用示例、预训练模型、SDK以及AI Navigator等开发工具，帮助开发者加速视觉类AI应用的评估与开发过程。

在众多瑞萨电子器件中，许多产品都支持多路摄像头接口，配备专用的2D/3D图形处理单元、高性能ISP（支持4K/30fps图像处理）、DRP与DRP-AI（DRP-AI3）动态可重构AI加速器，以及先进的电源管理系统。

图6展示了不同产品系列在视觉方案、系统复杂度与多模态能力方面的定位。

图6 满足视觉系统性能与复杂度需求的MCU/MPU

AI Navigator——AI 导航器：AI 应用的集成开发环境解决方案工具包| 瑞萨电子

https://www.renesas.cn/zh/software-tool/ai-navigator-ide-ai-applications

在MCU领域，RA8系列采用ArmCortex-M85内核（基于Armv8.1-M架构），并集成Helium向量处理器，可显著提升ML与信号处理（DSP）性能，在480MHz下可达到3000+Core Mark，带来强劲的端侧推理能力。

而在高性能MPU方面，RZ/V2H提供面向高端视觉计算的平台，包括四核Cortex-A55（1.8GHz）、双核Cortex-R8（800MHz）、单核Cortex-M33（200MHz），并集成DRP-AI3与DRP，可支持稀疏化、剪枝等先进模型优化技术，同时具备低功耗与顶级散热表现，其能效可达到10TOPS/W，适用于要求苛刻的视觉AI场景。

有关这些芯片及其AI加速能力的更多信息，可参考RA8D1、RZ/V系列或瑞萨电子DRP-AI。

RA8D1

https://www.renesas.com/en/products/ra8d1

RZ/V系列

https://www.renesas.com/en/products/microcontrollers-microprocessors/rz-mpus/rzv-embedded-ai-mpus

瑞萨DRP-AI

https://www.renesas.com/en/software-tool/ai-accelerator-drp-ai

在MCU端的视觉开发方面，RA8 AI开发套件与RA8D1评估板均集成了Flexible Software Package（FSP）与e²studio嵌入式开发环境，为开发者提供便捷的软件整合体验。

此外，瑞萨电子生态合作伙伴还提供了多类视觉应用示例，例如驾驶员状态识别、基于摄像头的二维码扫描、防伪人脸识别的门禁系统等。更多案例可参阅RA AI合作伙伴。

Flexible Software Package（FSP）

https://www.renesas.cn/zh/software-tool/ra-flexible-software-package-fsp

e²studio

https://www.renesas.cn/zh/software-tool/e2-studio

RA AI合作伙伴——瑞萨RA合作伙伴生态系统解决方案

https://www.renesas.com/en/products/microcontrollers-microprocessors/ra-cortex-m-mcus/ra-partners?partners-solution-filter=artificial-intelligence-%28ai%29

在MPU端的视觉开发方面，瑞萨电子提供了多层次的工具链与应用示例，使不同经验水平的开发者都能够顺利开展AI视觉设计工作。RZ/V2H评估套件支持标准软件包，能够实现低功耗AI推理与视频流处理，同时还可选配图像信号处理器（ISP）、3D图形引擎以及可信安全IP，并配套提供RZ/V2H AI SDK作为AI应用开发环境。RZ/V2H EVK则提供了更多资料，包括完整文档、教学视频等内容，帮助开发者快速上手。

RZ/V2H EVK

https://www.renesas.com/en/design-resources/boards-kits/rz-v2h-evk

DRP‑AI TVM基于Edgecortix的MERA编译框架，能够将训练好的AI模型转换为适用于RZ/V系列设备的运行文件，并在CPU与DRP‑AI3之间实现任务的合理划分，以获得高度优化的推理执行效率。与此同时，DRP‑AI Translator可将AI模型转换为完全在DRP‑AI上运行的库文件，便于构建轻量化、低延迟的纯端侧推理系统。

SDK套件包含完整的镜像文件、编译器以及全部必要的运行库，支持Linux交叉编译，也允许在评估板上直接运行通过e²studio编译生成的应用程序，从而显著简化开发流程，加速视觉AI项目的实现。

AI Navigator是e²studio的一款插件，集成了迁移学习工具，可在现有AI模型基础上重新训练新的分类类别，并支持多项AI开发所需的关键功能，包括：

从瑞萨电子AI应用库（AI zoo）中选择AI应用示例，并下载对应的e²studio工程项目

使用迁移学习功能，基于自有数据集对支持的AI应用模型进行定制化训练

将AI模型转换为可执行文件；针对RZ/V系列，工具可通过TVM转换为可在DRP-AI上运行的推理代码

开发者可以根据自身的经验水平与项目阶段，从三种方式中选择合适的路径来使用瑞萨电子的工具完成视觉AI的开发。对于希望快速上手的用户，可以直接利用Application Zoo中提供的预训练模型，通过从50多个模型中挑选适合的模型，并配合AI SDK与RZ/V评估套件快速生成可执行文件，从而加速开发流程。

若需要基于自有数据对现有模型进行进一步定制，则可以采用“自带数据集”（BYOD）的方式，通过迁移学习工具在原有模型基础上加入新的分类类别；在这一流程中，DRP-AITVM将生成经过高度优化的运行时可执行文件，而AISDK会完成面向RZ/V评估套件的最终编译。

对于已经拥有自研模型并希望评估RZ/V性能的开发者，则可以选择“自带模型”（BYOM）方式，借助DRP-AITVM与AISDK直接生成运行时可执行文件。

图7展示了RZ/V平台在视觉AI开发中的完整工作流程与工具链布局。整个流程分为三个层次，从快速上手、数据驱动的再训练，到模型的优化部署，帮助开发者根据项目需求选择最合适的开发路径。

图7可选择RZ/VAI工作流程、工具及支持的模型类型

在Easy-to-start阶段，开发者可以通过Application Zoo中的预训练模型开展原型评估。借助RZ/V AI SDK和迁移学习工具，用户无需复杂准备即可基于现成模型进行快速适配，迅速验证方案的可行性。

在Easy-to-customize阶段，工具链支持开发者采用BYOD（Bring Your Own Data，自有数据）方式，用项目现场环境下的数据对模型进行再训练。通过AI Navigator和RZ/V迁移学习工具，预训练模型能够更好地学习实际场景的特征，从而显著提升最终部署时的准确度和稳定性。

对于需要高度差异化或已具备自研模型能力的团队，流程提供Easy-to-differentiate路径。开发者可以通过BYOM（Bring Your Own Model，自有模型）方式，将自研模型导入DRP-AITVM工具链进行高效量化、优化并部署到RZ/V芯片，使算法在低功耗条件下仍能获得卓越性能。

这一整套工具与流程覆盖了多种视觉AI场景需求。从基于房间占用状态的自动照明控制、安全区域识别、手势识别，到无接触电梯控制等，Application Zoo提供了大量可用的预训练模型，支持评估、测试与扩展，有助于开发者快速构建出适用于工业自动化、智慧楼宇、交通、零售、医疗等广泛应用领域的智能视觉系统。

RZ/V系列的人工智能应用

https://renesas-rz.github.io/rzv_ai_sdk/latest/applications

下期预告：AIoT的三大核心应用方向之实时分析

如果您希望就您的AI具体落地方式进一步与瑞萨电子的AI专家进行交流，请点击以下链接填写你的需求，我们将在收到您的需求之后，尽快与您沟通。

（AI电子书下载相关信息您可点击文末“阅读原文”或识别下方二维码或复制链接至浏览器中打开查阅）

AI电子书下载

https://www.ramcu.cn/resource/list/?aType=985

点击可查看大图

如果你正在评估某个嵌入式系统是否需要引入端侧AI，并希望就其具体落地方式与瑞萨电子的AI专家进一步交流沟通，请填写您的需求，我们将在收到您的需求后，尽快与您进行沟通。

打开APP阅读更多精彩内容