瑞萨电子RA8搭载强大的Arm CM85核为边缘AI应用提供支持(下)

描述

 

集成Helium的RA8 MCU支持什么?

Helium性能提升是通过处理宽128位矢量寄存器来实现的,这些寄存器可以通过一条指令保存多个数据元素 (SIMD)。在流水线执行阶段,可能会有多个指令重叠。Cortex-M85是一个双节拍CPU内核,可以在一个时钟周期内处理两个32位数据字,如图1所示。乘法累加操作需要从内存加载到向量寄存器,然后进行乘法累加,这可能会在从内存加载下一个数据的同时发生。加载和乘法的重叠使CPU的性能是同等标量处理器的两倍,而不会造成面积和功耗上的损失。

AI加速器

图1 CM85是一个双拍CPU

这意味着每个时钟周期可以处理两个32位字

Helium引入了150条新的标量和矢量指令,用于加速信号处理和机器学习,包括:

低开销分支扩展(LOBE),用于优化分支和环路操作

允许有条件地执行向量中每个通道的通道预测

用于读取和写入非连续内存位置的矢量收集-加载和分散存储指令,在实现循环缓冲区时很有用

DSP算法中使用的复数的算术运算,例如加法、乘法、旋转

DSP功能,例如用于FIR滤波器的循环缓冲器、用于FFT实现的位反转寻址、图像和视频处理中的格式转换

支持有限域算术、加密算法和纠错的多项式数学

支持音频/图像处理中使用的8、16和32位定点整数数据,以及用于信号处理的ML和半精度、单精度和双精度浮点数据

这些特性使支持Helium的MCU特别适合AI/ML和DSP类型的任务,而无需在系统中使用额外的DSP或硬件AI加速器,从而降低成本和功耗。

采用RA8M1 MCU的语音AI应用

瑞萨在一些AI/ML用例中成功展示了Helium的这种性能提升,与Cortex-M7 MCU相比,性能显着提升——在某些情况下超过3.6倍。其中一个应用是在RA8M1上运行的语音命令识别用例,它实现了深度神经网络(DNN),该网络经过数千种不同的声音进行训练,并支持40多种语言。此语音应用程序对简单的关键字识别进行了增强,并支持自然语言理解(NLU)的修改形式,该形式不仅依赖于命令单词或短语,而是寻找意图。这样就可以使用更自然的语言,而不必记住确切的关键词或短语。

语音实现利用了带有Helium的Cortex-M85内核上提供的SIMD指令。RA8M1具有大容量内存、支持音频采集,最重要的是,Cortex-M85内核和Helium实现了高性能和ML加速,因此非常适合此类语音AI解决方案。即使该解决方案在有和没有Helium的情况下初步实现也表明,与基于 Cortex-M7的MCU相比,提高了2倍以上的推理性能,如图2所示。

AI加速器

图2 RA8M1 MCU上的语音AI应用展示了CM85在有和没有 Helium的情况下比CM7的性能改进

很明显,采用Helium的RA8 MCU无需任何额外的硬件加速即可显著提高神经网络性能,从而为实现更简单的AI和机器学习用例提供了低成本、低功耗的选择。

 

RA8系列产品介绍

RA8系列目前已有3款产品量产,包含RA8M1、RA8D1 及RA8T1。

RA8M1

此产品是RA8系列主流通用型MCU,适用于工业自动化、家用电器、智能家居、消费品、楼宇/家居自动化和医疗/保健细分市场中的各种高性能和计算密集型应用场景。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。

AI加速器

RA8D1

此产品针对HMI应用,集成了高性能CM85内核和大内存,以及丰富的外设集,包括带并行RGB和MIPI-DSI接口的高分辨率TFT-LCD控制器、2D绘图引擎、16位摄像头接口和多个外部内存接口,经过优化可满足各种图形和视觉AI应用的需求。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。

AI加速器

RA8T1

此产品针对电机应用,不仅集成了高达2MB的大容量闪存、1MB SRAM(包括TCM)、PWM定时器、模拟功能、多种连接功能,还支持高级安全特性和安全功能。RA8T1产品组通过其高性能和丰富的集成功能,在用户系统上实现高级电机控制或附加功能。RA8T1产品组支持灵活配置软件包(FSP)和合作伙伴生态系统,以及电机控制评估套件、软件和工具。

AI加速器




审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分