集成Helium的RA8 MCU支持什么?
Helium性能提升是通过处理宽128位矢量寄存器来实现的,这些寄存器可以通过一条指令保存多个数据元素 (SIMD)。在流水线执行阶段,可能会有多个指令重叠。Cortex-M85是一个双节拍CPU内核,可以在一个时钟周期内处理两个32位数据字,如图1所示。乘法累加操作需要从内存加载到向量寄存器,然后进行乘法累加,这可能会在从内存加载下一个数据的同时发生。加载和乘法的重叠使CPU的性能是同等标量处理器的两倍,而不会造成面积和功耗上的损失。
图1 CM85是一个双拍CPU
这意味着每个时钟周期可以处理两个32位字
Helium引入了150条新的标量和矢量指令,用于加速信号处理和机器学习,包括:
低开销分支扩展(LOBE),用于优化分支和环路操作
允许有条件地执行向量中每个通道的通道预测
用于读取和写入非连续内存位置的矢量收集-加载和分散存储指令,在实现循环缓冲区时很有用
DSP算法中使用的复数的算术运算,例如加法、乘法、旋转
DSP功能,例如用于FIR滤波器的循环缓冲器、用于FFT实现的位反转寻址、图像和视频处理中的格式转换
支持有限域算术、加密算法和纠错的多项式数学
支持音频/图像处理中使用的8、16和32位定点整数数据,以及用于信号处理的ML和半精度、单精度和双精度浮点数据
这些特性使支持Helium的MCU特别适合AI/ML和DSP类型的任务,而无需在系统中使用额外的DSP或硬件AI加速器,从而降低成本和功耗。
采用RA8M1 MCU的语音AI应用
瑞萨在一些AI/ML用例中成功展示了Helium的这种性能提升,与Cortex-M7 MCU相比,性能显着提升——在某些情况下超过3.6倍。其中一个应用是在RA8M1上运行的语音命令识别用例,它实现了深度神经网络(DNN),该网络经过数千种不同的声音进行训练,并支持40多种语言。此语音应用程序对简单的关键字识别进行了增强,并支持自然语言理解(NLU)的修改形式,该形式不仅依赖于命令单词或短语,而是寻找意图。这样就可以使用更自然的语言,而不必记住确切的关键词或短语。
语音实现利用了带有Helium的Cortex-M85内核上提供的SIMD指令。RA8M1具有大容量内存、支持音频采集,最重要的是,Cortex-M85内核和Helium实现了高性能和ML加速,因此非常适合此类语音AI解决方案。即使该解决方案在有和没有Helium的情况下初步实现也表明,与基于 Cortex-M7的MCU相比,提高了2倍以上的推理性能,如图2所示。
图2 RA8M1 MCU上的语音AI应用展示了CM85在有和没有 Helium的情况下比CM7的性能改进
很明显,采用Helium的RA8 MCU无需任何额外的硬件加速即可显著提高神经网络性能,从而为实现更简单的AI和机器学习用例提供了低成本、低功耗的选择。
RA8系列产品介绍
RA8系列目前已有3款产品量产,包含RA8M1、RA8D1 及RA8T1。
RA8M1
此产品是RA8系列主流通用型MCU,适用于工业自动化、家用电器、智能家居、消费品、楼宇/家居自动化和医疗/保健细分市场中的各种高性能和计算密集型应用场景。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。
RA8D1
此产品针对HMI应用,集成了高性能CM85内核和大内存,以及丰富的外设集,包括带并行RGB和MIPI-DSI接口的高分辨率TFT-LCD控制器、2D绘图引擎、16位摄像头接口和多个外部内存接口,经过优化可满足各种图形和视觉AI应用的需求。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。
RA8T1
此产品针对电机应用,不仅集成了高达2MB的大容量闪存、1MB SRAM(包括TCM)、PWM定时器、模拟功能、多种连接功能,还支持高级安全特性和安全功能。RA8T1产品组通过其高性能和丰富的集成功能,在用户系统上实现高级电机控制或附加功能。RA8T1产品组支持灵活配置软件包(FSP)和合作伙伴生态系统,以及电机控制评估套件、软件和工具。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !