如何在雅特力AT32 MCU上实现关键词语音识别（KWS）

雅特力 AT32 MCU 2024-01-06 312

描述

KWS概述

关键字定位（Keyword Spotting，KWS）技术，已成为可穿戴设备、物联网设备和其他智能终端的关键。诸如“Alexa”，“Hey Siri”或“Ok Google”等短语唤醒智能手机和家用电器上的语音激活功能，已经是语音交互设计产品的广泛需求。
对于KWS，实时响应和高精度才能获得良好的用户体验。最近，神经网络已成为KWS架构的一个有吸引力的选择，因为与传统的语音处理算法相比，它们具有更高的准确性。由于需要实时在线识别的要求，导致KWS应用在内存和计算能力有限的微型微控制器上运行会受到一定限制。KWS的神经网络架构设计必须考虑这些限制。于是，研究人员设计出由于传统CNN的深度可分离卷积神经网络（DS-CNN）架构技术。为了进一步介绍了DS-CNN架构，并展示了开发人员如何在MCU上实现DS-CNN KWS。2018年ARM和斯坦福大学进行了合作，并开源了预训练TensorFlow模型及其语音关键词识别代码，并将结果发表在论文Hello Edge: Keyword Spotting on Microcontrollers中。本文基于此开源模型和代码，在AT32 MCU上对KWS效果进行展示。

KWS实现原理

关键词识别KWS

一个典型的KWS系统由一个特征提取器和一个基于神经网络的分类器组成，如下图所示。首先，长度为L的输入语音信号被分成长度为l且步幅为s的重叠帧，总共有帧T帧。T=(L−l)/S+1从每一帧中提取F个语音特征，则长度为L的整个输入语音信号总共生成T×F个特征。Logmel filter bank energies (LFBE)和Mel-frequency cepstral coefficients (MFCC)常用于基于深度学习的语音识别，特别适用于传统语音处理技术。使用LFBE或MFCC进行特征提取涉及将时域语音信号转换为一组频域频谱信号，从而实现输入信号的维度压缩。提取的语音特征矩阵服务于输入分类器模块，该模块导出所输出分类的概率。在需要从连续音频流中识别关键字的实际场景中，利用后端处理模块可以在一段时间内平均每个输出类的输出概率，从而提高预测的整体置信度。图1. KWS数据管道语音识别

卷积神经网络CNN

基于DNN的KWS的一个主要缺点是它无法有效地对语音特征中的局部时间和频谱相关性进行建模。CNN是通过将输入时域和谱域特征视作图像，并对其进行二维卷积处理。卷积层之后通常是批量归一化、基于ReLU的激活函数和可选的最大/平均池化层，这些处理可以降低特征的维数。在推理过程中，批量归一化的参数可以折叠到卷积层的权重中。在某些情况下，为了减少参数和加速训练，在卷积层和密集层之间添加了一个线性低秩层，这是一个没有非线性激活的全连接层。

深度可分离卷积神经网络DS-CNN

深度可分离卷积神经网络（DS-CNN）。最近，深度可分离卷积已被提出作为标准3-D卷积操作的有效替代方案，并已用于在计算机视觉领域实现紧凑的网络架构。DS-CNN首先将输入特征图中的每个通道与一个单独的2-D滤波器进行卷积，然后使用逐点卷积（即1x1）在深度维度上组合输出。通过将标准的3-D卷积分解为2-D卷积，然后是1-D卷积，深度可分离卷积在参数数量和操作方面都更加高效，这使得即使在资源受限的微控制器设备中也可以实现更深、更宽的架构。

例 KWS实作

KWS测试平台

KWS系统需要使用到两个平台，即PC端和AT32 MCU端。PC端：利用TensorFlow与Python撰写完整的深度学习程序代码并训练模型，因本文件使用的学习模式为监督式的学习，需给系统大量的训练数据和Labels，接着将提取到的特征用以训练CNN模型，并反复修正训练的模型，直到模型为此系统优化的状态。AT32 MCU端：利用ARM提供的CMSIS-NN的函式库、DSP函数库和CNN函数库，结合PC端训练好的模型（该模型已下载待MCU）。对输入到MCU端的音频数据进行识别，实现对该语音数据可能的标签进行分类和预测。因此，对于既定模型的KWS识别，AT32 MCU端可实现完全离线识别，无需实时与PC通信或联网通信。本示例，AT32 MCU端智能识别的关键词列表如下"yes","no","up","down","left","right","on","off","stop","go";没有输入信号时，输出标签为"Silence";输入信号不在关键词列表时，输出标签为"Unknown"。注意：由于篇幅限制，本文只介绍AT32 MCU的实现流程，如下图阴影部分。图2. KWS实现流程语音识别

资源准备

1) 硬件环境:AT-START-F403A BOARD V1.xAT32-Audio-EV V2.x图3. KWS测试的硬件环境语音识别 2) 软件环境MDK V5.31或更新版本，使用ARM Compiler V6进行编译…\PACK\ArteryTek.AT32F403A_407_DFP.2.1.2.pack或更新版本…\PACK\ARM.CMSIS-DSP.1.11.0.pack或更新版本ML-KWS-for-MCU-master\Project\mdk_v5

软件设计

实验结果

在AT32-Audio-EV V2.x端LINE_IN输入语音信号后，AT Link虚拟串口会打印输出KWS识别的标签和概率。图4. 串口打印识别信息语音识别

打开APP阅读更多精彩内容