开源硬件边缘语音识别

消耗积分:2 | 格式:zip | 大小:2.23 MB | 2022-11-14

李娓仑

分享资料个

描述

介绍

在这个项目中，我围绕一个训练识别单词left 、right 、up和down的模型构建了一个应用程序。它所做的只是捕获和处理音频，将其输入 TensorFlow Lite 模型，然后在 OLED 显示器上显示输出。我将介绍如何使用 i.MXR1010 评估套件在边缘设置和进行机器学习。

设置开发环境

任何机器学习和嵌入式电子项目都需要许多硬件和软件才能使用。我正在使用 MacOS 进行开发。由于 Nvidia GPU 不支持 MacOS，所以我使用 Linux 桌面进行训练和模型生成。

安装 MCUExpresso IDE

下载 SDK 后，我们需要将下载的包拖放到 MCUExpresso IDE Installed SDKs区域，如下所示（红色框）。

我们可以从 Quickstart Panel > New Project 创建一个新项目，它会显示一个向导，我们可以在其中选择 IMXRT1010 作为开发板。我们可以使用此向导配置所需的驱动程序/组件，如下所示。添加/删除驱动程序和其他组件可以在此期间完成。发展。由于我们将使用 TensorFlow C++ 库，所以我选择了C++ Project 。

为微控制器安装 TensorFlow Lite

用于微控制器的 TensorFlow Lite 能够生成包含所有必要源文件的独立项目。我的 MCUXpresso IDE 工作区位于 ~/Documents/MCUXpressoIDE_11.1.0/workspace/。您可能需要根据您的目录结构更改路径。我们还需要制作3.82 或更高版本。MacOS Catalina 上捆绑的make版本为 3.81。我们可以使用安装所需的版本

brew install make

并且可以使用gmake命令运行它。

cd ~

git clone https://github.com/tensorflow/tensorflow.git

cd tensorflow

gmake -f tensorflow/lite/micro/tools/make/Makefile generate_projects

cp -r tensorflow/lite/micro/tools/make/gen/osx_x86_64/prj/micro_speech/make/* ~/Documents/MCUXpressoIDE_11.1.0/workspace/IMXRT1010_Speech_Recognition/source

复制后，我们将拥有 TensorFlow C++ 库以及其他一些用于音频处理的第三方库。我们需要使用Quickstart Panel > Edit Project Settings > C/C++ build > Settings > MCU C++ Compiler > Includes为不属于 SDK 的库（在下面的屏幕截图中突出显示）设置包含路径。

应用程序将捕获的音频数据保存在运行时创建的缓冲区中，因此我们需要将默认堆大小（仅 2KB）调整为 14 KB。此外，一些缓冲区数据需要是不可缓存的。我们可以利用 i.MXRT1010 的FlexRAM功能。堆栈/堆大小和不可缓存数据可以使用Quickstart Panel > Edit Project Settings > C/C++ build > Settings > MCU C++ Linker > Managed Linker Script进行配置。

i.MXRT1010 具有有限的 128 KB 内存，分为 32 KB 库。由于内存溢出，编译失败。

section `.heap' will not fit in region `SRAM_DTC'
arm-none-eabi/bin/ld: region `SRAM_DTC' overflowed by 15920 bytes

Memory region  Used Size Region Size %age Used
BOARD_FLASH:   215432 B  16 MB       1.28%
SRAM_DTC:      48688 B   32 KB       148.58%
SRAM_ITC:      0 GB      32 KB       0.00%
SRAM_OC:       0 GB      32 KB       0.00%
NCACHE_REGION: 4748 B    32 KB       14.49%

多亏了FlexRAM ，我们可以使用下面的代码配置变量声明以选择内存库。__DATA(RAM3)用于告诉编译器将大约 16 KB 的变量g_audio_capture_buffer保存到 FlexRAM 的 OCRAM 部分 (SRAM_OC) 中。

__DATA(RAM3) int16_t g_audio_capture_buffer[kAudioCaptureBufferSize];

编译后，我们可以在下面看到内存分配的编译器输出。

Memory region  Used Size Region Size %age Used
BOARD_FLASH:   231432 B   16 MB      1.38%
SRAM_DTC:      32688 B    32 KB      99.76%
SRAM_ITC:      0 GB       32 KB      0.00%
SRAM_OC:       16000 B    32 KB      48.83%
NCACHE_REGION: 4748 B     32 KB      14.49%

训练数据集和模型生成

我们使用的模型是使用 TensorFlow Simple Audio Recognition 脚本训练的，这是一个示例脚本，旨在演示如何使用 TensorFlow 构建和训练音频识别模型。该模型在带有 eGPU（Nvidia 1080 Ti）的 Linux 桌面上进行了训练，其中包含“上”、“下”、“左”、“右”四个词。数据集中的其他词被用作“未知”。将创建的模型转换为 TensorFlow Lite 模型，并将转换后的模型转换为 C 数组文件，以便与推理代码一起部署。TensorFlow Lite Micro SDK 用于在设备上运行推理。卷积神经网络用于模型创建。

设备端推理

使用带有增强型直接内存访问 (eDMA) 控制器的同步音频接口 (SAI) 捕获音频。该过程首先为给定的时间片生成快速傅立叶变换 (FFT)，在本例中为 30 ms 的捕获音频数据。TensorFlow Lite 模型不接收原始音频样本数据。相反，它适用于频谱图，频谱图是由频率信息切片组成的二维数组，每个切片取自不同的时间窗口。我们可以将频谱图视为输入模型进行推理的图像数据。OLED 显示器通过 I2C 连接到 i.MXRT1010 EVK。The预测的单词显示在 OLED 显示屏上。

构建和调试

可以分别使用 MCUExpresso IDE Quickstart Panel > Build和Quickstart Panel > Debug来构建和调试项目。使用菜单ConfigTools > Pins将 UART 引脚配置为在调试期间重定向打印。

在 MacOS 上可以使用以下命令查看调试打印：

screen /dev/cu.usbmodem14202 115200

板载 LED 也配置为在推理时闪烁。

演示视频

现场演示如下。它并不完美，但有效。

改进范围

如果使用 8 位量化模型，可以提高推理率。目前，TensorFlow Lite Micro SDK 中缺少一些操作，这些操作不允许将 Conv 2D 转换为量化版本。目前，由于音频数据中的口音或噪音，有时会漏掉一些单词。如果使用迁移学习使用更多自己的语音数据进行训练，则可以提高模型的准确性。此外，板载麦克风数据有一些噪音，可以使用某些设置进行修复，或者可以使用外部数字麦克风以获得更好的性能。

此应用程序的 MCUExpresso 项目可以在代码部分提到的 Github 存储库中找到。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

瑞芯微RK3572开发板-产品资料更新-2026.06
2026-06-24 4次下载

下载
矩形科技 CANopen 远程IO模块产品手册
2026-06-26 2次下载

下载
OC5721欧创芯开关降压型LED恒流驱动器
2026-07-03 2次下载

下载
高性能非隔离交直流转换芯片 PC9403A数据手册
2026-07-02 2次下载

下载
四键电容式触摸按键IC FZH34产品手册
2026-06-23 2次下载

下载
赛思画册2026
2026-06-23 1次下载

下载

开源硬件边缘语音识别

描述

介绍

设置开发环境

训练数据集和模型生成

设备端推理

构建和调试

演示视频

改进范围

Helping Finger开源硬件

颜色循环开源硬件

Ada SensorTile开源硬件

Meeseeks盒子开源硬件

开源硬件-警灯

AirBits开源硬件

园艺助手开源硬件

闪烁的LED开源硬件

串联电路开源硬件

喂机器开源硬件

智能积木开源硬件

CAM输出开源硬件

智能插头开源硬件

可识别额外乘客设备的开源硬件

音箱开源硬件分享

灯光提醒开源硬件

聪明的LED开源硬件

HBus开源硬件

Skype手机开源硬件

监控门铃开源硬件

门铃开源硬件

电子英雄开源硬件

开源硬件之语音控制LED

Arduino手表开源硬件

SNAP板开源硬件

机械臂开源硬件

小字时钟开源硬件

开源硬件智能镜子

基于Arduino硬件光控灯制作资料

主流的开源硬件有哪些详细资料说明

200+开发板免费申领 | 华秋杯AI开源硬件大赛正式启动，参赛瓜分万元大奖！

低成本AI边缘计算盒子DIY：基于迅为RK3568和开源模型，轻松玩转智能识别

基于开源鸿蒙的语音识别及语音合成应用开发样例

共谱开源华章 | 匠芯创荣获“开源生态战略合作伙伴”奖

RT-Thread睿赛德出席中国工博会科技论坛，共话开源硬件与新工业革命

Banana Pi BPI-M4 Berry 开源硬件开发板以太网口和WiFi测试

边缘计算平台开源框架有哪些类型

Banana Pi BPI-W3 开源硬件开发板应用特点

快速上手Banana Pi BPI-M4 Zero 全志科技H618开源硬件开发开发板

最新国产化开源硬件干货，尽在这场电子工程师大会！

Banana Pi BPI-M6开源硬件开发板介绍以及与 Raspberry Pi 5 的比较

Banana Pi 开源硬件基于ESP32-S3开发的物联网开发板系列

语音识别技术：原理、应用与未来

两轮车能用的开源硬件？安信可小安派-SCP-4.3来啦

安信可开源硬件：小安派-Knob

如何使用开源硬件及Mind+图形化编程制作灯光画

用小安派开源硬件制作一个桌面天气站

【开源硬件大赛】基于V853的多功能串口服务器——成品成果展示

香蕉派(Banana Pi)开源社区介绍

开源硬件能否与 Linux 的成功相匹敌

寻找开源硬件成功的触发器

【开源汇总】精选开源硬件设计项目汇总

报名OpenHarmony开源硬件分享会，抢3999华为MatePad Pro！

OpenHarmony开源硬件分享会,看直播抢3799华为 MatePad Pro等精美礼品

RT-Thread 团队推出了ART-Pi 极具扩展性的 DIY 开源硬件

英伟达最新推出部署边缘设备的语音识别技术

语音识别芯片的原理_语音识别芯片有哪些

谷歌研发语音识别转文字工具Live Transcribe

关于开源硬件的性能分析和应用

谷歌Live Transcribe语音识别技术可转文字

下载排行榜

瑞芯微RK3572开发板-产品资料更新-2026.06

矩形科技 CANopen 远程IO模块产品手册

OC5721欧创芯开关降压型LED恒流驱动器

高性能非隔离交直流转换芯片 PC9403A数据手册

四键电容式触摸按键IC FZH34产品手册

赛思画册2026