辛西娅·陈 (yc90)
李奕琨 (yl212)
我们使用微型嵌入式设备实现了一个嵌入式语音识别应用程序,该设备可以将一秒钟的语音作为输入并对语音进行分类。不同的声音由不同颜色的 LED 灯指示。我们训练了一个唤醒词检测 ML 模型,并在 Arduino Nano 33 BLE 上实现了它。
为了处理原始音频数据,嵌入式设备的特征提供者将原始音频数据转换为频谱图,频谱图是由频率信息切片组成的二维数组。二维张量的特征可以通过卷积神经网络 (CNN) 完美提取。
CNN 模型在称为语音命令数据集的数据集上进行了预训练。这包括 65, 000 个 30 个短单词的一秒长话语,在线众包。
1.输入数据收集
该组件从麦克风捕获原始音频数据。为了验证设备在不同情况下的功能,使用所有组成员的音频作为输入。
2.设置TF Lite解释器
在 Arduino IDE 中导入 micro_speech 示例。生成 C++ 代码并自动设置 TensorFlow Lite 环境。在进行测试时,解释器运行 TensorFlow Lite 模型,将输入频谱图转换为一组概率,并选择概率最高的一个作为输出。
3. 对董事会进行编程
将开发板连接到笔记本电脑并将代码上传到 Arduino 开发板。
4. 测试功能
使用设备上的 LED 对不同的音频类型进行分类(绿色:是,红色:否)。如果听到命令,命令响应者会使用设备的输出功能通知我们。然后我们用“是”和“否”测试了几次,板上的灯显示它有效。由于该模型仍然有点幼稚,因此要重复多次测试以确保其运行良好。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !