孟加拉语语音识别开源分享

消耗积分:0 | 格式:zip | 大小:0.04 MB | 2022-11-02

李志静

分享资料个

描述

本实验的目的：

在本实验中，我们分析了“Khule Dao”和“Bondho Koro”的真实音频信号。之后，我们开发了一种算法，可以自动识别测试数据。

研究趋势：

这里简要讨论最近关于孟加拉语语音识别的两项研究。

在语音识别方面，世界各地在各种语言中进行了大量的研究实验并取得了成果。但是，在孟加拉语中，该领域的早期研究人员取得了一定的成功，尽管近年来情况正在发生变化。本研究工作旨在开发一种基于神经网络的孟加拉语连接数字识别系统。首先，开发了一个由男性和女性说话者组成的孟加拉语数字语料库。语音以连接方式记录，单词通过自动分割提取。然后计算分割词的 MFCC 特征，并将这些特征值作为输入发送到反向传播神经网络 (BPNN)。BPNN 学习算法用于训练网络。训练网络所需的时间、隐藏层的数量、在训练网络以达到最佳识别精度时，会考虑错误阈值和时期数。这个提议的系统已经使用面向对象的编程实现了，所获得的识别精度非常令人满意和一致。该网络已经针对三种不同的设置进行了测试，数字数据集的最佳识别准确率为 98.46%。[1]

语音识别是一种生物识别技术，用于识别特定的个人语音。特定语音的语音波构成了说话人识别的基础。我们可以在电话银行、电话购物、访问数据库信息和语音邮件等多个应用领域使用语音识别。语音识别的强大应用之一是出于安全目的，一个人可以输入他/她的语音进行身份验证。每种类型的声音都有其独特的特征，称为特征，从单个声音中提取这些特征的过程称为特征提取。将提取的语音特征与数据库中已保存的语音进行比较以进行匹配。[2]

提取技术：

audioread、num2str、strcat、fft、abs、最大值、长度。

建议功能：

1.我们的技术特点是基于快速傅立叶变换（fft）的简单语音识别系统。

2.首先使用MATLAB的audioread函数分析音频信号

对于 I = 1:116

s1 ='Z:\EEE 309\Open_Ended\Train_Data\Train_Open\OP-';

s2 = num2str(i);

s3 = '.mp3';

文件1 = strcat（s1，s2，s3）；

如果存在 (file1, 'file') == [y, t] = audioread(file1);

3. 然后对所有循环中的所有信号的给定输入数据应用 fft

NFFT=长度（y）；% 找到 y 的长度

x=fft(y, NFFT);

4.使用max函数求最大幅度

x1=abs(x);

F=((0:1/NFFT:1-1/NFFT)*Fs);

max_amp=max(x1);

5.使用find函数找到最大幅度的对应频率

b=find(x1==max_amp(1));

F_KD_max(i)=F(b(1));

6. “Khule Dao”和“Bondho Koro”的频率值相加并取平均值

7. if(F_KD_max(i)>50 && F_KD_max(i)<600)

c1 = c1 +1；

sum1=sum1+F_KD_max(i);

结尾

average_max_frequency_of_Khule_Dao=sum1/c1

8. 我们建议，如果测试数据的频率之差（绝对值）对应于最大幅度，并且“Khule Dao”的平均频率值小于测试数据的频率与“Bondho Koro”的平均频率之差，那么测试数据将被预测为“Khule Dao”，反之亦然“Bondho Koro”

Diff_khule_dao_max(i)= abs(F_max(i)-average_max_frequency_of_Khule_Dao);

Diff_bondo_koro_max(i)= abs(F_max(i)-average_max_frequency_of_bondo_koro);

if(Diff_bondo_koro_max(i) >= Diff_khule_dao_max(i))

disp('Khule 道')

No_of_khule_dao=No_of_khule_dao+1;

别的

disp('邦多科罗')

No_of_bondho_koro=No_of_bondho_koro+1;

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

人形机器人执行、感知系统技术及市场解析
2026-05-20 104次下载

下载
瑞芯微RK3588系列开发板-产品资料更新-2026.06
2026-06-08 5次下载

下载
OK3506-S12 Mini开发板产品资料-2025.10
2026-06-08 3次下载

下载
ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册
2026-06-10 3次下载

下载
FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V
2026-05-22 2次下载

下载
LZC9300A 高性能恒压恒流碳化硅驱动控制芯片
2026-06-06 2次下载

下载

孟加拉语语音识别开源分享

描述

本实验的目的：

建议功能：

广州唯创电子WTK6900HC语音识别芯片资料

语音识别发展 Python进行语音识别案例

Dexter独立语音助手开源分享

自定义神经网络对象识别开源分享

语音控制界面实验开源分享

开源硬件边缘语音识别

人脸识别开源分享（原理图+PCB+源码）

节能和语音可控的LED开源分享

WTK6900H-32N 小体积语音识别芯片 规格书

支持蓝牙+语音识别芯片 WTK6900H-24SS 规格书

LU-ASR01语音识别模块使用说明

语音识别芯片LD3320开发手册

NRK330X语音识别芯片离线语音唤醒模块资料说明书！

语音识别_ML-KWS-for-MCU_资料整理

单片机语音识别原理

NRK220X语音识别模块语音芯片语音ic数据资料

结合MFCC和特征的语音情感识别方法

基于短语的汉语维吾尔语机器翻译系统

基于性能影响因素分析的语音识别平台体系结构

NRK11系列语音识别芯片资料手册

NRK220X系列语音识别芯片数据手册

NRK330x语音识别芯片资料手册

FDD1800 20+5语数分层应对数据语音双增长资料下载

意图和语义槽填充联合识别模型设计方案

手语识别、翻译及生成研究综述

基于改进长短时记忆网络的儿童语音情感识别模型

一种融合条件随机场与规则的识别方法

智能语音识别分类垃圾桶的设计资料合集

AP7003语音识别芯片的介绍和在自动电梯语音控制系统中的应用说明

语音识别集成电路AP7003的介绍和在自动电梯语音控制系统中的应用说明

隆基携手合作伙伴助力孟加拉能源转型

语音识别IC分类,语音识别芯片的工作原理

晶科能源在孟加拉达卡成功举办飞虎3系列产品技术路演

震有科技中标孟加拉BTCL ICX核心网项目

基于开源鸿蒙的语音识别及语音合成应用开发样例

EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

优化方案：出口孟加拉415V转换为380V变压器，让电压稳定无忧

语音识别与自然语言处理的关系

语音识别技术的应用与发展

离线语音识别与在线语音识别有什么不一样？

基于python进行语音识别的实现方案

语音识别技术的应用及优化

音诺恒科技人脸识别开发套件

介绍语音识别芯片分类

一站式自动优化，思必驰&quot;千语千训&quot;系统高效迭代语音识别模型

语音识别芯片的分类及应用

给大家全面介绍一下孟加拉服务器机房

音诺恒科技人脸识别开发套件

超全语音识别技术概述！

中国光伏企业积极走出去，正泰新能源与孟加拉庄辰公合作

微软翻译器新增五种印度语言的实时翻译 印度语言支持总数达到10种

怎么实现语音识别_手机语音识别怎么设置

语音识别算法有哪些_语音识别特征提取方法

采用智能语音技术保护和传承闽南语

dfrobot语音识别控制板 介绍

语音识别芯片的原理_语音识别芯片有哪些

谷歌研发语音识别转文字工具Live Transcribe

搜狗的语音+唇语新技术让语音识别更加准确

LG推出全球首款支持阿拉伯语音识别的智能电视

谷歌Live Transcribe语音识别技术可转文字

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3588系列开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

WTK6900H-32N 小体积语音识别芯片规格书

一站式自动优化，思必驰"千语千训"系统高效迭代语音识别模型

微软翻译器新增五种印度语言的实时翻译印度语言支持总数达到10种

dfrobot语音识别控制板介绍