为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。釆用帧级语音特征代替传统统计特征以保留原始语音中的时序关系,通过引人注意力机制将传统遗忘门和输人门转换为注意力门,并根据自定义的深度策略计算得到深度注意力门,从而提高语音情感识别性能。实验结果表明,在 Fau aibo儿童情感数据语料库及婴儿哭声情感需求数据库上,该模型在召回率和F1分数上相比基于传统LSTM的识别模型分别提高了3.14%5.50%和184%、5.49%,在 CASIA中文情感数据库上,其相比基于传统LSTM和GRU的识别模型训练时间更短童语音情感识别率更高。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !