吱一声就知道你是谁,深度学习识别短片段说话人

Hf1h_BigDataDig 2019-07-30 3351

电子说

1.3w人已加入

UtterIdNet是一种新型的具有短语音片段识别能力的深度神经网络。该模型的灵感来自于两个成功且非常流行的深度神经网络架构：ResNet和DeepID3。据该模型背后的研究人员称，该模型采用了一种新的体系结构，通过在短语音片段中有效地增加信息的使用，使其适合于短片段说话人的识别。

语音识别

他们在VoxCeleb数据集上对UtterIdNet进行了训练和测试，这是说话人识别的最新基准，并证明UtterIdNet在短片段上的表现优于最先进的技术。对不同分段持续时间的评估显示，短分段的性能一致且稳定，对于2秒、1秒、特别是微秒的分段，与之前的模型相比有显著改进。

随着智能虚拟助手的不断发展，它们对增强语音识别算法的要求也越来越高。与传统的先进模型相比，该模型显示了更好的结果。虽然在完整的语音片段中表现出了微弱的优势，这也是研究人员打算在未来的工作中进行研究的，但是UtterIdNet在增强短片段语音识别方面有很大的潜力。

打开APP阅读更多精彩内容