红楼梦中,只有王熙凤足够独特的声音,才能让大观园众人“未见其人,先闻其声”。
如今,借助AI语音技术与算法,就算大观园里有人说英文,有人说德语,依然能“未见其人,先辨其声”。
这就是声纹识别,即根据待识别语音的声纹特征,识别该段语音对应的说话人。声纹指说话人的语音生物特征,理论上,同指纹一样,声纹具有专属独特性。目前,声纹特征也已应用于特定人合成与变声、特定人分离、特定人唤醒等具体的特定人应用场景。
声纹识别的核心难点在于系统的鲁棒性,即无论语音文本是什么内容、说话人用什么语言、语音信号的时间长短、声音录制和传输的信道方式、声音采集时的环境噪声干扰等都需要能准确识别说话人的身份。在实际场景落地中,如面对智能家居和智能机器人,说话人与智能设备交互时会有一定距离,这就属于远场声纹识别。与近场声纹识别相比,其信道比更低,且伴随有混响和噪声,识别难度更高。目前,许多成熟的算法使得上述声纹识别的准确率和鲁棒性得到了显著的提高。
曙光所建设的“全国一体化算力服务平台”,基于业内首个算网原生资源底座,为声纹识别技术提供大规模算力算法服务,通过一体化资源协同调度系统,智慧化、定制化地根据作业需求匹配计算资源与环境,可以点对点实现供需双方的顺畅对接。因声纹识别技术有良好的准确性、经济性和可扩展性,拥有广阔的发展空间,将有望大规模应用于金融安全、公共安全、社保生存认证、移动互联网安全、车联网安全等各个领域。
全部0条评论
快来发表一下你的评论吧 !