声纹识别技术与智慧城市建设同步发展

电子工程师 2020-12-28 3137

电子说

1.3w人已加入

描述

摘要：随着科学技术的发展，身份识别的方式逐渐多样化，声纹识别技术凭借无需接触、识别成本低廉、声纹提取便捷等优点逐渐在智能安防领域展开应用，但声纹识别技术也面临着复杂环境影响识别准确性的问题。声纹识别技术应着力拓展应用领域，与公安实践、人机交互、平安校园等紧密结合，与智慧城市建设同步发展。

1、引言

近年来，以指纹、声纹、人脸、虹膜等生理特征为识别对象的生物识别技术发展迅速，在众多领域获得了应用。例如，智能手机运用指纹和人脸识别替代密钥，许多门禁系统也应用了人脸和指纹相结合的认证技术。这是因为指纹、声纹、人脸、虹膜等人体生理特征具有稳定性和唯一性，识别率高，是智慧城市建设中实现精准身份认证的重要手段。

然而移动互联网时代的到来，给生产和生活带来便利的同时，身份冒用等安全问题也层出不穷。针对此类虚拟性强、隐蔽性高、犯罪成本低、传播范围广的非接触式犯罪，能够实现远程身份识别的技术仅有人脸识别和声纹识别，而在电话场景等无法获取面部信息的情况下，仅有声纹技术能实现身份识别。相比而言，声纹识别技术识别方式简便、移动性好、安全性高，能够满足远程采集和识别的需求，这些特点是其它生物识别技术所不具备的。

目前，声纹识别技术渗透到越来越多的应用场景，诸如公安取证、刑侦破案、银行交易、身份证与信用卡的认证等，除此之外，基于人工智能的声纹识别技术还与其它高新技术融合，极大提升了识别的准确性。在新冠疫情爆发的形势下，全世界的人民都戴上了口罩，通过人脸识别进行身份认证的准确率极大降低，更多的行业和场景中需要超远场音视同步监控来解决实际问题。声纹识别技术可以无视口罩阻碍，无需接触便能完成身份认证，弥补了人脸识别身份认证的不足，与智能视频监控结合，解决现有智慧城市建设 “眼强耳弱”的问题，有效维护社会公共安全，带动国家智慧城市全面感知的智慧化建设。

2、声纹识别技术

2.1声纹识别技术的概念

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

1) 共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣

2) 嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度（明亮）、低纯度（沙哑）和中等纯度三个等级

3) 平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉

4) 音域特征：音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

声纹识别技术生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息。

从技术应用上可分为说话人辨认和说话人确认两种：

• 说话人辨认(Speaker Identification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；

• 说话人确认(Speaker Verification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

从待识别语音的文本内容，声纹识别可以分为文本无关、文本相关和文本提示三种。

2.2声纹识别技术的原理

智慧城市

图2-1 声纹识别框架

声纹识别通常分为声纹注册和声纹识别两个部分，如图2-1所示。在这两个阶段中，均是从候选说话人的音频提取声学特征，通常采用梅尔频率倒谱系数MFCC、感知线性预测系数PLP、滤波器组系数F-Bank等声学特征，然后通过映射模型将帧特征映射到表征说话人身份的段特征矢量（GMM-UBM、i-vector、d-vector、x-vector等），最后通过后处理对相似度打分做出判决。

声纹识别中最重要的两个模块是特征映射模型和模式判决模块。

图2-2 基于x-vector的说话人识别训练网络

特征映射模型的训练以目前主流的x-vector为例进行说明，如图2-2所示。将声学特征映射到更有区分能力的段级别说话人身份嵌入矢量x-vector，可以将不同时长的语音映射到固定维度的度量矢量上。为了得到非线性映射关系，在训练阶段，帧级别网络采用5层神经网络结构，前三层采用延时神经网络（TDNN），可以更好的结合前后帧上下文的联系，后两层采用全连接神经网络；段级别网络首先对帧级别的网络输出进行统计量池化操作，分别计算所有时间帧的均值μ：

智慧城市

（式2-1）

和标准差σ：

智慧城市

（式2-2）

并将之拼接，得到段级别的特征输入：

智慧城市

（式2-3）

段级别采用两层全连接网络，根据经验将第一层全连接网络的输出作为嵌入会得到更好的效果。

模式判决模块中，对神经网络嵌入进行长度规整、中心化、白化、LDA变换、PLDA打分等步骤后，根据打分结果进行判决。长度规整可以消除不同嵌入之间幅度差异，LDA变化后说话人在判别空间中满足类间距离变大、类间距离变小，PLDA可以补偿信道差异所产生的影响。在PLDA训练时，第i个说话人的第j段语音的嵌入特征可以表示成：

智慧城市（式2-4）

其中u是和说话人及信道无关的成分，F是说话人空间，G·wij+εij是说话人类内差异，属于干扰部分，则有

智慧城市

其中N[α,Β]表示均值为α，方差为Β的高斯分布。由于存在两个隐变量hi和wij，因此需要采用期望最大化（EM）算法求解。最后采用训练好的PLDA模型进行打分，计算两条语音的对数似然比进行判决：

智慧城市

（式2-8）

两条测试语音来自同一说话人的假设为Hs，来自不同说话人的假设为Hd，得分score越高，两条语音属于同一说话人的概率越大。

3、声纹识别技术的现状与挑战

声纹识别技术最早是在40年代末由贝尔实验室开发，主要用于军事情报领域。随着该项技术的逐步发展，60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术，从1967年到现在，美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博，政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。

随着60年代贝尔实验室提出了基于模式匹配和概率统计方差分析的说话人识别方法，声纹识别技术得到快速发展，从单模板模型发展到多模板模型，从模板模型发展到矢量量化模型、高斯混合模型、隐马尔可夫模型，再到人工智能神经网络等三个重要发展阶段。

第一阶段：基于模板匹配的的声纹识别技术，该方法通常要求比对双方的内容相同。同人脸识别一样，声纹识别也要先做注册，再做验证，注册时说的内容要和验证时是一样的，应用上有诸多限制。

第二阶段：基于高斯混合模型的声纹识别技术，该方法是基于统计学习理论的方法，采用大量数据为每个说话人训练模型，使用高斯混合模型验证已经与文本无关了。但该方法所需注册语音的时间比较长，而且声纹识别准确性会受到噪声、干扰等影响。

第三阶段：基于深度学习的声纹识别技术，该方法可以在大量样本中学习到高度抽象的说话人特征，并对噪声有很强的免疫力。

虽然近年来声纹识别技术发展迅速，并在许多领域得以应用，但实际应用中的复杂场景对声纹识别系统提出了巨大的挑战。

（1）噪音及混响

在实际环境中总是包含各种各样的噪音，比如空调风扇的声音、音乐声、开关门的声音等，这些噪音不仅在一定程度上淹没了语音信号中所蕴含的说话人信息，还使得声纹识别系统无法准确获取说话人的声纹特征。Mitchell McLaren提出了噪声对不同模型的声纹识别的性能存在影响，混响和噪声对各类模型和方法都有非常大的影响，这和人类似，嘈杂环境中确实很难分辨出某个人的声音。

（2）远场应用

在实际应用场景中，无接触式的声纹识别更需要远场的应用，但声音的传输随着距离的二次方反比例衰减，同时实际应用的复杂环境中有各种噪音的叠加影响，会严重影响目标声音的信噪比，对声纹识别的性能产生严重的影响。

（3）跨信道识别

在实际应用中，语音信号可通过各种不同录音设备进行获取，如手机、固定电话、录音笔、专业采集设备、VOIP等，不同的录音获取方式会导致语音信号传输信道的变化，使得语音信号发生频谱畸变，进而影响声纹特征，降低了声纹识别系统的识别性能。

（4）短语音

语音时长对声纹识别的性能有着直接的影响，短语音测试条件下，测试语音所包含的说话人信息不均衡，导致训练与识别的匹配性严重下降；此外，短语音条件下测试语音中的信息量太少，不足以提供充分的区分性信息，使得声纹识别的混淆度变大。

4、声纹识别直击智慧城市需求痛点

4.1声纹识别助力公安“净网行动”

当今社会，互联网、智能手机、智能软件大范围普及，涉及声纹鉴定与识别的相关语音案件也日益增多，遏制网络诈骗犯罪高趋势、切实维护人民群众的合法权益是中央政法委提出的重大要求。声纹识别技术在反电信诈骗上有着无可替代的地位，是公安应对新形势下声纹识别、鉴定以及布控需求的关键。公安领域声纹解决方案包含声纹采集设备、智能音频分析平台、云计算管理平台等，提供从声纹数据采集、存储分析到应用管理全方位一体化方案，可实现室内半开放复杂声场环境下的高保真语音及声纹采集、声纹识别、多语言语音转录。

智慧城市

图4-1 公检法解决方案架构图

智能音频分析平台由声纹数据库、声纹识别引擎、语音识别引擎及语音转录引擎组成，声纹数据库集声纹数据管理、清洗、比对于一身，是引擎实现声纹识别、语音识别与转录功能的基础，而高性能的声纹数据采集系统是获取高质量声纹数据的关键，对提高声纹识别的准确性有着举足轻重的作用。现有的声纹数据采集系统能实现自适应降噪，多通道采集及声源分离，在复杂场景下达到高保真拾音。

图4-2 声纹数据采集系统

云计算管理平台可灵活对接公安声纹实战平台、声纹鉴定平台、司法审讯平台等。声纹实战平台以声纹识别系统为核心，联合海量数据库，针对公安领域深度优化，提供声纹大数据检索核心功能，通过声纹比对，有效锁定嫌疑人员，在重点人员监控、反电信诈骗、案件侦破、身份核验等场景发挥重大作用。

图4-3 声纹实战平台

基于音素检索技术、声纹识别技术及关键词检索技术的声纹鉴定平台，是结合公共安全及司法鉴定领域身份鉴定业务需求，定制开发出的一套完整的软硬件一体的专业产品。利用人工智能技术和专业的数字化频谱，辅助声纹识别专家，快速比对检材和样本的声纹信息，实现对语音文件说话人的识别认定，为声纹的实时识别和快速鉴定提供了极为可靠的技术基础。

声纹识别技术能够为公安行业带来战法上的突破，助力科技强警，为案件侦破过程提供新的线索和证据，对于提高办案效率，优化办案方式，提高办案质量，提升案件侦破能力起到积极的推动作用，在维护国家安全、打击犯罪工作中具有非常重要的意义。

4.2声纹识别实现自然友好人机交互

随着人工智能技术的发展，基于人工智能技术的语音识别、声纹识别技术也取得了重大进展，人机交互正由传统的以机器为中心转向以人为中心的自然交互，自然语言交互必定是实现自然交互的关键突破口。从信息文明走向智能文明，机器需要更好的适应人类的自然语言体系来完成指令。声纹识别技术能够提取每个人独一无二的声音特征，为人机交互注入智能属性，实现“闻声识人”，机器不仅能识别多人身份信息，更能从中准确分辨出管理员身份。

在实际使用场景中，多个声源和环境干扰声相叠加，而声纹识别技术能在复杂场景下增强机器听觉，让智能机器人准确识别“主人身份”，从而顺利完成一系列指令任务，大大提高机器安全性与隐私性。

图4-5 智能机器人解决方案

目前现有的机器听觉解决方案集远场麦克风阵列技术，深度神经网络技术于一体，可灵活对接第三方语音识别引擎，进行声源定位、噪声抑制、回声消除、声纹识别、语音唤醒等，实现复杂声学场景下自然友好的语音交互能力。保证机器在运动状态下也能准确聆听真实环境下的人声，在充满干扰声和多人同时说话的场景中，仍然能保持识别准确率，同时处理多人声纹身份识别的问题，过滤陌生人信息，识别出已录入系统的管理员声纹身份，精准快速响应“主人”的指令。用户可在不同场景下通过远场声纹识别，与机器进行自然语言交互，享受科技给生活带来的便利。

在未来全面智能化、万物互联的生活中，如何推进更自然、更智能、更人性化的人机交互，让人工智能更好的服务人类，将是声纹识别技术需要进一步努力的方向所在。

4.3声纹识别构建多维感知智慧城市

基于人工智能视觉技术和智能视频处理技术的企业近几年发展迅速，智能视频监控和视觉识别技术得到充分发展，智慧城市视频数据建设日趋成熟，但音频数据以及其他维度数据严重缺失，无法满足智慧城市多维感知、全息感知的需求。语音感知和声纹识别技术是智慧城市感知体系的重要组成部分，促进智慧城市建设从“眼强耳弱”转化为音视结合、全面互联、深入智能化的智慧城市发展新模式。

智慧城市机器听觉解决方案采用特殊设计的全向声学雷达、定向声学雷达，配合麦克风阵列与AI技术，与网络摄像机进行音视频时间联动，依靠声学雷达采集的高保真声音，通过声纹数据库秒级检索比对声纹信息，进行准确身份辨认，实现复杂场景下的“闻声识人”。整个方案能保证雷达在室外的各种环境噪声的干扰下也能360°精准聆听，准确获取说话人的清晰语音，不受远场声音传输衰减的影响。系统可以设置身份黑名单，当识别到黑名单上的声纹信息时，系统将在1s内告警，同时配合网络摄像头定位目标位置，为公安、司法等部门提供执法证据。

图4-6 智慧城市机器听觉解决方案架构图

声纹识别应与安防布控更紧密结合，为顶层业务应用提供更多有价值语音数据信息，实现全面感知、宽泛互联和智能融合的应用，形成以音视结合为支撑的新型城市形态。

5、结语

声纹识别技术作为科技前沿技术之一，在社会治安防控体系中进行应用，辅助打击违法犯罪，有利于智能安防行业的进步和发展，对智慧城市建设的稳步推进，以及社会公共安全的维护具有非常重要的意义。

目前，声纹识别技术应用仍处于起步阶段，其实际应用覆盖范围并不广，未来还需加速推广声纹实战应用，进一步扩大声纹在智慧城市中的布控范围，为声纹识别技术在公检法、平安城市、平安校园、智能机器人等领域的应用注入新动力，为保障社会公共安全做出更多贡献，提供更便捷、更安全的服务，协助创建多维感知、全面智能的智慧城市。

原文标题：声纹识别助力“全面感知”智慧城市建设

文章出处：【微信公众号：深圳微纳研究院】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

打开APP阅读更多精彩内容