一文看懂智能家居语音系统

Simon观察 2023-02-07 3661

描述

电子发烧友网报道（文/黄山明）多种交互方式已经成为当下智能家居的一大特点，许多产品已经不再需要手动调整和控制，更常用的是语音唤醒及操控，这也是最符合人类所习惯的交互方式。有研究表明，人类大脑皮层每天处理的信息中心，声音信息占20%，是沟通最重要的纽带。

但想要让机器理解人声，就需要在前端把声音信号进行处理，转化为文字或代码的形式供机器理解，在机器生成语言之后，再用语言合成技术将这些信息转化为声波，从而使用人声来进行回应。

语音系统的发展

语音技术的发明最早可以追溯到半个世纪之前，1952年，贝尔实验室制作了一台高6英尺的自动数字识别机“Audrey”，能够识别数字0-9的发音，准确率达到90%以上。

不过这一系统主要基于简单的模板匹配方法识别个体说出的孤立数字，也导致作为模板的熟人说出的语音识别会更精准，而陌生人识别率会低一些。在此之后，连续语音识别系统开始出现，语音合成的参数合成法能够生成比较自然的语音。

到二十世纪八十年代中期，IBM创造了一台可以用语音控制的打字机“Tangora”，基于隐形马尔科夫链模型（HMM），在信号处理技术中加入了统计信息，可以让机器在听到第一个音节时，便能够预测单词。到了1984年，这一系统在5000个词汇量级上达到了95%的识别率。

时间来到2011年，微软研究院将DNN技术应用在大词汇量连续语音识别任务上，极大地降低了语音识别错误率。

2016年，微软团队已经将语音识别的词错率（WER）降低至了5.9%，这一数据已经相当于专业速录员速记同样一段话的水平。这标志着机器的语音识别准确率第一次达到人类水平，智能语音语言技术开始逐步落地。

到了这一阶段，端到端的语音识别开始被广泛应用，智能语音助手、智能音箱等多款应用智能语音识别的产品相继落地。发展到近期，语音识别的准确率进一步提升，且针对远场的语音识别和唤醒得到进一步发展，全双工语音交互开始出现。语音识别准确率已经达到98%以上，并且能根据实际应用痛点针对性强化。

从2011年第一款手机语音助手Siri伴随着iPhone 4S的亮相，让全球各大厂商纷纷入局，也标志着正式开启智能语音应用元年，到2017年下半年开始通过开放语音生态系统进行产业内合作，语音识别系统也开始向可穿戴、智能家居、车载等领域延伸。

据ReportLinker的预测：到2024年全球智能语音市场规模将达到215亿美元，其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。目前国内主要智能语音服务商如百度、科大讯飞、思必驰、乐言科技、声扬科技、竹间智能等。

智能家居语音系统

从整个智能家居语音系统来看，主要构成为语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控制模块等。

语音采集模块主要起到完成信号调理和信号采集的功能，通过将语音信号转换为语音脉冲序列，模块中主要包括声音与电信号的转换、信号调理和采样等信号处理过程。

其中采样位数与采样率对音频接口而言是最重要的两个指标，也是选择声音模块的重要标准。每增加一个采样位数相当于力度范围增加了6dB，采样位数越多则捕捉到的信号越精准。

而采样频率是指计算机每秒钟采集多少个声音样本，是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准。采样率越高，计算机摄取的图片越多，对于原始音频的还原也越加精确。

语音前级处理模块主要用于滤除干扰信号、提取语音特征矢量，并将提取的语音特征矢量量化为标准语音特征矢量。

而语音训练模块主要功能是将多次采集、提取到的语音特征标准矢量进行概率统计，避免语音受到人自身情绪、环境等因素引起的干扰。简而言之，这一模块是帮助进行语音校准，减少误差。

语音识别模块，顾名思义，主要通过将新采集到的语音特征矢量与语音模板库中的语音模型进行比较，然后再判断当前语音命令功能。而语音模板库中，主要存储训练后的最佳标准语音特征矢量。

其他如语音提示模块的主要功能为提示用户进行相关操作的进度，以及前往完成的情况；而输出控制模块便是针对智能语音识别的结果来输出相应的控制信号，比如开关、音量调节、温度大小等。

通过这些模块的加入，便能够让语音识别人机交互成为现实。并依照这个框架，语音识别技术已经开始有了长远的发展。

在近几年的研究中，端到端的语音识别仍然是ASR( Automatic Speech Recognition)研究的热点，同时基于Attention机制的识别系统已经成为语音技术研究的主流。此外，远场语音识别、模型结构、模型训练、跨语种或者多语种语音识别都成为了研究的热门选项。

小结

到今年，语音识别技术已经发展了71年，从最初只能识别特定单词，到慢慢实现理解人的语音、语义，并参与到智能家居等落地应用中来，为人们实现更好的生活体验。相比智能视觉只是针对人脸这一个变量而言，智能语音技术需要解决的是更复杂的语义、繁杂的环境、精准关键词的检测等来提升输入效率，而这些都需要时间来完成。

打开APP阅读更多精彩内容