浅析语音识别技术的发展历程

崔灏然 2022-02-07 6396

电子说

1.4w人已加入

描述

　语音识别，通常称为自动语音识别，主要是将人类语音中的词汇内容转换为计算机可读的输入，也有可能是按键、二进制编码或者字符序列。但是，我们一般理解的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别，主要是识别和确认发出语音的人而非其中所包含的内容。

语音识别的目的就是让机器听懂人类口述的语言，包括了两方面的含义：一是逐字逐句听懂而不是转化成书面的语言文字；二是对口述语言中所包含的命令或请求加以领会，做出正确回应，而不仅仅只是拘泥于所有词汇的正确转换。

　　语音识别系统根据对输入语音的限制分类，可以将识别系统分为三类：

　　①特定人语音识别系统，仅考虑对于专人的话音进行识别。

　　②非特定人语音系统，识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习。

　　③多人的识别系统，通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

　　根据从说话的方式考虑，也可以将识别系统分为三类：

　　①孤立词语音识别系统，孤立词识别系统要求输入每个词后要停顿。

　　②连接词语音识别系统，连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现。

　　③连续语音识别系统，连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

在过去5-10年，随着技术快速迭代，语音识别市场在我国得到飞快发展，目前处于深度神经网络阶段。如今，语音识别主流厂商主要使用端到端的算法，在实验环境准确率可高达99%以上，为推动新基建发展，5G、人工智能、云计算等作为辅助核心基础设施的核心技术得到进一步加速发展，带动语音识别迎来迎来了更加广阔的发展空间，智能家居、智能音箱、智能车载和智能硬件等等都得到很好的广泛应用。

语音识别主要趋于远场化和融合化的方向发展，但在远场可靠性还有很多难点没有突破，比如多轮交互、多人噪杂等场景还有待突破，还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题，让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步，需要整个产业链的共同技术升级，包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看，仍然存在很多挑战，包括：

　　回声消除技术。由于喇叭非线性失真的存在，单纯依靠信号处理手段很难将回声消除干净，这也阻碍了语音交互系统的推广，现有的基于深度学习的回声消除技术都没有考虑相位信息，直接求取的是各个频带上的增益，能否利用深度学习将非线性失真进行拟合，同时结合信号处理手段可能是一个好的方向。

　　噪声下的语音识别仍有待突破。信号处理擅长处理线性问题，深度学习擅长处理非线性问题，而实际问题一定是线性和非线性的叠加，因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。

　　语音识别的目的是让机器可以理解人类，因此转换成文字并不是最终的目的，如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的LSTM已经考虑了语音的历史时刻信息，但语义理解需要更多的历史信息才能有帮助，因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。

　　让机器听懂人类语言，仅靠声音信息还不够，“声光电热力磁”这些物理传感手段，下一步必然都要融合在一起，只有这样机器才能感知世界的真实信息，这是机器能够学习人类知识的前提条件；而且，机器必然要超越人类的五官，能够看到人类看不到的世界，听到人类听不到的世界。

　　未来，相信在国家政策的强力扶持下，能够加速在垂直行业的渗透和布局，也相信在供应商和开发者共同努力下，语音识别技术能够更好地与其他语音交互技术及软件功能融合，为消费者提供更优质的体验。

　　文章整合自：旺龙ITLONG、eepw、个人图书馆

　　审核编辑：鄢孟繁

打开APP阅读更多精彩内容