未来机器智能时代：如何让机器听懂世界

HOPE开放创新平台 2017-12-08 5565

语言承载了人类文化，人类需要通过语言学习知识和传递信息，这是人类区别于动物界最重要的特性之一。

因此，未来的机器智能时代，机器也必然需要通过语言实现与人类之间的交互，似乎最近的科幻片都已经暗示了这个问题。

现在的科幻就是未来的现实，因此，让机器听懂世界，这是未来机器智能时代的关键问题，也是人类一个更大的梦想，但是，我们距离人类的这个梦想还有多远呢？

01让机器听懂世界承载了人类千年梦想

首先明确一个概念，让机器听懂世界，这里面其实蕴含了多个历程，包括听懂人类语言，进而听懂动物叫声，甚至听懂自然声音，亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。

所有这些都是极其复杂的过程，因为我们人类实际上也没有达到这种能力，但是我们期望机器能够延伸人类的能力，从而实现人类的梦想。所以语音智能事实上承载的是几千年来人类的伟大梦想。

那么，如何才能让机器听懂人类语言呢？这需要解决三个核心关键问题：听见、听准和听懂，从技术角度来看，就是拾音、识别和理解三个关键技术环节。

拾音是最为基础的环节，必须保证让机器听得见声音，这部分主要是声学问题；

识别是将符合要求的声音转化成文字，这部分主要是语音识别的问题；

理解则是根据识别出来的文字，准确理解人类的指令甚或情感。

鉴于语音智能设备已经大量出现在我们生活场景之中，当前技术的核心关键就是声学问题和语义理解。

近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术，这项技术利用距离巧妙回避了真实场景下复杂的声学问题，可以理解为一种实验室理想环境下的语音交互技术。

近场语音识别从上世纪五十年代就开始研究，但是长期没有实质性进展，直到苹果在2010年推出Siri的应用，这才引起了全球的关注。到现在为止，近场语音交互技术已经比较成熟，平均识别率可以达到95%以上。

但是近场语音交互受到了真实场景的巨大制约，并没有展现出来语音交互可以解放双手的先进性，因此在很多场景中，事实上近场语音交互都是鸡肋一般的存在，并没有发挥出真正的威力。

直到远场语音交互技术的出现，成功解决了真实场景下的复杂声学问题以后，至少技术达到了用户认可的门槛，语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。

远场语音交互主要解决30厘米到5米范围内的语音交互问题，这个范围事实上就是人类之间沟通交流的最佳距离，距离太近容易触发自我保护意识，而距离太远则会增大交流难度。

注意语音交互并非只是语音问题，人类的交互其实是一个综合的过程，包括了表情、眼神、肢体动作等等一系列影响因素。

远场语音交互的历史是比较短暂的，这项技术以前长期没有实质性突破，直到2016年末，全球才真正开始重视这项技术，并且短短一年时间，引领全球市场都进入了激烈博弈的阶段。

远场语音交互的代表产品自然就是智能音箱，盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远，谷歌的Home剑走偏锋以技术做博弈，微软的Invoke则仍然坚持工程师定义产品的文化......

注意，这里还是特别强调智能音箱只是远场语音交互的突破口，并非什么语音的唯一入口，因为未来的机器智能时代，比如电视、冰箱、汽车都有可能成为重要入口。但是智能音箱又是非常重要的，因为不管产品形态怎样变化，其本质的核心其实还是智能音箱的技术架构。

若让机器听懂世界，远场语音交互技术也仅是个尝试而已，事实上远场语音技术本身也只是刚刚起步，即便5米以内，其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。

但是技术一直在迭代发展，特别是当技术落地场景以后，源源不断的真实数据和客户需求将带动技术更加快速的发展。

从技术层面来看，让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识，很难一一枚举出来，但是若从应用场景来看，则相对比较简单，让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。

让机器听懂世界的技术正在全球快速的演化，相信不久的将来，我们肯定能看到更加智能的机器。

因此，既不要抨击当前的人工智能技术，也不要盛赞现在的基础科技技术，保持一颗平静的心，正确给予科技界和产业界的支持才是对于未来最大的投资。

打开APP阅读更多精彩内容