未来机器智能时代:如何让机器听懂世界

描述

 

语言承载了人类文化,人类需要通过语言学习知识和传递信息,这是人类区别于动物界最重要的特性之一。

因此,未来的机器智能时代,机器也必然需要通过语言实现与人类之间的交互,似乎最近的科幻片都已经暗示了这个问题。

现在的科幻就是未来的现实,因此,让机器听懂世界,这是未来机器智能时代的关键问题,也是人类一个更大的梦想,但是,我们距离人类的这个梦想还有多远呢?

01让机器听懂世界承载了人类千年梦想

首先明确一个概念,让机器听懂世界,这里面其实蕴含了多个历程,包括听懂人类语言,进而听懂动物叫声,甚至听懂自然声音,亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。

所有这些都是极其复杂的过程,因为我们人类实际上也没有达到这种能力,但是我们期望机器能够延伸人类的能力,从而实现人类的梦想。所以语音智能事实上承载的是几千年来人类的伟大梦想。

那么,如何才能让机器听懂人类语言呢?这需要解决三个核心关键问题:听见、听准和听懂,从技术角度来看,就是拾音、识别和理解三个关键技术环节。

拾音是最为基础的环节,必须保证让机器听得见声音,这部分主要是声学问题;

识别是将符合要求的声音转化成文字,这部分主要是语音识别的问题;

理解则是根据识别出来的文字,准确理解人类的指令甚或情感。

鉴于语音智能设备已经大量出现在我们生活场景之中,当前技术的核心关键就是声学问题和语义理解。

02近场语音是机器听懂人类的率先尝试

近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术,这项技术利用距离巧妙回避了真实场景下复杂的声学问题,可以理解为一种实验室理想环境下的语音交互技术。

近场语音识别从上世纪五十年代就开始研究,但是长期没有实质性进展,直到苹果在2010年推出Siri的应用,这才引起了全球的关注。到现在为止,近场语音交互技术已经比较成熟,平均识别率可以达到95%以上。

但是近场语音交互受到了真实场景的巨大制约,并没有展现出来语音交互可以解放双手的先进性,因此在很多场景中,事实上近场语音交互都是鸡肋一般的存在,并没有发挥出真正的威力。

直到远场语音交互技术的出现,成功解决了真实场景下的复杂声学问题以后,至少技术达到了用户认可的门槛,语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。

03远场语音将语音智能落地到真实场景

远场语音交互主要解决30厘米到5米范围内的语音交互问题,这个范围事实上就是人类之间沟通交流的最佳距离,距离太近容易触发自我保护意识,而距离太远则会增大交流难度。

注意语音交互并非只是语音问题,人类的交互其实是一个综合的过程,包括了表情、眼神、肢体动作等等一系列影响因素。

远场语音交互的历史是比较短暂的,这项技术以前长期没有实质性突破,直到2016年末,全球才真正开始重视这项技术,并且短短一年时间,引领全球市场都进入了激烈博弈的阶段。

远场语音交互的代表产品自然就是智能音箱,盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远,谷歌的Home剑走偏锋以技术做博弈,微软的Invoke则仍然坚持工程师定义产品的文化......

注意,这里还是特别强调智能音箱只是远场语音交互的突破口,并非什么语音的唯一入口,因为未来的机器智能时代,比如电视、冰箱、汽车都有可能成为重要入口。但是智能音箱又是非常重要的,因为不管产品形态怎样变化,其本质的核心其实还是智能音箱的技术架构。

04听懂世界还有哪些必须解决的问题?

若让机器听懂世界,远场语音交互技术也仅是个尝试而已,事实上远场语音技术本身也只是刚刚起步,即便5米以内,其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。

但是技术一直在迭代发展,特别是当技术落地场景以后,源源不断的真实数据和客户需求将带动技术更加快速的发展。

从技术层面来看,让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,很难一一枚举出来,但是若从应用场景来看,则相对比较简单,让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。

 

让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器。

因此,既不要抨击当前的人工智能技术,也不要盛赞现在的基础科技技术,保持一颗平静的心,正确给予科技界和产业界的支持才是对于未来最大的投资。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分