我们所说的“语音”是什么意思?一文读懂语音识别技术

音频技术

93人已加入

描述

基于语音的技术将对许多行业产生巨大影响,在短短两年内,预计50%的搜索将基于语音技术。

该项技术的普及率可能因用户的年龄、地理位置和读写能力而有所不同,但一些市场和平台已拥有很高的渗透率,而全球10%的搜索已经是基于语音的搜索。

在这一领域将会出现新的赢家和输家,而现有品牌将需要考虑到在收购过程中失去对消费者对话的控制的影响,这加大了在竞争中脱颖而出的难度。

然而,语音界面为各品牌提供了前所未有的机会,让它们能以一种极为强大的新方式与消费者进行互动,而目前来说,很少有品牌利用到了这一点。

当前广泛使用的功能在范围和用途上均受到限制。就开发创新的内容和体验,以及全新的服务来说,现下各品牌仍有机会。

那些能在此情景下崛起的品牌,在提升市场份额方面处于有利地位。此外,市面上有许多工具,让用户可以用最低限额的投资来轻松地进行语音实验。

我们的建议是尽快开始一项服务设计和声音试验的低投资计划,可能还要与市场推广活动相结合,以便让你的品牌充分利用这项技术所带来的机遇。

我们所说的“语音”是什么意思?

在本文的语境中,我们对“语音”的定义是自动化的语音服务。它涵盖了从交互式文字到实用工具内的所有信息,内置于定制的硬件设备,以及手机和云端应用内的各种应用,可通过品牌产品或人工智能行业内的几大公司的虚拟助手来进行访问。

很多关于基于语音的技术的宣传都围绕着智能音箱的普及(75%的美国家庭预计在2020年均拥有智能音箱),以及音响附带的“语音助手”。现在已有几个公司允许第三方直接整合旗下的智能助理,有点像智能手机上的应用。

此外,需要注意的是,不论是上文提及的还是其他语音助手也可以在其他硬件(通常是手机和平板电脑)上使用,人们可通过手机应用和深度操作系统集成来使用,但也可以通过定制硬件设备,甚至是网站来使用语音助手。

从许多方面来看,语音和机器人背后的技术都是一样的,但二者之间在生态系统和影响这两方面的差异足以使语音技术成为一个非常重要的领域。

语音简史

基于语音的交互界面已经存在了几十年,尽管它们最具影响力的方面一直是客户服务电话。大多数与语音相关的系统都遭遇了各种各样的问题,从语音识别到复杂的生态系统。

五年前,行业领先的语音识别技术的准确率仅为75%左右,机器学习技术、系统和硬件的最新发展,使得最好的语音识别系统的准确率提高到了95%到97%。

不断接近并跨过这一认知门槛成了当前语音产业繁荣的最大因素。人类识别口语词汇的准确率约95%,并能使用语境来纠正错误。对于大多数用户来说,任何具有较低识别准确率的自动化系统都会让他们失望,因此这在商业上并不可行。

机器学习在意图推导方面的相关发展(后文另作解释),这也是产业繁荣的一个巨大贡献因素。几年前,这一功能的商业系统已经跨过了类似的门槛,并推动了机器人产业的繁荣;语音其实就是无文字版本的机器人。

机器人本身也已经存在了几十年,但处理自然语言的能力,而不是简单地识别关键字,才带来了基于对话的互动,这反过来又推动了相关平台和服务近期的爆炸式增长。

在当前的语音技术领域,虚拟自动化助理的崛起首屈一指。尽管Siri(以及其他一些不太知名的语音助理)已经推出多年,但Alexa和谷歌助理的崛起预示着一种更广泛的平台方式。

这些新出炉的助手会在一系列设备上推广整个生态系统和功能,Alexa可以控制你的灯光,告诉你当天的会议是什么,并帮助你烹饪食谱上的菜品。

语音技术只是炒作吗?

当然不是。的确,人们对语音技术的大肆宣传,就像之前的3D打印和其他“改变我们生活方式的技术”的过度炒作一样,但通过语音界面与计算机进行互动的趋势将会持续下去。

除此之外,还有一系列极具说服力的统计数据,例如,超过20%的移动搜索已经是基于语音的搜索,并且,预计到2020年,这一比例将上升到50%。或许更有趣的是,这些统计数据背后有一些原因也许更值得我们去探讨。

在科技圈,人们经常说,未来初次上网的10亿人中的大部分,其受教育水平很低,还很可能是文盲,因为“不发达”国家的人们也开始接触互联网。对于这些群体来说,视频和声音或许是最重要的,而且声音可能是他们能接触到的唯一双向媒介。

此外,iPad效应还揭示出,即使是非常年幼的孩子,还握不住鼠标时也能与触摸屏互动,而语音交互甚至能更快、更直观与孩子互动(一旦有人可以说话),而且毫无疑问将成为几年内某些功能的主要交互方式。

此外,也值得考虑到这其中涉及到的风险和利益,尤其是谷歌和亚马逊这两家分别在广告收入和发掘新产品方面最强大的公司。亚马逊进军语音市场的举动,已经对谷歌的利润产生了明显的影响,因为它使得搜索业务走出了网页和谷歌广告的覆盖范围,这也解释了为什么谷歌要努力让旗下的谷歌助手取得成功。

为了自身利益,谷歌可以利用他们现有的25亿台Android设备。随着数字的不断增长,你可以理解,到2021年预计将会有75亿个已安装使用的语音助理。在某些方面,对隐私和安全的担忧会慢慢地被采纳,我们将在本文的后续部分对此进行探讨。

反对语音技术的一个常见言论是,对着设备大声说话,尤其是在公共场合会让人觉得怪异或者是尴尬(尤其是年龄大一点的人会这样觉得,我们指的是20岁以上的人)。

BBH公司的观点是,这些标准很快就会改变。例如,十年前,在大多数情况下,把手机放在餐桌上简直是天方夜谭,如今,这可能是一种专注的表现(取决于细微差别),或者在某些情况下,在吃饭时接听电话或写短信也是可以接受的。

应用场景

语音正在迅速为产品和服务的技术接触点的融合创造一个空间。从许多方面来看,这并不令人惊讶。使用我们的声音进行交流的速度是打字的3倍,而且说话比打字要容易得多。

尽管它带来了一种全新的社会规范,但这是一件很简单的事情,用户只要用30分钟就可以轻松地享受这个全新的界面。

在某些情况下,声音可以轻而易举地打败非语音输入方式,比如手是湿的或者两只手都空不出来,比如做饭和洗澡,或者眼睛只能专心干一件事时,比如驾驶,还有其他一些对于我们来说需要一定程度上使用我们的双手和眼睛的事情。在这些情况下,使用语音输入显然更加轻松。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分