智能声学创新技术将开启语音智能交互的新时代

独爱72H 2019-11-25 878

音视频及家电

737人已加入

描述

（文章来源：新浪VR）

语音交互为本能表达，带来全新体验。早期的人机交互主要利用键盘，如打字机和DOS 系统的电脑。随着鼠标的发明和可视化图形界面的普及，人机交互迎来了第一次重大创新。随后触摸屏的普及以及多点触控的出现，令人机交互进入了二维层面。相比鼠标和键盘，多点触控能更方便、多样的实现输入。但是至于此，人机交互依然没有脱离手动的信息输入，在人机分离下无法实现互动，语音交互的出现将使这一问题得到解决。

信息密度高，自然且普适。语言是人类与生俱来的一种能力，从学习成本角度而言显著低于其他手段，语音交互天然适合人类。从普及度而言，几乎人人都会用语言进行沟通，但是在全球范围内依旧有许多不会书写文字的人。假设语音交互能够普及，在理想状态下人人都可以用语音命令操控智能设备，实现智能体验。

解放双手，更少的感官占用。除了高效的信息沟通外，语音交互可解放双手、眼睛，不需要与设备接触即可沟通，使得我们能够实现一心多用和在特定情况下精力集中。诸如在处于驾驶状态时，我们就可以通过语音助手来查看智能手机上的信息，从而避免视觉查看而导致的注意力不集中。根据Statista 的调研数据显示，2016 年美国用户使用智能语音识别主要原因中，双手和眼睛被占用为首要理由，占比达60%。可见智能语音识别对于提升用户便利性有很大的帮助。

各类语音交互软件不断面世。近期三星发布了其语言识别助手Bixby，正式用于S8 系列、Note8 手机。事实上，从产品推出的时间顺序来说，三星Bixby 还只能算作是智能语音交互领域的一位新玩家。在Bixby 之前，就已经有了诸如苹果Siri、微软Cortana、谷歌Google Assistant、亚马逊Alexa 等在内的多款智能语音助手被业界熟知。

AI 技术提升语音识别准确度。在提升语音识别的准确度上，过去主要依靠算法的进步和样本的积累，随着深度学习算法的出现，语音识别的准确率有了明显的进步。深度神经网络算法可以把连续多帧的语音特征并在一起，构成一个高维特征，最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络采用模拟人脑的多层结果，可以逐级地进行信息特征抽取，最终形成适合模式分类的较理想特征。
（责任编辑：fqj）

打开APP阅读更多精彩内容