电子发烧友网报道(文/黄山明)智能家居之所以被冠以“智能”的名义,其中非常重要的一点便是人机交互。通常智能家居的交互方式有许多种,生物识别技术便是其中之一,常用的有手势控制、指纹识别、语音控制等等。
但从智能语音市场来看,近些年来国内相关市场持续稳定增长,需求旺盛,据中国语音产业联盟数据显示,2021年中国智能语音产业市场规模将达到285亿元,预计同比增长44%。
数据来源:沙利文资讯
如果从网络来区分,语音控制通常分为两种,一种为离线语音,另一种为在线语音。
所谓离线语音,也被称为本地语音,顾名思义便是储存在本地设备中的固定命令词,这种命令词汇通常比较简短,方便用于唤醒与控制。
相比在线语音,离线语音的优势在于无需联网,不需要后台服务器,响应快速,低延时。低成本、低功耗、体积小,支持多样化命令词定制开发等都是离线语音的优势,同时为了保证能够成功唤醒命令词,相比在线语音,其语音识别率会有相应的降低。不过尽管如此,如今的离线语音识别率已经达到了95%以上。
当然,离线语音的劣势也在于命令词比较固定,采用离线语音只不过是将传统的控制方式改为语音操控,但如果要真正做到人机交互的程度,还远远不够。
并且相比在线方案,离线语音的开发周期偏久,因为量产的离线语音产品都需要重新录词并进行训练。
这时候就体现出在线语音的优势,不再受到命令词长度和条数的限制,厂商开发也比较方便,市场方案有很多的选择。
这也意味着用户可以用更加丰富的词汇与设备进行交互,而不只是局限在几个固定的命令词上。
不过相应地,由于需要联网,在线语音对于网络要求较高,同时响应速度也相对较慢,并且体积也相对较大,成本较高,这都是目前智能在线语音的一些弊端。
从目前情况来看,智能语音在语音识别率上已经有了长足的进步,但这项技术背后涉及的声学研究、模式识别研究、通用NLP研究以及垂直场景的深度语义理解等还远远没有达到完善的地步。智能语音在交互体验、使用效果、场景性优化等方面还需要持续优化。
国内也有数家在智能语音方面较为优秀的企业,如科大讯飞已经是国内智能语音的代表企业,在实时语音翻译上走在了行业的前列。
还有如搜狗,从2012年开始在输入法与地图上加入语音输入功能,通过多年用户大数据的沉淀与积累,搜狗提升了用户日常生活中表达、传递信息的效率,用软硬件结合起来形成商业闭环。
云知声也在2012年将深度神经网络应用于语音识别系统,在那时,云知声已经建立起完整的人工智能语音技术体系,实现对核心技术的自主可控,并开始人工智能语音技术商业化落地的早期探索。
在产品上,云知声也具备了使智能家居拥有3-5亩的高精度语音控制能力。
图源:云知声IPO招股书
思必驰同样是国内专业的对话式人工智能平台公司,创立于2007年,目前不仅在语音识别率上有了大幅提升,同时在识别精度上也有了新的进展。比如其最新推出的直面唤醒技术,可以模拟真人使用情况,优先朝向结合距离选择被唤醒的设备。
距离相同情况下,声音朝向的位置先唤醒;声音朝向相同的情况下,可以让距离更近的先唤醒。这在如今大多数智能设备都具备语音唤醒功能情况下,有较大的商用价值。
依图科技则是语音识别、NLP、声纹识别间距的人工智能公司,目前依图结合自身对企业级和公共级市场的服务经验,将智能语音相关技术与多应用场景相结合,在智能家居领域也有不小的突破。
依图科技基于深度学习的自然语言理解技术在过去几年取得了长足的进步,分别在建模方式、问题描述、无监督学习上有质的突破,体现在单个任务上取得比传统算法显著更高的准确率。
总体来看,当前自然语言理解技术仍有较多难点需要解决,如算法上还需要改进建模方式,引入实体概念,增强模型的逻辑性;另外,还需要对现有模型进行加速使得应用的成本更低。当前自然语言理解技术逐步成熟,已被应用于智能音箱、智能客服、翻译、智能文档分析等多个场景。