从听见到听懂，思必驰在车载语音方面如何做好垂直化、差异化？

高工智能汽车 2019-01-06 3893

语音交互在汽车行业的应用并非是最近几年才出现的，早在2000年的时候就已经有汽车搭载了语音交互，但那时用户对这种交互方式还非常陌生，使用频率也很低。

近年来，随着人工智能、车联网以及无人驾驶技术的快速发展，车载语音才真正地火爆起来为用户所熟知。

尽管主机厂、供应商叫嚣着汽车的车载语音如何准确、如何智能等，尴尬的现实情况却是车载语音的火热程度和它的用户体验度之间并不是一个正向递增关系。

简而言之，就是用户对现今车载语音的体验并不满意。想让用户心甘情愿的为语音交互买单，语音技术厂商需要做出更多成果让用户信服。

合格的车载语音首先要保证听得见

作为一家语音技术方案商，思必驰一直专注垂直领域下的智能对话式交互，根据各个垂直行业做场景化的语音技术创新、优化，做差异化的语音解决方案。先后推出环形6+1远场麦克风阵列、车载天琴助手、DUI-对话定制平台和会话精灵企业服务等多种业务方案。

在车载语音交互上，思必驰始终保持对车载的垂直领域进行不断的技术创新，包括不断引进国际化专家人才和人工智能人才培养。除了技术端，产品端口也一直不断从稳定性、客户刚需以及增加乐趣三个维度来进行产品体验的提升。

互联网在汽车领域的大规模普及和应用已经成为了既定的事实，未来车联网和自动驾驶技术的不断发展将会把汽车变成一个重要的入网端口。

作为一个人机交互系统，汽车上所有的功能应用都是基于安全这个大前提进行的，所以选择一个安全自然的交互方式就显得尤为重要，这也是为什么当下的触屏交互并不是最合适的车内交互方式。

思必驰车载事业部副总经理宋佳认为，与按键和触控相比，语音交互是一个更好好的选择，它可以让驾驶员的双眼锁定在前方道路，不用低头或是视线偏移，而仅靠语音指令就能够实时沟通。在确保驾驶安全的前提下，驾驶员也能够获得更舒适流畅的车内交流体验。

现在很多用户抱怨车载语音不好用，很大原因在于车载语音在第一阶段的接收和识别过程就已经出现问题。一方面是来自于语音识别引擎本身存在不完善，另一方面，其实对汽车的使用环境而言，麦克风阵列的设计也影响着整个车载语音的识别准确性。

宋佳表示，车载语音的交互并不是简单的把识别引擎和硬件车机进行绑定就能够达到一个很好的体验效果，如果麦克风和音腔结构不合格，语音识别引擎再准确也难以发挥作用。因此在硬件方面，麦克风阵列和整个车机设计将是未来语音识别需要重点关注的部分。

对于车载语音交互来说，首先需要做到语音识别结果的准确性，保证识别率，才能真的听的清、听得懂，其次是对接丰富的第三方资源，具备较广泛的知识面，能够完成车内生活相关的指令。

宋佳表示，目前思必驰打造的天琴系统就已经初步具备了用户对智能车载语音交互的需求。

天琴系统是一个人车合一的多模式交互系统，语音是首要的交互入口，用户可以通过语音发布指令，完成搜索、查找等动作。在导航时，用户不需要手动操作就可以快速完成搜索目的地、查找路线等一系列操作，减少了用户使用双手带来的驾驶安全问题。

此外，语音并不是唯一的交互选择，在天琴系统中，思必驰将语音、触控屏和方向盘进行了高度的融合，使三者之间的交互实现了互融互通。这其实也是现在车载交互发展的趋势，在触控和物理按键无法被完全取代之前，三者不同交互方式之间实现有机的结合是最好的选择。

值得一提的是，思必驰的天琴系统优化了基于场景化的语音提醒，解决了用户不知道如何与语音产品对话的烦恼，也省去用户自己花费时间挖掘产品功能，降低学习使用的门槛，实现了可见即可说。

智能化的车载语音应该具有主动思考和预判能力

除了在识别准确率上存在的问题，现阶段的车载语音还面临着如何提高智能化的问题，比如，用户希望车载语音系统能够像真正的人工智能一样，具有主动思考的能力。当用户发出指令的时候，能够快速的反应并捕获用户接下来的意图，帮助用户做出决定。

宋佳表示，车载语音交互再往更高一层发展必然是智能化的语音交互，而智能语音交互不是简单的语音+车联网的组合，它背后必然是基于机器大量的深度学习，包括从数据中寻找类似事例来训练或是通过归纳大数据样本的共性对语音指令做出决断。

这也是语音技术发展的难点。

事实上，当前市面上多数语音技术方案商研发的语音+车联网场景的应用平台，大部分是基于硬性的问答式语音交互，而针对智能化、人性化的语音交互的探索还不够深入，导致车机的主动思考及预判能力几乎为零。

因此，对于语音供应商来说，如何让车载语音覆盖更多的应用场景提高它的思考预判能力成为车载语音智能化的关键。

思必驰的天琴系统通过场景化语义解析，涵盖导航、电台、音乐、电话、应用操控、汽车操控、违章查询、指定地点查询、路况、今日限行等各领域内容。

基于周边服务的整合，语音系统已经可以开始预判用户的需求，并帮助用户做出预判。例如用户语音搜索目的地电影院，系统除了快速弹出电影院推荐、结合导航时间进行场次推荐外，还能直接帮助订票、选位。

技术的不断创新对语音交互来说非常重要，因为语音底层技术能确保系统更清晰的识别用户的语音指令，从而更好的接收指令、理解指令，最后快速的做出反馈。

但是随着底层技术能力的不断提升，未来关于语音交互服务的整合能力将成为影响用户体验的关键。这种整合能力不仅是让车载语音系统听得清楚、听得懂，更重要的是如何将不同资源、服务对接，成为名副其实的智能语音。

毕竟，语音交互只是手段，不是最终目的，交互的目的只是为了让机器更好地完成任务提升用户体验。

据思必驰介绍，公司现在已经占据了车载语音后装市场70%的市场份额，今年进入前装市场，目前前装已经合作几十家tier1企业和车厂，大部分都已量产上市。

宋佳表示，未来思必驰还将继续拓宽车载语音的应用，2019年将实现声纹商用落地，单辆车多账户并存成为可能，同时，还会有基于声纹的个性化推荐和回复。在语音识别上，多麦克风阵列实现对不同方位的声源定位，可以提供不同座位的独立车控操作。

打开APP阅读更多精彩内容