思必驰高始兴对智能语音在车载领域的应用的解读

思必驰 2019-08-05 3282

描述

现在语音交互在车载场景下有哪些应用？痛点在哪些地方？难点在哪些地方？现在面临哪些挑战？怎么解决？包括产品设计，诸多的一些想法、问题，我来简单分享一下几个观点，跟各位做一个交流。

我们见了很多的车载的后市场，包括传统产业转型，包括互联网新型智能硬件开发者，像后视镜、HUD等，现在大家普遍的感觉车载的语音交互是一个大的趋势，但是依然有一些认为在车载场景下语音的交互还是一个噱头。主要是因为使用率最广但渐渐成为调戏工具的SIRI，其次他们担心在车载场景下的使用语音的安全性。我们认为， SIRI等助手在手机端变成调戏工具，这是一个必然。早期很多助手应用我们语音技术，接入思必驰语音云，通过数据分析发现，很多用户问的事情是偏带颜色的，比如问一些AV女优、AV大片名字方便查询。其次，现在应用语音的车载产品大多只能做到简单交互，只是为了市场跟风而加上的功能，在产品设计和内容方便明显存在短板,不够便捷不够方便。

开车是非常乏味的事情，因此车载交互也在向趣味性方向发展，比如高德做的林志玲航的导航，我问了一下出租车司机，其中一个司机特别典型，他说我们开车非常闷，林志玲的声音让我心里挺激动的，没有寂寞感。我们现在跟考拉也在做一些个性化的声音，我们相信有人性化的车载交互会让语音体验大幅增加，会让用户的黏性大幅提高。林志玲的声音高德在做了，我相信女孩喜欢听男神的声音，我们未来会出很多男神声音、女神声音，小孩声音，个性化的语音合成，这本来也是思必驰的优势之一。

车载环境的语音交互，更重要的是能提升驾车安全。一般认为，在车载里面的应用操控应该在两秒之内，其实我觉得两秒有点长，甚至应该在一秒、零点几秒，比如在高速上开车，速度是非常快的，如果分神去做操控非常危险。但在设置导航、接听电话、发微信的时候，紧急情况还是需要去操控它。毫无疑问，语音操控更加安全的。现在车载产品的市场有1.6亿，年增量2000万，但是统计30%的车主在开车的时候是离不开手机的。这很危险。媒体经常曝光拿手机发微信、发微博等等导致车祸。电影《2012》大家都看过，比尼说出“enginestar”启动了保时捷死里逃生。在科幻电影里面的交互我相信在生活中能全部实现。现在市面上马上会出现全自然语音交互的车载产品，比如像战斗机应用的HUD技术，乐驾CEO老马会跟大家分享他们的HUD产品。

车主到底对智能语音交互接受程度怎么样？没有用户接受,一款产品还是rubbish。腾讯做的一个调研， 76%的用户对车载智能功能接受度越来越高，全语音控制导航的功能使用占比排第二，仅次于被盗车辆定位，中国太不安全了，小偷太多没办法。但即使车辆的定位、被盗的问题我相信未来语音的交互也能解决。比如现在我们汽车还是用钥匙、用触摸去开门，未来我们能不能用声纹，比如说芝麻开门，车能够识别主人身份，你可以给爱车起名字，你说话汽车就响应，别人说话不好使，这个一定能实现。

另外在汽车前装市场很多高端车把语音交互系统作为标配，这能引领和培育用户认知。我个人认为前装市场还是相对很难进入，而且创新的产品，优秀的体验还是从后装做起，包括HUD、行车记录仪、后视镜，中控设备。前装市场的思路相对比较传统，需要被颠覆，而且验证周期特别长，像语音验证周期一般两三年，甚至三五年，飞驰镁物很有经验，他们做了多年传统前装。

我们现在提智能语音基本上都认为语音导航，其实不单单是导航，车载语音交互在向其他应用扩展，服务性扩展。回头看，从2011年智能车载化到现在经过了大概三个阶段，傻瓜式1.0，扩展式2.0，和交互式的3.0。在2.0的时候语音控制还是比较低级，在交互式3.0语音需求和功能已经上升第一位，甚至超过了LBS。再一个是相关的应用的服务，内嵌的语音交互在大量拓展，整个车载生态在更继续发展。

除了导航，其他很多服务和功能都需要语音交互，而且会做的越来越炫、越来越酷。比如收发短信，有些车载智能硬件已经有这个功能，拨打电话，包括小说朗读，天气搜索，网络电台等等都已经逐步迈入市场。网络电台方面，考拉做的很棒，未来我们跟老俞这方面会做的更加炫酷，有的人愿意听谢霆峰的声音，那你就可以选谢霆峰的声音给你读小说，现在这个技术已经基本成熟，未来你把家人的声音，比如男朋友、女朋友或者孩子声音传上去，自己下载一个语音包，未来你听小说、听电台的内容、听新闻等等，这些都可以是你爱人的声音、孩子的声音，我们目前跟考拉、跟上海交大实验室都在做这些事情。再一个微信，微信功能也是一个痛点需求，很多车祸就是因为司机在开车的时候收发微信，这一块怎么做到极致体验？一定要语音解决，乐驾做HUD“车萝卜”，已经解决了这个难点。另外，关于未来的拓展我很看好O2O，车载生态不仅仅是解决目前的一些功能，未来能不能我们在搜加油站、停车位、酒店时，像在手机端一样形成一个闭环，从搜索到导航到支付交易评价。社交，开车的时候我们通过行车记录仪也好、HUD也好直接给景色拍照，全语音操作，能够直接分享到微博、微信上。包括声纹密码，声纹密码不单是解锁开车，不单是个人支付，我们希望要做到的就是它知道你的身份，知道你的相关的信息，推送的信息都是个性化的，甚至我们通过登陆查酒店的时候它知道你是男女，你的历史记录，你的年龄段。这些都是语音交互在车载方面的应用可能。

现在车载智能硬件层出不穷，车机相对来说是挺主流的设备。现在后视镜市场特别火，行车记录仪防碰瓷现在也非常流行，OBD目前还比较传统，车载音箱比如考拉做得很不错，再包括一些其他的小智能硬件，车载环境里面到底哪一块屏会占主流？还有一个说法，HUD抬头显示系统在战斗机、高端车里面都有，现在全自然语音交互加手势式交互的HUD概念已经出来了，比如乐驾的“车萝卜”，我觉得HUD也有很大可能，撬动未来车载的生态。不管怎么样，绝对离不开语音交互。

从傻瓜式1.0到语音交互式3.0，从语音导航到其他功能，现已经一步步成为现实。但现在去畅想O2O、声纹密码等，语音技术是不是已经能够直接应用？我觉得还不到时候。语音交互虽然实现了技术上的可能性，但离质的飞跃还有距离。目前的语音只是在载里面加上一个耳朵、一个嘴巴，还缺一个大脑，如何去协调在车载环境下遇到的种种挑战。

第一，近场抗噪。语音识别在驾车的噪声环境下怎么样，人跟车机或者车载智能硬件往往有一段距离，0.3~1米的距离范围里，噪声很多，发动机声噪、路噪、人的说话，音噪等，怎样抗噪？播放音乐的时候回声对消我们已经能够实现，在跟多种车载设备交互下的算法降噪，我们思必驰一直在研发并且目前也有一些还比较满意的进步。

第二，自然语音交互。这是让车载生态能够发展最核心音素，现在车载交互还大多停留在简单操控阶段，简单控制、简单命令、简单搜索、简单查询。但如果我们想撬动O2O，一定要首先形成闭环。就像人跟手机的关系，所有的购物、查询搜索、玩游戏一定会在智能手机完成，不会再跳转另一个设备上。车载生态起来一定会形成一个闭环,不仅仅是简单语音交互，一定是自然语言的交互、一定是对话式交互，这个是应用趋势。思必驰目前一直在努力地，就是真正的对话式人性化语言交互技术。

第三，产品设计层面的逻辑关系。我们智能车载硬件的麦克风、喇叭、结构布局和录音收音效果的关系，怎么保证抗噪，包括我们语音交互跟后端服务怎么结合。比如语音导航时，能不能跳转到搜音乐，在导航的时候能不能收发微信等，产品逻辑这是非常大的挑战。这需要产品开发者和思必驰一起来讨论来解决的问题。

（高总此刻给大家放了两个视频，一个是春节期间的山东纠正哥的网络视频，一个是思必驰最新的可纠正打断功能的实际演示视频。涉及到技术曝光，此刻先不做播放。如有兴趣的，可关注7月中旬的思必驰新技术发布会。）

这是我们做的一个语音纠正的功能演示。纠正哥遇到的问题我们在车里面的时候经常遇到，在车载噪声环境下语音识别很难达到百分之百，现在语音交互还是比较差，经常会让人抓狂，我们就做这批技术，能够随时打断和纠正机器的判断和识别。我们在7月份会有新技术的大型发布会，到时候会邀请各位朋友参加。目前的语音交互仅仅实现操控、命令，简单的查询，这是远远不行的，一定是真正的智能语音的技术的进步，才能让整个生态进来，才能让整个整个产品体验带来质的飞跃。

最后插播小广告——关于思必驰。我们最早成立剑桥大学，现在拿到两轮投资，我们专注人机对话，以及语音识别、理解、合成、设备一系列技术，我们把这个技术做成开放解决方案，提供垂直行业像车载、家居、穿戴，包括机器人玩具等等这些行业的开发者，让他们结成了我们的相关的SDK方案以后提升产品的交互体验。车载方面我们对芯片厂商、方案厂商，还有车载智能硬件合作伙伴提供我们们相关的技术和方案。

打开APP阅读更多精彩内容