现在语音交互在车载场景下有哪些应用?痛点在哪些地方?难点在哪些地方?现在面临哪些挑战?怎么解决?包括产品设计,诸多的一些想法、问题,我来简单分享一下几个观点,跟各位做一个交流。
我们见了很多的车载的后市场,包括传统产业转型,包括互联网新型智能硬件开发者,像后视镜、HUD等,现在大家普遍的感觉车载的语音交互是一个大的趋势,但是依然有一些认为在车载场景下语音的交互还是一个噱头。主要是因为使用率最广但渐渐成为调戏工具的SIRI,其次他们担心在车载场景下的使用语音的安全性。我们认为, SIRI等助手在手机端变成调戏工具,这是一个必然。早期很多助手应用我们语音技术,接入思必驰语音云,通过数据分析发现,很多用户问的事情是偏带颜色的,比如问一些AV女优、AV大片名字方便查询。其次,现在应用语音的车载产品大多只能做到简单交互,只是为了市场跟风而加上的功能,在产品设计和内容方便明显存在短板,不够便捷不够方便。
开车是非常乏味的事情,因此车载交互也在向趣味性方向发展,比如高德做的林志玲航的导航,我问了一下出租车司机,其中一个司机特别典型,他说我们开车非常闷,林志玲的声音让我心里挺激动的,没有寂寞感。我们现在跟考拉也在做一些个性化的声音,我们相信有人性化的车载交互会让语音体验大幅增加,会让用户的黏性大幅提高。林志玲的声音高德在做了,我相信女孩喜欢听男神的声音,我们未来会出很多男神声音、女神声音,小孩声音,个性化的语音合成,这本来也是思必驰的优势之一。
车载环境的语音交互,更重要的是能提升驾车安全。一般认为,在车载里面的应用操控应该在两秒之内,其实我觉得两秒有点长,甚至应该在一秒、零点几秒,比如在高速上开车,速度是非常快的,如果分神去做操控非常危险。但在设置导航、接听电话、发微信的时候,紧急情况还是需要去操控它。毫无疑问,语音操控更加安全的。现在车载产品的市场有1.6亿,年增量2000万,但是统计30%的车主在开车的时候是离不开手机的。这很危险。媒体经常曝光拿手机发微信、发微博等等导致车祸。电影《2012》大家都看过,比尼说出“enginestar”启动了保时捷死里逃生。在科幻电影里面的交互我相信在生活中能全部实现。现在市面上马上会出现全自然语音交互的车载产品,比如像战斗机应用的HUD技术,乐驾CEO老马会跟大家分享他们的HUD产品。
车主到底对智能语音交互接受程度怎么样?没有用户接受,一款产品还是rubbish。腾讯做的一个调研, 76%的用户对车载智能功能接受度越来越高,全语音控制导航的功能使用占比排第二,仅次于被盗车辆定位,中国太不安全了,小偷太多没办法。但即使车辆的定位、被盗的问题我相信未来语音的交互也能解决。比如现在我们汽车还是用钥匙、用触摸去开门,未来我们能不能用声纹,比如说芝麻开门,车能够识别主人身份,你可以给爱车起名字,你说话汽车就响应,别人说话不好使,这个一定能实现。
另外在汽车前装市场很多高端车把语音交互系统作为标配,这能引领和培育用户认知。我个人认为前装市场还是相对很难进入,而且创新的产品,优秀的体验还是从后装做起,包括HUD、行车记录仪、后视镜,中控设备。前装市场的思路相对比较传统,需要被颠覆,而且验证周期特别长,像语音验证周期一般两三年,甚至三五年,飞驰镁物很有经验,他们做了多年传统前装。
我们现在提智能语音基本上都认为语音导航,其实不单单是导航,车载语音交互在向其他应用扩展,服务性扩展。回头看,从2011年智能车载化到现在经过了大概三个阶段,傻瓜式1.0,扩展式2.0,和交互式的3.0。在2.0的时候语音控制还是比较低级,在交互式3.0语音需求和功能已经上升第一位,甚至超过了LBS。再一个是相关的应用的服务,内嵌的语音交互在大量拓展,整个车载生态在更继续发展。
除了导航,其他很多服务和功能都需要语音交互,而且会做的越来越炫、越来越酷。比如收发短信,有些车载智能硬件已经有这个功能,拨打电话,包括小说朗读,天气搜索,网络电台等等都已经逐步迈入市场。网络电台方面,考拉做的很棒,未来我们跟老俞这方面会做的更加炫酷,有的人愿意听谢霆峰的声音,那你就可以选谢霆峰的声音给你读小说,现在这个技术已经基本成熟,未来你把家人的声音,比如男朋友、女朋友或者孩子声音传上去,自己下载一个语音包,未来你听小说、听电台的内容、听新闻等等,这些都可以是你爱人的声音、孩子的声音,我们目前跟考拉、跟上海交大实验室都在做这些事情。再一个微信,微信功能也是一个痛点需求,很多车祸就是因为司机在开车的时候收发微信,这一块怎么做到极致体验?一定要语音解决,乐驾做HUD“车萝卜”,已经解决了这个难点。另外,关于未来的拓展我很看好O2O,车载生态不仅仅是解决目前的一些功能,未来能不能我们在搜加油站、停车位、酒店时,像在手机端一样形成一个闭环,从搜索到导航到支付交易评价。社交,开车的时候我们通过行车记录仪也好、HUD也好直接给景色拍照,全语音操作,能够直接分享到微博、微信上。包括声纹密码,声纹密码不单是解锁开车,不单是个人支付,我们希望要做到的就是它知道你的身份,知道你的相关的信息,推送的信息都是个性化的,甚至我们通过登陆查酒店的时候它知道你是男女,你的历史记录,你的年龄段。这些都是语音交互在车载方面的应用可能。
现在车载智能硬件层出不穷,车机相对来说是挺主流的设备。现在后视镜市场特别火,行车记录仪防碰瓷现在也非常流行,OBD目前还比较传统,车载音箱比如考拉做得很不错,再包括一些其他的小智能硬件,车载环境里面到底哪一块屏会占主流?还有一个说法,HUD抬头显示系统在战斗机、高端车里面都有,现在全自然语音交互加手势式交互的HUD概念已经出来了,比如乐驾的“车萝卜”,我觉得HUD也有很大可能,撬动未来车载的生态。不管怎么样,绝对离不开语音交互。
从傻瓜式1.0到语音交互式3.0,从语音导航到其他功能,现已经一步步成为现实。但现在去畅想O2O、声纹密码等,语音技术是不是已经能够直接应用?我觉得还不到时候。语音交互虽然实现了技术上的可能性,但离质的飞跃还有距离。目前的语音只是在载里面加上一个耳朵、一个嘴巴,还缺一个大脑,如何去协调在车载环境下遇到的种种挑战。
第一,近场抗噪。语音识别在驾车的噪声环境下怎么样,人跟车机或者车载智能硬件往往有一段距离,0.3~1米的距离范围里,噪声很多,发动机声噪、路噪、人的说话,音噪等,怎样抗噪?播放音乐的时候回声对消我们已经能够实现,在跟多种车载设备交互下的算法降噪,我们思必驰一直在研发并且目前也有一些还比较满意的进步。
第二,自然语音交互。这是让车载生态能够发展最核心音素,现在车载交互还大多停留在简单操控阶段,简单控制、简单命令、简单搜索、简单查询。但如果我们想撬动O2O,一定要首先形成闭环。就像人跟手机的关系,所有的购物、查询搜索、玩游戏一定会在智能手机完成,不会再跳转另一个设备上。车载生态起来一定会形成一个闭环,不仅仅是简单语音交互,一定是自然语言的交互、一定是对话式交互,这个是应用趋势。思必驰目前一直在努力地,就是真正的对话式人性化语言交互技术。
第三,产品设计层面的逻辑关系。我们智能车载硬件的麦克风、喇叭、结构布局和录音收音效果的关系,怎么保证抗噪,包括我们语音交互跟后端服务怎么结合。比如语音导航时,能不能跳转到搜音乐,在导航的时候能不能收发微信等,产品逻辑这是非常大的挑战。这需要产品开发者和思必驰一起来讨论来解决的问题。
(高总此刻给大家放了两个视频,一个是春节期间的山东纠正哥的网络视频,一个是思必驰最新的可纠正打断功能的实际演示视频。涉及到技术曝光,此刻先不做播放。如有兴趣的,可关注7月中旬的思必驰新技术发布会。)
这是我们做的一个语音纠正的功能演示。纠正哥遇到的问题我们在车里面的时候经常遇到,在车载噪声环境下语音识别很难达到百分之百,现在语音交互还是比较差,经常会让人抓狂,我们就做这批技术,能够随时打断和纠正机器的判断和识别。我们在7月份会有新技术的大型发布会,到时候会邀请各位朋友参加。目前的语音交互仅仅实现操控、命令,简单的查询,这是远远不行的,一定是真正的智能语音的技术的进步,才能让整个生态进来,才能让整个整个产品体验带来质的飞跃。
最后插播小广告——关于思必驰。我们最早成立剑桥大学,现在拿到两轮投资,我们专注人机对话,以及语音识别、理解、合成、设备一系列技术,我们把这个技术做成开放解决方案,提供垂直行业像车载、家居、穿戴,包括机器人玩具等等这些行业的开发者,让他们结成了我们的相关的SDK方案以后提升产品的交互体验。车载方面我们对芯片厂商、方案厂商,还有车载智能硬件合作伙伴提供我们们相关的技术和方案。
全部0条评论
快来发表一下你的评论吧 !