忽如一夜春风来, 智能音箱遍地开。国外有Amazon Echo,Google Home,Microsoft Invoke,Apple HomePod……笔者也与高通保持交流,对方也在积极推智能音箱设计平台。国内巨头有BAT磨拳檫掌,内容商有喜马拉雅发布了自己的小雅音箱,终端厂商也各自积极寻找合适的方案。应运而生的,深圳的音箱方案商也不出意外地满大街啦。
那么问题就来了——如何才能做好一个智能音箱呢?
十步,智能音箱从入门到放弃
对于如何做好一个智能音箱,笔者脑海里面最先浮现的是读书那会儿图书馆、书店里面不断冲击眼球的《21天,C++从入门到精通》。当然,很多时候读完的感觉是,这个书名应该改为《21天,C++从入门到放弃》,原因无他,C++博大精深、功能强大、涉及面极广。类比智能音箱,笔者也尝试撰写一篇短文,不需要21天,只需要10步,智能音箱就可以从入门到放弃了。
2017年6月4日,“定位之父”杰克·特劳特先生去世,享年82岁。但是他提出的“定位”(Positioning)理论将继续指导大家的经济活动。具体到智能音箱,尤其是在国内,如何在这波热潮里面定位自己,非常重要。一个简单的例子,是打算自己推产品?还是打算国内的通行做法,左手产品、右手方案?如果是后者,那么自己树标杆的产品采用什么方案?提供给客户的方案又需要如何满足不同的客户价格区间?
看着上表,再看看国内对于TTM(Time To Market) & Cost的割喉竞争,这一步估计已经有不少公司放弃啦。
音箱外观是第一眼印象,重要性不解释,见下图:
这也就不难解释为何那么多方案商给出的参考设计都是圆柱体,外形大体一样——虽然我不出挑,但我也不挨骂啊。
各位看官,设身处地,如果自己没有苹果的江湖地位,面对吃瓜群众对音箱外观仁者见仁智者见智地点评,是否有强大的心脏可以支持自己继续走到第三步?
其实外观设计和结构设计是密切相关的,大家都希望设备轻巧可携带,音效又特好,外壳还柔性,但外观设计这一飘逸艺术家的活,被结构要求的技术工科男怼了。要想低音好,需要加些料;要想播歌期间识别好,Mic喇叭最好分开摆。这左一条、右一条、上一条、下一条的设计原则,让音箱慢慢变大、变高,也就很难看到类似蓝牙音箱那种捏在手里陪你慢慢跑步的智能运动音箱了。
各位做方案的朋友们,更要对这个上心啦,因为结构设计得好,大家一时感觉不了,结构设计得不好,整体效果就大打折扣。当然,结构设计的好,不妨展示自家的透视图,妥妥地工程美学。虽然大家都吐槽苹果外形,但是下面这张还是蛮出挑的。
所谓的智能音箱,首先还是个音箱,自然要考虑播放歌曲的效果。上面谈到的声学结构,也是首先要确保播放音效。但是歌曲内容的覆盖度,也是极端重要的事情。光有好的音效声学结构,没有音乐源,那就是修了高速没有车跑了。国内在这一块合纵连横,但主动权还是掌握在音乐版权商手里。有决心涉足于此的大厂,这一块的合作和成本是必须要考虑的事情了。
由于市场已有方案的示范效果,智能音箱除了播放歌曲,各种有声读物、唐诗宋词、外文翻译,也是题中应有之意。每一块内容的整合,都是需要认真规划的。喜马拉雅近日发布小雅音箱,其中一个大的出发点和诉求点就是自身的内容优势。
从积极的角度看,为内容,尤其是为高质量的内容付费,是我国知识产权走向更为成熟的标志之一,也杜绝了部分市场参与者赚快钱、捞一把就走的心态,这样的氛围更有利于打造精品,助力消费升级。
说了这么多,终于开始进入到产品本身了,那么如在定位中所提及的,在选定系统平台后,各种系统优化的工作就要安排了。很多做智能音箱的,把眼睛盯在远场唤醒、打断、识别上面,其实系统优化的第一步,远远没有到那一块。目前的智能音箱均是WiFi音箱,那么开机速度、联网便利性就是用户除外观以外的第二第三体验了。开机速度自然是越快越好,联网自然是成功率越高越好,操作越简单越好。但是很多音箱,开机大于1分钟,联网重连概率高,还比较挑路由器和网络设置。这个,怎么说呢,想象一下小辈买了个音箱回家孝敬老人,心情愉快地上电,默默地等待几分钟,最后自己也折腾半天还无法联上网,这个画面就比较尴尬了。
其次系统功耗也很重要,先不说可携带音箱,即使是家中的音箱,虽然一直连着电源,但是播放一段时间后,播出千分音,但更放出万分热,就比较麻烦了。功耗牵涉到CPU的选择,休眠时降频的处理,也牵涉到一直运行的计算,比如语音待唤醒的功耗,都是考验一个技术团队的重要方面。
没有系统的驾驭能力,止步于此是一个不错的选择了。
好了,支撑整个智能音箱的AI终于要登场了,这是一个极为复杂的系统,涉及到感知技术、认知技术以及交互技术。下图给大家一个整体印象。
这第六步也就是感知技术的第一环,远场Mic阵列。这是智能音箱的基础技术之一,有了它,远距离、噪声环境下的良好交互才成为可能,大家也可避免需要用手去触摸音箱才能操作,甚至可以在卧室控制客厅的音箱。简单地说,Mic阵列是解决“耳朵”的问题。
以家居环境为例,远场语音拾取,必然需要考虑去除由于墙壁等反射导致的混响,家居各种设备产生的背景噪声,其他用户的人声干扰以及电视机自身产生的回声。目前市面上Mic阵列主要分为2Mic阵列和多Mic阵列。
Google Home采用的就是2Mic阵列,这个方案最大的好处是结构简单,实施落地方便,凸显了Google做平台的特质。原因也很简单,在音箱上打两个孔,无论是确保在一条直线上(这个其实是废话了,两点确定一条直线),还是一个平面上(似乎也是句废话),都非常简单。缺点是只能支持180°声源定位,定位角度的区分度也弱一些。
Amazon采用的是6+1 Mic阵列,支持360°声源定位,但是声学结构设计,乃至后期维护的难度有所提高。2Mic的一致性和6个Mic的一致性,以及更换出问题的概率都有差别。
另外,当前也有一个有些走偏的思潮,那就是认为Mic越多越好,这个看法其实有待商榷的,4个Mic能解决的问题,为啥一定要8个?成本更低,结构更简单,效果一样,为啥一定要7、8个呢?这种思潮,既有点像当初大家追求的8核、10核处理器,又有点像鼓吹者只想做个Demo,根本不考虑量产了。
就像外观是整个音箱的第一体验一样,唤醒,是智能音箱的第一体验了。说唤醒词后反应迟缓,隔得远了喊半天不起来,播放歌曲了需要吼才能起来,甚至放在那,莫名奇妙自己叫起来了,这些产品估计得担心被用户拍小视频投诉了。
离线唤醒需要关注以下关键点:
快: 反应速度一定要快,最好是用户话音刚落,设备就应答了,这给用户的感受,就像是有个随叫随到的助手,很有feel。
准: 必须要准确,说了唤醒词就得有反应,否则,喊了半天,尤其是智能音箱经常播放音乐,需要能准确打断,继续下达命令。
稳: 没事的时候静静地呆在那,主人看电视、接待小伙伴,音箱都不胡乱自己跳出来,给大家意外。这就要求长时间误唤醒率趋向于0。这一块其实是硬功夫,而且需要仔细考察才能选出合适的方案。否则,唤醒光有快和准,最后没事乱蹦出来,就很烦人啦,没准投诉随之而至。
一般而言,说起认知技术,大家讨论的都是自然语言处理(NLU),主要目的是让音箱能准确理解用户的意图。但是,中文博大精深,不同人说同一句话,以及同一个人在不同场合说同一句话,意思都不一样了。例如经典笑话:
A:你这是什么意思?
B:没什么意思,就是意思意思。
A:你这样就没有意思啦。
B:哪里哪里,这只是一点小意思。
A:呵呵,你这个人真有意思。
这也就提醒我们,光从文字上,实际上是很难准确地理解用户的意图的。任何语音的交流,都需要考虑一个核心因素—— 场景化。
所谓的语用计算,就是基于场景化感知的NLU。通过5W&1H(Who,When,Where,Which,What&How) 原则理解是什么人在什么时候,什么地方对着什么设备说了什么话,然后由语用决定如何去回应。
具体到智能音箱,尤其是还有打算像Google和Amazon一样把音箱作为家居中控的朋友们,更需要考虑这个基于场景的语用计算。
“你好音箱,帮我把灯关了”—— 是指这个智能音箱上连接的客厅的灯,还是卧室的?
“有点冷”,是指这个笑话说得有点冷,还是音箱上也挂接了空调了?
设身处地,理解用户的命令,为用户提供最合适的应对,才是真正的NLU,也是语用计算的真谛所在。
前面两条是感知技术(耳朵)和认知技术(大脑),有了这两条,智能音箱听得到,也听得懂了,那么这款智能音箱可以说做到内秀了。但是除了心灵美,也需要良好的沟通才能把音箱丰富的内心带给用户。这就是要靠交互了,最为自然的交互自然是语音交互了。但是目前的音箱,所有的交互都是一唤醒再一问再一答。这种交互最大的问题就是——让人感到生分。每次使用前,需要先喊一声音箱的名字,然后再下达指令,比如:
先唤醒: “卧龙先生”,然后下达命令“随便来首那英的歌”。智能音箱开始播放了,这个时候改主意了,想换一首韩红的歌时,又得喊一声音箱的名字唤醒……
这个感觉,很像两个特别生分的人,无论何时何地,请对方帮忙,都要喊一声全名,“卧龙先生,请你”……“卧龙先生,能否帮我”…… “卧龙先生”……音箱买回家都几个月了,大家已经很熟啦,为啥一定需要这样?
另外,面对音箱,用户的心态和面对一个活生生的人,还是有些差异的。作为一名五好青年,随意打断别人说话,总是有些不礼貌的,从而内心是抗拒的。但是打断一个设备说话,或者插话,大家一般还是比较随意的。
这就意味着,智能音箱不但要能被准确唤醒,还要能在用户与它交流的期间,保持双向通话,对用户的指令进行反馈,同时可以被用户下一句指令打断,而无须再次唤醒。这种交互,就叫流式交互。简单地说,得这样:
(云知声AIOS@Home流式对话)
完成上面9条,可以做一个很好的产品,也可以出一批合适的方案了,但是,作为一个有理想的企业,搭建平台才是最终目标。以自己的标杆产品带动方案推广、以方案推广聚集合作伙伴、以合作伙伴搭建开放平台、以开放平台构建生态系统。这一块牵涉众多,难以一言以蔽之,各位可以在语用计算的架构方面看到类似的努力,其中最出名的莫过于Amazon的Skill Set了。对于只允许用Alexa这一个唤醒词的Amazon方案,通过搭建语用计算架构,把对接与Amazon Echo的各个设备列表做一个梳理,结合借助Skill Set的各家NLU,做出当时当地最合适的反馈,是一条必由之路。
结束语:
能坚持看到这的读者,祝你们看过此篇,心情依然少年了。不过其实也大可不必过于担忧,正所谓团结就是力量,寻找合适的合作伙伴,分别解决上面的各项挑战,那么做一个叫好又叫座的智能音箱,也是一个完全可以实现的小目标啦。
全部0条评论
快来发表一下你的评论吧 !