回顾声智科技助力联想智能音箱MINI亮相CES Asia

声智科技 2019-08-13 3352

描述

作为唯一专注亚太市场的行业盛会，第四届亚洲消费电子展（CES Asia）在2018年6月13-15日上海新国际博览中心盛大开幕，采用声智科技3麦克风阵列远场语音交互方案的联想智能音箱MINI首次亮相CES Asia展。

联想智能音箱MINI系列为我们真实的展示了联想对未来智慧家庭生活场景的畅想，这也预示着联想已经从传统硬件设备制造商转变为智能物联服务商。

智能音箱或成为打开智能家居场景的密匙

市场研究咨询公司Gartner预测，2018年中国智能家居市场规模将达到1396亿元，市场规模约占全球总规模的32%，2020年中国智能家居市场规模将达到3000多亿元。

在智能音箱之前，人们提起智能家居一定与手机有关，人们寄希望手机这款移动设备可以作为统一的控制中心，但在实际体验过程中传统的手触模式还是带来了不少的体验bug。举个简单的例子，当你安装了智能灯具，但你想要打开或调整还要先找到手机打开APP。这时候可能很多人会选择直接用开关解决问题而非使用手机。

语音技术的发展让智能音箱有机会解决人机交互不佳等长期为人诟病的顽疾。借助语音识别技术，消费者可以摆脱繁琐的按键，通过语音命令来完成设备控制、内容娱乐等任务。

目前语音交互技术在智能家居领域的渗透率正在逐步提升，应用语音控制的智能家居产品也越来越多，智能音箱逐渐成为智能家居语音控制的入口，而Mini音箱体积小巧、价格适中，更成为智慧家庭，万物互联的控制首选。

智能家居首选，平衡成本与效果的3麦阵列语音交互方案

随着语音交互的加入，人们在智能家庭中通过语音进行智能设备控制，动动嘴即可控制一切。不管是内容娱乐还是开关控制，Mini智能音箱小巧轻便，摆放灵活，自然在众多智能语音交互设备中脱颖而出。

为了兼顾外观与性能，平衡体验与成本，Mini智能音箱自然对远场语音交互技术提出了更高的需求。声智科技为小尺寸智能音箱的提供新款秘密武器——3麦环型麦克风阵列方案。联想智能音箱MINI采用的是声智科技推出的3麦克风阵列远场语音交互方案，可以全方位拾取家庭环境中的声音，确保在五米距离内达到95%以上的唤醒率和识别率，让用户可以在不同位置实现轻松控制家居智能设备。

声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术，5米内的嘈杂环境中，仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别，实现轻松唤醒，无惧环境，想说就说，声随心动，保证远场语音交互的完美体验。而且，相比4麦、6麦、8麦阵列方案的成本偏高，3麦阵列方案不仅价格更加亲民，ID设计提供了更多空间。相比2麦，3麦麦克风阵列设计同样小巧，价格适中，而且，3麦克风阵列对声场的空间特性进行采样并处理，语音交互体验方面有着明显的优势。

新技术解决地域差别大、用户群体多和应用场景难的问题

声智科技推出的3麦克风阵列语音交互解决方案，针对智能家居场景进行了深度定制，集成更多众多新技术，只为给您带来更流畅、准确、快速、人性化的体验。

（1）面向产品，不打折扣的语音交互体验

作为小尺寸智能音箱的秘密武器，相比于其他多麦克风阵列，3麦克风阵列的技术难度很大。3麦克风阵列方案的麦克风阵列与喇叭的位置很近，带给语音交互技术处理极大的压力，特别是自噪声抑制和远场信号处理的难度急剧增加。

为了在这样的特殊结构设计获得更好的语音交互效果，3麦克风阵列远场语音交互方案内置了声智科技SoundAI Voice Kit，通过独家设计优化的AKS、VAN、OpenAEC技术等提升远场语音交互体验。即使麦克风阵列与喇叭的位置很近，在这样的特殊结构设计获得更好的语音交互效果。

不仅如此，声智科技对语音唤醒进行深度优化。众所周知唤醒率和误唤醒是一对跷跷板，当唤醒效果很好的时候，误唤醒通常也会很高，智能音箱毫无征兆的突然唤醒也是很麻烦的事情。通过一些技巧性方法降低误唤醒率是通常做法，但声智科技通过宽场景高灵敏唤醒技术，采用全新唤醒模型，更多考虑用户体验，在此基础上再降低误唤醒率，同时还提升强噪环境下的唤醒率。

（2）面向场景，大规模验证的远场语音识别

随着智能语音技术的识别精确度从60.2%提升到95%以上，用户对语音识别的要求已经从单一层面的精度提升到包括识别以及反馈这种复合层面的精确度。

作为人工智能公司，声智科技一直在思考如何带给客户完美的语音交互体验。由于远场智能产品的场景特殊性，远场语音识别相对更加垂直，不同的智能产品服务于不同的人群以及特定场景，对于家庭场景中常用的智能音箱和户外场景常用的智能汽车，两者在语音识别场景就相差甚远，66%的智能音箱用户利用设备取悦朋友和家人，播放音乐（60%）、回答常识问题（30%）和咨询天气（28%），而对于智能汽车来说，智能语音交互的重点是安全意识，所以导航、路况及娱乐设备的控制就是核心领域，因此场景是远场语音识别着重考虑解决的难题。

3麦克风阵列远场语音交互方案内置声智科技SoundAI Voice Kit（以下简称SVK）推出的远场语音识别技术。通过海量智能家居场景的数据训练，识别率更高，完整的语音交互响应速度更快，体验更加人性化。

（3）面向用户，高可靠的服务与流畅的速度

声智科技采用端云技术架构，合理在端云分配计算能力，与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准，SLA高达99.99%，保证云端服务的稳定性和并发能力。

语音识别的精度不只是准确的识别，更需要准确的从云端提取到相应信息，反馈给用户。SVK可以对接包括DuerOS、小爱开放平台、阿里AI Genies等多种主流AI平台，通过声纹识别、年龄识别、情绪识别、性别识别、哼唱识别，异响检测等功能，从云端智能检索您专属的内容。声智科技与合作伙伴一起提供的服务，既是宝贝的十万个为什么，也是爷爷的《黄帝内经》，更是妈妈们的美容宝典、穿搭百科。有问必答，答必所问，人机互动功能智能且强大，用户只需通过全程语音操控便能洞悉天下事、知晓万物生。

人们使用语音识别主要就是因为方便，但是如果语音识别速度很慢，体验就会愚钝不智能，但一个过快的回答会给用户带来轻浮感和抢话感。为了带来了更符合人性化的语音交互速度体验，声智科技整合唤醒和语音识别等从端到云的完整链路，全链条响应速度达到全球极致的1.4S以内，而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。

（4）面向服务，声纹识别激活个性化的需求

这个世界上每个人的声音都是独一无二的，性别、年龄、爱好、生活环境等的不同直接会影响语言习惯的不同，那么家里的智能设备只会单纯识别一些基本词句显然是远远不够的，它们必须要更了解你。让智能设备适应每个人的使用习惯可能吗？答案是肯定的。

声纹同指纹一样，是每个人唯一的生理特征。语音交互逐渐成为人机交互的主要方式，要让机器更懂人，就需要了解并实现人作为自然个体的唯一性，而声纹识别无疑成为了最好的选择，而这里要用的到就是语音识别的另外一项关键技术——个性化识别技术。一般来说，个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习；而语言个性化主要是指系统可以对用户的特定词汇，例如人名、地名、口头禅、专业词汇等，具备更好的辨识性，而且语音识别系统具备自动学习并适应用户使用习惯的能力，你用的越多，它会越懂你。

随着技术的不断迭代进步，未来可以根据声音条件识别出不同的使用者，不只可以保证服务的安全性和私密性，更是可以实现“千人千面”的个性化服务，依据用户行为进行内容设定与推荐。

声智科技一直以来深耕远场智能语音领域，致力于提供最好的语音交互技术，引领真实环境下更自由的人工智能交互体验，实现“听你所言，知你所想”的人机交互愿景，并且秉承合作共赢的精神，期待与更多合作伙伴一起创造人工智能的美好未来。

打开APP阅读更多精彩内容