欧洲顶尖研发人员如何看待BAT智能音箱

电子工程师 2018-05-03 3104

人工智能

636人已加入

描述

从两年多前，亚马逊推出智能音箱Echo以来，谷歌、微软、苹果等科技巨头先后涌入成为行业领跑者，他们的加入也将起初默默无闻的智能音箱，变成了如今炙手可热的智能硬件。亚马逊Echo现在的销量已超过10亿美元。

给这股热潮更添一把火的还有中国市场的科技巨头们。

7月5日，阿里巴巴集团在京发布首款人工智能音箱产品，未来其功能上或与电商购物相结合，几乎同期，充当第三方合作伙伴的音乐类品牌喜马拉雅FM代表音频内容提供方，也推出了自己的小雅AI音箱；另一家电商巨头京东也在此前率先发布了智能音箱“叮咚”以希望占领智能家居领域的入口；此前腾讯高层也公开表态称，腾讯智能音箱产品“耳朵”将于8月前后发布。小米、百度、联想等也推出了智能音箱产品。至此，中国的BAT巨头们几乎聚齐在智能音箱领域。

智能音箱之所以会被巨头青睐，很重要一个原因是，其便捷的语音交互可以提供查询、购买商品、控制家电等功能，这被看作是智能家庭的入口和下一代人机交互界面的重要载体。

而这些当然不是全球知名科技公司的凭空想象，有数据显示，在美国，约有近4000万用户每月会使用一次语音操控的音箱。市场调研机构StrategyAnalytics指出，2016年智能音箱全球出货量590万台，并将在2022年增长10倍，市场价值达到55亿美元。

更有第三方机构预测，到2018年，30%的人机交互通过自然语言完成，2018年有望成为智能音箱爆棚式发展的关键一年。

面对国内智能音箱这一现象级热潮，FT找到了海外在智能语音技术上有不同侧重的两家公司的核心研发人员，跟他们聊聊硬件背后，智能语音识别技术的那些事。

数据的可获得性是语音识别“预测”的瓶颈

在过去的几年，Pawel观察到了市面上越来越多的智能语音产品，在他看来这是一个信号，“新的改革将要到来，因为一系列产品正在改变人们的日常生活，Amazon Echo就是很好的例子，它让人们意识到没有语音助手会不方便，就好比生活中没有智能手机。”

Emotech作为一家技术驱动的创业公司，研发团队在智能语音上，经常会尝试添加一些类人的技术，“让设备可以更好的理解非语音的提示，并且更具表现力的作出回应。简单来说，我们想创造一个与人们生活方式相兼容的设备。” Pawel解释道，与其他初创公司相比，在Emotech，最具特色的是，尝试利用硬件和软件平台来提供个性化的助理解决方案，而其他大部分初创公司，只会专注于硬件或软件中的其中一个。

Emotech的Olly机器人在语音识别研发上，一开始团队就从公开的语料库中构建种子模型，然后不断迭代和收集更多匹配的域内数据，让它更适应真实的声学环境。Olly除了硬件，还有拥有专利的类脑引擎、机器人心理学架构、智能语音识别等软件上的研发。

Pawel透露，经过产品的迭代，Olly除了能够实现语义和语音识别外，还能通过语音和人脸识别更为精准地辨识出用户的身份，满足用户的需求。Olly还可以检测到用户的情绪变化，并通过LED 颜色，形状的变化和自身的运动和与他们进行情感互动，这也是Olly最为独特的地方。

作为女性，Marily则很善于从用户的角度来寻求改进语音识别技术的智能性。

Marily非常喜欢做饭，但在做饭的场景中，很难使用手机，所以在做饭的时候，Marily几乎每天都会用到手机的译写功能，跟家人和朋友发信息聊天，“声音识别在烹饪方面用处真的很大，尤其是你需要计时，或者需要一张根据冰箱现有食材专门制定菜谱的时候。” 而这正是智能语音识别在生活应用场景中及其有需求的地方。

电脑可以将语音转化成文字，在Marily看来是非常奇妙的事。事实上，在20世纪20年代，语音识别技术就已经出现了，一开始，这项技术智能识别某一特定人说的数字，到了1962年，IBM创立的系统就能识别16个单词的单词了。到了70年代，语音识别系统就能辨别出不同人的声音了，不过，需要说话人说一句停顿一句。

Marily说，如今的语音识别系统建立在隐马尔可夫模型的基础上。其原理是，通过已知的声音创建随机模型，将其与某一特定模型产生的未知声音进行匹配。也就是说，这个模型下的语音识别技术可以让机器准确地“猜”出我们要说什么。不过像其他预测行为一样，这需要大量的数据分析作为系统运转的原动力，“数据的可获得性是语音识别‘预测’的瓶颈、但我相信在未来会越来越多地接触到语音识别的应用，如果我们能想到在崭新的未来里有什么，我们就会真的在那时候真的得到什么。”

如今在Marily的生活中智能语音几乎无处不在，她会在出门的时候问Siri要不要带伞，用脸书的M制定计划和完成付款，然后告诉Google Home调暗起居室的光线并打开电视看《权利的游戏》。Alexa会自动帮她在亚马逊上订货品。“我最喜欢的Google Home的语音识别功能是，它能通过匹配身份和声音‘知道’谁在跟它说话。” Marily说。

研发与商业化的平衡点：做出让人们生活更美好的科技

Pawel所在的Emotech和Marily所在的谷歌，是聚焦智能语音研究的位于产业链两端的公司，一家是巨无霸，一家是有特色研发能力的初创公司，因此，这也造就了他们在智能语音研发上的不同思路，Pawel的体验是，大公司能提供更专注的工作环境，“你被分配了一个明确的问题，你可以花几个月去解决这个问题。”而在初创公司，目标可能会发生很大的变化，“你将因为目标的变化而改变你将面对的问题，通常超出你的舒适范围度。”

在Pawel看来，在初创公司工作好比一场冒险，沿途有许多起伏。“在Emotech，我们经常在非常紧迫的时间内开发、整合和测试某些模块，这个过程并不容易。最重要的部分是要学会灵活，持久和耐心。”

尽管有谷歌的大公司背景，Marily最近也在做另一个尝试，“以黑客松项目为起点，尝试建立初创公司”，这两个身份一个倾向于学界研究，以将假设通过探索方式得到验证为目的，一个则需要考虑工业应用商业落地，初创公司需要找到“归宿”并且要充满激情，这两件事都让Marily觉得有吸引力。

事实上，面对全新的领域，无论是创业公司还是科技巨头，都不可避免的走在不断试错的路上。而商业化和技术研发的关系有并存也会有某种程度上的制约，作为一个身在商业公司的研发人员，Pawel则有更为客观的看法，他认为，所有的研发都需要开支，这些开支总是要想办法为它买单。这就需要公司参与者，找到一个真正的平衡点，Pawel认为这个平衡点就是，做能让人们生活更加美好的科技。

智能语音识别正是符合这一观点的新技术，“这在某种程度上加强了一种相辅相成关系，人们使用语音识别的机会越多，产品就会变得越好，商业公司就会不断的改进产品，因为产品使用率变高，就会收集到更多必要的数据，这也是改进产品一个重要途径。” Pawel说。

用户总能“秀”出下一代技术或产品追踪用户非常有意义

作为学界和科技公司的一线从业者，在英国，Pawel、Marily经常会参加行业聚会。

让Marily感受最深的是，在头脑风暴的过程中，往往给他们带来新点子和新产品，“有时候这些讨论成果会直接导致新的产品开发团队的形成。谷歌街景还有脸书的视频类产品就是这样诞生的。”Marily说，最近一次，她参加的一项行业聚会，跟圈内的朋友畅聊了新技术、出版物、电子等话题，在她看来，有时候看似不相关的行业，对于人工智能亦或是智能语音识别，都能提升潜在的协同效应。

而这种源自不同文化专业背景和思维方式的头脑风暴，在Emotech团队中也常常发生。Emotech的团队构成非常多元化，30个员工拥有22种母语，而且不同于传统科技公司只有科学家和程序员，这里还有音乐家、游戏师、心理专家等各种背景的组合。

谈及未来公司在智能语音方面的发展规划，Pawel说，Emotech会更加努力提升ASR（自动语音识别）系统，使其能让多个人同时说话，或者在非常嘈杂的环境中工作，例如鸡尾酒会的场景。这将会产生一些有趣的应用程序，“让设备可以收集多个声源或只关注某一个谈话者无视其他的，我希望能建立会话界面使用的更多模式，因为当任务和对话界面一样复杂时，许多信息时隐藏在对话之间的。”有趣的是，人类本身也并没有很好的掌握同时听多个人说话的技能，相反在噪声或混响声环境中只会注意单个说话者。

而对Marily来说，谈及未来，让她首先想到了60年代的科幻电影，“当时我们觉得跟机器说话是完全虚构的，现在小说的描述已经变成现实。我们已经拥有了自己的AI助手，他们在外形上可能不像一个机器人，但是他们已经在这儿了，还可以由我们随心支配。”基于这样的基础，她认为未来人们能够定制自己的AI助理，并能定制它们的声音和外貌。

Marily大胆的畅想了一下未来的场景，自己的AI助理将会为个人的生活量身打造，会根据时间和地点自动做出调整。它们会学着如何“理解”主人的需求。比如，可以让自己的AI助理像某个自己非常喜欢的演员，这只是科技公司将AI技术变成现实的无数个例子中的一个而已。

而个人助理和AI语音识别技术的关联是，科技正在改变人机交互的方式，语音识别会让人性化的人机交互成为可能。“我非常期待看到未来AI和语音识别技术将会走向何方，在我得到自己的C3PO之前，一切都有可能。”

Marily说，她常常会在技术中发现“缺口”然后找到创新的方式去填补，她相信用户们总能“秀”出下一代技术或者产品是什么，因此追踪用户是一件非常有意思的事情，这也是她初创公司建立的灵感来源。“假设我们是用户，特别喜欢某个产品，但很明显地它存在着某种缺憾，要怎样完善这个缺憾呢？与其临渊羡鱼，不如退而结网，想想你自己的使命是什么然后去实现吧。”

可以看到的是，语音交互是现在智能家居领域最高频的应用之一，已经可以实现的是，智能语音跟电视、音响、空调、窗帘、灯具、玩具等家用设备、智能家居控制中枢系统相结合，通过语音交互实现从入口控制全部的功能，伴随像巨头谷歌、创业公司Emotech一样的公司的不断努力，未来智能语音的便捷交互还有更多值得期待。

嘉宾简介

Pawel Swietojanski（简称Pawel）是欧洲顶尖人工智能创业公司Emotech 团队，智能家用机器人Olly的语音识别研究员，Emotech是一家技术驱动的人工智能创业公司。2016年11月，在CES会展上，Emotech的智能情感机器人Olly获得四项创新大奖，2016年8月，该项目完成总额1000万美元的A轮融资。智能语音识别一直是公司最为重视的基础架构之一。

在加入Emotech之前，Pawel是爱丁堡大学语音技术研究中心的博士生。他发表过多篇语音和语言处理的文章，对语音识别声学建模的颇有贡献，他的两篇论文分别获得了电气电工程师学会口语技术最佳论文和IBM 研究口语技术最佳学生论文奖。他还曾两次在微软公司实习，并曾获邀成为日本情报通信研究机构访问研究员。

Marily Nika（下称Marily）拥有伦敦帝国理工学院计算机科学系博士学位，曾创力预测互联网现象——病毒式传播的模型，读博期间，她曾先后在Google和Facebook 做数据分析员，毕业后她加入Google硅谷成为工程项目经理，参与Google Assistant， Google Home和数据&人工智能的研发与管理。她先后三次在TEDx 登台演讲，并在2015年获得了科学与工程领域有影响力女性奖。帝国理工学院因为她在科技领域中的卓越贡献授予了她奖章。她也是第一个获得Google 安妮塔·博格纪念奖学金的女性极客。如今，Marily也是 EdTech创业公司的CEO。

打开APP阅读更多精彩内容