人工智能伴侣虚拟机器人小冰的技术解读

电子工程师 2018-06-17 7006

电子说

1.2w人已加入

三百六十行，行行出状元。在众多行业中有这么一个行业迎来了一位“新人”——微软小冰。

作为一款人工智能伴侣虚拟机器人的小冰，去了歌唱界。不仅发表个人单曲，还参与作词作曲，经历了五次迭代的微软小冰，现在已经成为一个会作曲会唱歌的全能型艺人。

▌作曲写诗写词样样精通

2017 年，微软出版了一本由小冰原创的诗集《阳光失了玻璃窗》，这是第一部 100% 由人工智能创造的诗集。在写诗之后，小冰还创作不同类型的文体，填词，唱歌，发表个人单曲等。

据介绍，小冰创作的基本原理有两大块，一块是他需要学习前人的作品，包括上千位诗人的诗集、上千万行歌词等等。第一步，训练深度神经网络的模型；第二步，有了一定的模型之后，需要给她一个触发源，工程师们称为创作冲动。

创作冲动有不同的方式，给出一张图片或文字，基于图片里的元素或文字内容的理解去创作，例如知乎上的海量回答，学习知乎预料大数据作为触发源，基于一个训练好的模型，生成对应的歌词。

值得注意的是，在小冰发布的单曲中，还听到有模拟真人呼吸的声音，据微软（亚洲）互联网工程院微软小冰首席语音科学家栾剑表示，主要是因为考虑到大众的习惯，没有换气可能会让人听着感觉很累，因为有些时候发烧友会跟着哼唱，没有呼吸换气的地方，会觉得不太舒服。

在技术上实现呼吸换气主要分为两个模块，第一个模块，首先要预测什么地方会有呼吸的声音，第二个模块，怎么样把呼吸的声音生成出来。

关于第一个，人类有两种呼吸，一个是这个歌到了一个休止符，在语意的地方需要一个停顿；还有一种，这首歌可能节奏很快，中间没有任何的停顿，这时候人类的歌手必须要在某个地方换一下气，不然的话，人类的肺活量支撑不了。

关于换气的声音，其实换气的声音有点类似于人类的声音，它就是一种没有声带振荡的声音，我们可以把他作一种中文语言系统以外的一种新的发言的因素去建模。

▌最早实现全双工对话

在 2016 年的 9 月份，微软小冰就开始真正的给人类打电话，到目前为止，打了超过 60 万通电话。在通话过程中会增加“嗯”、“啊”这样的语气词，给人的感觉更像真人，并且做到了全双工对话，可以互相打断，真正做到双方互动的聊天。

另外，小冰运用的领域是一个很开放的领域。她实际上跟用户在沟通的过程中话题，内容，都是可以双方提出来的。不仅是小冰抛出一个话题，就限定在这个话题里聊，而是随时可以根据对方抛出的新话题去聊。

据栾剑介绍，小冰这种开放领域的聊天难度上会更大一些。首先上下文大篇幅的语义理解在业界和学术界都是一个很难的课题，比如在写诗的时候，有时候的用词比较古怪，或者语句之间不太通顺，但实际上可能存在有一种潜在的逻辑。

也遇到了一个技术的瓶颈，语意理解像是一个黑盒子，这个黑盒子，会收入一些内容也会反馈一些内容，反馈的内容给人的感觉好像是理解了，但实际上他是不是真正理解了，是没有办法判断的。

人也是这样，在实际对话过程中，更多的是先给个输入，然后给个输出，再根据这个输出来判断他是不是真正理解了，但实际上这里面是有一定的套路存在的，你去判断他是不是理解，可能是很困难的，因为里面并没有一个那么直观的东西存在。

▌AI 的三个层次：运算智能、感知智能、认知智能

第一层，运算智能，像算盘一样；

第二层，感知智能，能够感知到一个物品是什么；现在大多数的 AI，包括语音、图象等还是停留感知智能层次上；

第三层，认知智能；像人一样，知道是什么，还知道为什么这样，还可以推理，这个层次较难。

说到底，AI 的创造力和人类的创造力之间有什么差别呢？

微软（亚洲）互联网工程院人工智能创造事业部副总经理袁晶表示，人的左脑更加偏向于计算；人的右脑是偏向创造力，发散思维，现在希望用计算的方式，让 AI 用左脑的方式去模拟右脑的行为。

换句话讲，这种创造在人里面只有顶尖的艺术家才能干，但是放到 AI 上，就相当于可以简化这个学习和训练的过程了。

相当于说，让她去拟合人类创作者的创作过程，并且能以这样的能力去帮助普通人去做一些创造，因为每个人都想去做一些创作的行为，只不过说限于自己的能力，AI 能够做到相当于他的助手，帮助普通人，享受创作的乐趣。比如她可以和你一起为你新出生的孩子、或你的恋人写首情诗，也可能为你爸爸的生日创作一首歌曲等。

▌未来小冰将尝试更多内容领域的创作

袁晶表示，未来会渐渐让小冰去尝试往内容生成的领域做一些探索，可能半年一年，很多别的公司或者机构，也会跟随这个趋势去做类似这样的事情。

在袁晶看来，人工智能在内容领域有一些新的能力或者突破可能将会是未来的一个方向，所以也会往这个方向不断的去做一些尝试，包括声音、文字、图像等三个方面，AI 未来会充当协助角色，帮助人类的创作者，去更好更快更高效的创作内容。

首先 AI 创造的成本是很低的，要比人类的创造成本低很多。比如读故事，当我们找配音员去读这个故事，他可能要付出一定的成本，但是如果声音的模型训练好了之后可以大批量的生成，成百上千个小时的大量的用户，所以他的成本会摊薄到很低。

小冰的声音技术里面增加了一些韵律和风格的变换，使得她可以去模仿人类创作者，在各种场景下面做各种不同的演艺。而机器人可以非常真实的模拟人声，让很多人有各种各样的顾虑。

栾剑表示，小冰声音的生成和使用的过程都是严格受控的，将来提供服务的时候，模型本身，以及合成的引擎本身，另外，小冰之前给人类打电话已经打了60万个，小冰都会先申明身份，明确告诉用户我们是微软小冰。微软设有专门的人工智能的委员会，防止人类利用人工智能技术去做伤害他人和社会的事情。

打开APP阅读更多精彩内容