深入“万人迷”小冰的核心技术与聊天机器人技术的发展趋势！

电子工程师 2019-01-15 3878

电子说

1.4w人已加入

描述

从 2014 年的夏天小冰出现在我们的视野到今天，谈到小冰，你的第一印象是什么？一款可爱、萌萌哒的聊天机器人？一款随时在你身边，可以帮你做一些场景任务的语音助手？如果说，这两年智能音箱成为 AI 领域里的“流量明星”，那小冰更想让你领略她“偶像与实力”兼备的魅力。

从第四代小冰到第六代小冰，武威从团队的主要研发人员成为现在小冰核心技术的负责人、首席科学家。这几年来，他一直致力于开放域对话的研究，为了深入了解小冰是如何走进我们的生活，走入我们的内心，AI科技大本营采访到了微软小冰首席科学家——武威，带领大家深入了解小冰背后的技术以及聊天机器人的发展历程与趋势。

武威与三代小冰核心技术的成长史

武威：我个人的研究方向主要是开放域对话，探索的一个主要应用场景是聊天机器人的对话引擎，也就是聊天机器人对话引擎的核心算法。搭建开放域对话模型，主要有基于检索和基于对话生成两种方法。我们一直在研究检索模型方法，通过研究实际对话中上下文与回复候选匹配等问题，构建检索模型，并与小冰团队的工程师们一起合作，把这种方法应用在小冰上。在持续研究两三年后，我们又拓展出基于文本、视频回复候选的匹配，也是在此之后，我和团队把研究与应用拓展到多模态层面。关于对话生成，我们早期主要是基于上下文的回复生成, 后来研究并应用了共感模型，这些技术都成为每一代小冰背后的核心技术。同时，我个人也将研究领域拓展到基于生成模型的对话管理和生成模型的个性化对话管理。

在小冰的业务中，我参与了小冰诸多关键技术的研发工作。现在，小冰全球的生成模型，包括中国、日本、印度尼西亚和美国等不同语言的生成模型，主要都是由我负责。

正是小冰团队多年来在聊天机器人领域的不断研究与探索，在 2018 EMNLP 会议中，我与大家分享了聊天机器人领域的历史、发展现状与未来的趋势。经过这些年的努力，聊天机器人对话模型的一些基本问题已经得到很好的解决，比如对话回复和对话生成两个技术难点。

首先在对话回复方面，通过匹配的方法根据对话上下文找到合适的回复，其匹配精度在不断提高。以小冰的模型方法在公开数据集上的性能表现为例，两年间我们把模型的准确率从 66% 提升到了 80%，这还没有考虑一些强力的预训练模型比如 Bert。其次是对话生成，早期的方法经常给出无趣、万能的回复，经过近几年学界的研究，万能回复问题虽不能说完全避免，但是从初期把简单的机器翻译模型应用在对话生成，到后来对上下文建模问题的探索，都是不断提出针对这个问题更好的解决方案。现在工业界搭建聊天机器人，系统协调已经不再是一个难点问题。

目前，大家都在探讨聊天机器人如何商业落地，这就需要我们把研究成果与技术发展更加紧密结合，推动聊天机器人的落地。关于未来的趋势和热点方向，其一是多模态在聊天机器人领域中的研究与应用。聊天机器人不仅可以综合处理图像、声音和文字信息，同时可以进行综合模态，甚至包括情感等特征信息的输出与表达。目前，学界在这个领域的研究已经进入火热态势，也涌现了很多公开数据集，来探索如何利用多模态构建对话引擎。第二个方向是个性化分析与推荐的研究与应用，这也是目前学界和工业界都在发力的一个方向。

小冰的核心技术：对话引擎

小冰背后最核心部分是对话引擎。传统的对话引擎主要分为 ASR+TTS、NLU、DM 和 NLG 四个模块。随着大数据技术和深度学习技术的发展，把 NLU、DM 和 NLG 模块用统计模型的方法，进行端到端的训练。

神经网络

以小冰为代表的聊天机器人对话引擎，现在主要有两种方法：基于检索方法和基于生成式方法。两种方法中，神经网络都发挥着非常重要的作用：

基于检索的方法：根据用户输入的数据（对话信息），系统查询索引（Index）后找到所有可能的回复，对所有候选回复进行排序筛选，最后挑选出认为最合适的回复，返回给用户，其关键在于构建索引库（语料库）。

基于生成式的方法：用于数据数据（对话信息），系统通过深度学习方法生成一个回复返回给用户，其关键在于用深度学习方法构建一个生成模型。

神经网络

近年来，深度学习的发展在自然语言处理领域也发挥着重要的作用，研究与应用的每一个技术几乎都使用了深度学习的方法。

基于检索的方法的关键在于如何根据上下文对话、语义理解与候选回复等信息设计并构建 Matching Models。随着 Matching Models 越来越成熟，模式（pattern）覆盖越来越多时，训练性能和测试性能之间的差距，可能无法通过模型结构改善，因此现在我们将更注重模型的学习。

神经网络

基于生成式方法的一个基本模型是 Encoder-Attention-Decoder 模型，其模型结构借鉴了 MT（机器翻译）模型。现在基于生成模型的方法已经得到很多的关注，学界和工业界都在不断研究与应用这个方法。

神经网络

除了基于检索与基于生成模型的方法，武威在报告中，还有很多主要的技术与每项技术使用的不同方法、不同网络模型。如 NLP 任务中的 Word Embedding 与 Sentence Embedding 的各种模型，多样性回复的解决方法，融入 Topic、情绪情感特征和表情的方法，强化学习、GAN 与个性化等问题的研究与探索等等。

传送门：《Deep Chit-Chat: Deep Learning for ChatBots》

http://www.ruiyan.me/pubs/tutorial-emnlp18.pdf

神经网络

第六代小冰的共感模型

AI科技大本营：第六代小冰是如何做到根据当前话题与上下文，回复信息、引领对话、提出新对话甚至进行持续性对话？

武威：原来的聊天机器人集中于对话怎么回复、如何回复一些简单的问题。而小冰第六代发布生成式的共感模型，旨在提供一个一致的框架，解决上下文理解、意图识别与持续性对话三个问题。提出共感模型的关键在于把对话过程提升至一个被动与主动结合的交互过程。

在共感模型中，有三个重要环节：明确对话状态、策略选择与回复生成。首先，我们明确设定了几种对话状态。一种是无意识状态，比如没有额外意图、无须太多反应的社交词令。一种是有意识状态，需要确认、主动提问或主动引导的话题状态。明确对话状态后，就到了回复生成与策略选择的过程。当用户开始对话后，我们首先要识别意图，是问好、提问、陈述信息还是意在获取信息等，其开放域对话的意图非常宽泛。结合不同的意图与当前对话内容，决定下一轮的对话策略，匹配之前识别到的意图，最后生成回复的对话，这就形成了策略选择和回复生成结合的过程。通过数据学习或正向学习等方法选择合适的策略，让整个对话更持续、更顺畅的。

就像我们平时人与人之间的对话过程一样，并不都是处在完全被动的互动过程，我们会根据对话内容决定说些什么，也会在某些时候引导或提出新对话，这背后的策略与想法也是共感建模的核心。

AI科技大本营：策略选择与回复生成结合的过程是否是强化学习的过程？小冰是否应用了强化学习方法？

武威：强化学习过程中必不可少的一部分是奖励函数（Reward Function），在开放域对话过程中，如何定义奖励函数是一个具有挑战的问题。在基于任务型对话中，最终是否完成任务以及完成所需轮数可以用作强化学习的奖励函数，但是在开放域对话中，仅用对话轮数衡量不一定完全正确，同时也没有找到合适度量人机交互满意度的方式。我们确实尝试过用强化学习方法构建共感模型，但实验结果的提升并不十分明显。在小冰产品的应用中也发现了这个现象。这也是研究和应用的不同之处。

多模态的高级认知体系

2017 年第五代小冰发布了全双工语音交互，并在打电话和智能音箱两个场景中落地。到了第六代小冰，融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官系统，并同时进行开放域对话。

AI科技大本营：随着计算机视觉、NLP 等领域不断取得突破，多模态信息在感知层面有好的表现是不够的，深入到理解、更高级的认知能力时，现在小冰在多模态领域研究中做到了什么样的程度？目前有哪些方面的新研究？

武威：目前小冰在多模态领域取得的进展可以总结为松耦合状态，各个模态可以一起工作，但耦合之下还不够十分紧密。比如，假如聊天机器人有了视觉，看到了视频，看到了周围的环境，同时又接收声音、语音或文字信息，我们可以想象这些信息都应该对小冰的回复有所帮助，但是这两种模态的信息是如何结合产生帮助的？什么时候应该结合一起，什么时候不需要结合？当模态变多后，耦合也会增多，那耦合之间是否会有所冲突？有了冲突，产生噪音，如何规避噪音？比如情感特征，声音包含情感，如何与文字结合，使回复的对话也能带有情感？乃至最终表达情感是通过 TTS 方式还是表情表达更为合适与自然？这些问题都还在研究过程中，但还不是完全清楚。

AI科技大本营：多模态在小冰情感计算模型发挥着怎样的作用？

武威：第六代小冰已经是一个整体情感计算框架。通过小冰的探索，要实现带有情感的聊天机器人，多模态是必不可少的。我们也从单模态进行考量，但是在对话交互中的效果并不是非常好。小冰从单模态到多模态，结合图像、视频、语音和文字等信息后，情感像一条纽带，贯穿一起，架构于此。目前这还是一个具有挑战性的课题，我们也在探索中。

AI科技大本营：除了多模态研究，还有哪些研究趋势？

武威：除了多模态，个性化聊天机器人也是我们正在研究的方向。个性化不止一两种，而是非常多的个性。其实，共性与个性的问题是如何平衡大数据与小数据间的问题，共性代表了大数据，个性代表了小数据，如果强调个性，数据太少，可能无法做出一个合格、有质量的对话引擎；如果用大数据搭建了高质量的对话模型，有可能就无法体现个性。所以，小数据的个性化离不开大数据。现在学界和工业界也都在探索大数据如何与小数据综合利用，实现有质量的个性化对话模型。

小冰的 AI 创造力

武威：AI 创造一直是小冰的一个重点研究与应用方向，几乎和对话同等重要。从早期小冰作诗、金融领域文本生成、音乐与歌曲生成，到现在小冰的有声读物，都是小冰在 AI 创造领域取得的成果。在 NLP 领域，目前，在短文本生成与创造已经有了比较不错的效果，现在也已经有更多的研究投入在更复杂的任务上，比如基于文本或视频讲故事，长文写作等。未来，我们也在想，小冰是否可以完成写小说、写散文等内容与艺术创造任务，这应该也是处于一个探索的“有待突破”的研究领域。

AI科技大本营：同行或同类产品中，也有以内容创作为主要落地场景，实现 AI 赋能与更多的商业价值，成为非常重视的方向，小冰未来在这方面有什么计划？

武威：内容创作在一定程度上已经可以节省人力，在可与人类相媲的质量前提下，完成的更快更多，这本身确实具有一定的价值与商业价值。但是它能带来更深层次的价值是什么样子的，目前还不是十分清楚。比如，大家也都在讨论的用 AI 创作艺术品，这个价值到底有多少，也很难衡量。

下一代小冰

AI科技大本营：小冰与很多第三平台的合作，除了智能家居领域，还希望探索哪些应用场景？未来如何定位，实现商业化价值？

武威：小冰的产品线非常丰富，应用场景也在不断丰富。不仅应用在智能家居、智能音箱中，小冰的声音还有有声读物、节目主持以及企业垂直解决方案等。有声读物已经超过了 400 万小时的收听量，小冰姐姐讲故事已经覆盖了国内了 90% 以上的儿童早教机器人，80% 在线收听品平台。到现在，小冰一共参与生成主持了 55 档电视节目。与日本 LAWSON 合作，帮助便利店发放优惠券等垂直解决方案。还有，国内个性化聊天机器人与网易、华为等公司合作，帮助他们打造自己的聊天机器人。所以，小冰乃至聊天机器人的应用除了 IOT 还有更多。因为，在我们看来，说话本身就是一种刚需，人在日常生活与工作中，很多事情都需要通过说话沟通来解决。我们也曾想过，要不要马上去做目前大家都在谈到的刚需，比如问答。但是，如果在解决实际问题解决时，机器人不能满足用户的需求，也无法让用户留存与活跃，而后续也就无从再谈。所以，我们做小冰，是先做常态再满足刚需。

和不同的第三方平台合作，面对不同的需求，我们主要有三种拓展商业模式的方法：一种是我们根据对方平台帮助其打造一个自有的 AI 产品；二是嵌入小冰平台到对方平台中，辅助对方 AI 产品，融入对方平台的生态系统；三是我们提供平台，对方利用微软的技术、运营与产品打造自己平台的一些差异化特征，推出相应产品与应用。

AI科技大本营：未来小冰如何保持领先？第七代小冰是否有发布计划？

武威：在开放域对话这个赛道，希望大家一起努力把聊天机器人做的越来越好。比如 Facebook 现在也开始布局，目前 Alexa 主打还是任务导向，其实也在此领域开始投入。未来小冰仍将通过已有的优势，比如用户与数据优势，持续打磨技术，希望继续处于领先水平。未来，小冰的核心仍然是对话引擎、AI 创造以及解决方案。能够在情感计算框架下诞生更多聊天机器人服务于更多的合作伙伴，也是我们期待的事情。第七代小冰还是值得大家期待的。

打开APP阅读更多精彩内容