强化学习应用中对话系统的用户模拟器

独爱72H 2019-08-06 2568

模拟技术

2524人已加入

描述

近几年来，强化学习在任务导向型对话系统中得到了广泛的应用，对话系统通常被统计建模成为一个马尔科夫决策过程（Markov Decision Process）模型，通过随机优化的方法来学习对话策略。

任务导向型对话系统用于帮助用户完成某个任务如查电影、找餐馆等，它一般由四个模块组成：自然语言理解模块（Natural Language Understanding, NLU）、对话状态跟踪模块（Dialog State Tracking, DST）、对话策略模块（Dialog Policy, DP）和自然语言生成模块（Natural language Generation, NLG），其中 DST 和 DP 合称为对话管理模块。

在和用户的每轮交互过程中，对话系统利用 NLU 将用户的语句解析成为机器可理解的语义标签，并通过 DST 维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用 DP 选择合适的对话动作，最后通过 NLG 将对话动作转成自然语言回复。对话系统通过和用户进行交互得到的对话数据和使用得分则可用于进行模型的强化学习训练。

然而在实际中，和真实用户的交互成本昂贵，数据回流周期慢，不足以支持模型的快速迭代，因此研究者们通常会构建一个用户模拟器（User Simulator, US）作为对话系统的交互环境来进行闭环训练。有了用户模拟器产生任意多的数据，对话系统可以对状态空间和动作空间进行充分地探索以寻找最优策略。

一个效果良好的用户模拟器，我们期望它具备以下 3 个特征：

有一个总体的对话目标，能够生成上下文连贯的用户动作；有足够的泛化能力，在语料中未出现的对话情形里也能生成合理的行为；可以给出定量的反馈评分用于指导模型学习优化。为了实现以上目标，学术界做了大量的研究工作，从最基础的 bi-gram 模型 [4] ，到经典实用的 Agenda-based的方法 [2] ，再到最近基于深度学习的用户模型 [9, 10] ，用户模拟器的效果得到了显著提升，也为对话模型的训练提供了有效的方法。

一个比较典型的用户模拟器，对话开始时用户模拟器基于 User Goal（用户目标）发出一个话术：“Are there any action movies to see this weekend?”（这个周末有什么动作片可以看的吗?），这句话进到对话系统的自然语言理解模块和对话管理模块后，生成一句系统动作：“request_location”（询问地点）。

简便起见，这里省略掉系统的 NLG 模块，系统回复直接送到用户模拟器的用户模型（User Model），通过用户状态更新和行为策略选择，生成用户对话行为：“inform(location=San Francisco)”（告知地点为旧金山），接下来经过 Error Model（可选）和 NLG 模块，生成对应的自然语言，比如：“San Francisco, please.”（帮我订旧金山的）。以此往复，用户模拟器和对话系统持续多轮交互，直到对话结束。

从上面的过程我们可以看到，典型的用户模拟器和对话系统的结构比较相似，包含以下 4 个基本组成部分：

1. 用户目标（User Goal）：用户模拟的第一步就是生成一个用户对话的目标，对话系统对此是不可知的，但它需要通过多轮对话交互来帮助用户完成该目标。一般来说，用户目标的定义和两种槽位相关: 可告知槽（informable slots）和可问询槽（requestable slots），前者形如“槽=值”是用户用于查询的约束条件，后者则是用户希望向系统问询的属性。

例如：用户目标是 “inform(type=movie, genre=action, location=San Francisco, date=this weekend),request(price)”表达的是用户的目标是想要找一部本周在 San Francisco 上映的动作片，找到电影后再进一步问询电影票的价格属性。有了明确的对用户目标的建模，我们就可以保证用户的回复具有一定的任务导向，而不是闲聊。

2. 用户模型（User Model）：用户模型对应着对话系统的对话管理模块，它的任务是根据对话历史生成当前的用户动作。用户动作是预先定义好的语义标签，例如“inform, request, greet, bye”等等。用户动作的选择应当合理且多样，能够模拟出真实用户的行为。用户模型是用户模拟器的核心组成部分，在接下来的章节里我们将会详细介绍各种具体模型和方法。

3. 误差模型（Error Model）：它接在 User Model 下游，负责模拟噪声，对用户行为进行扰动以模拟真实交互环境下不确定性。简单的方式有：随机用不正确的意图替换正确的意图、随机替换为不正确的槽位、随机替换为不正确的槽值等；复杂的方式有模拟基于 ASR 或 NLU 混淆的错误。

4. 自然语言生成（NLG）：如果用户模拟器需要输出自然语言回复，就需要 NLG 模型将用户动作转换成自然语言表述。例如用户动作标签“inform(type=movie, genre=action, date=this weekend)” 进行 NLG 模块后生成自然语句“Are there any action movies to see this weekend?”。

打开APP阅读更多精彩内容