论文-HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking

1. 简称

论文《HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking》简称HyST，作者Rahul Goel(Amazon)，经典的对话状态追踪论文。

2. 摘要

基于端到端可训练神经网络的方法的最新工作证明了对话状态跟踪的最新结果。

性能最佳的方法估计所有可能的时隙值上的概率分布。但是，这些方法无法扩展到现实生活中通常使用的大值集，并且对于跟踪训练集中未发现的时隙值也不理想。

为了解决这些问题，已经提出了基于候选生成的方法。这些方法基于对话历史记录和/或语言理解输出来估计每个回合可能出现的一组值，因此可以对看不见的值和较大的值集进行状态跟踪，但是，它们在性能方面欠佳与第一组相比。

在这项工作中，我们分析了这两种替代性对话状态跟踪方法的性能，并提出了一种混合方法（HyST），该方法可为每种插槽类型学习适当的方法。

为了证明HyST在丰富的插槽类型集上的有效性，我们尝试了最近发布的MultiWOZ-2.0多域，面向任务的对话数据集。

我们的实验表明，HyST可扩展到多域应用程序。我们性能最好的模型分别比以前的SOTA和我们的最佳基准分别提高了24％和10％。

Index Terms：multi-domain dialogue systems, dialogue state tracking, scaling to previously unseen data

3. 引言

面向任务的对话系统旨在使用户能够通过口头互动来完成任务。面向任务的对话系统中的对话状态跟踪已被建议作为对话管理的一部分，目的是在给定整个先前对话上下文的情况下，估计对话系统对对话状态的信念。在过去的十年中，对话状态跟踪挑战（DSTC）提供了数据集和用于比较各种方法的框架。

在DSTC-2 中，许多系统依赖于去词化处理，其中语义字典中的插槽值被插槽标签代替，其性能优于依赖于口头语言理解输出的系统。但是，这些方法无法扩展到实际的应用程序，在这些应用程序中，人们可以遵守自然的语言话语，其中包括以前看不见的时段值提及以及对话状态可能很大的无限空间。为了解决这个扩展问题，NBT提出了一种神经信念跟踪器方法，该方法通过直接对用户的话语进行操作并集成预训练的词嵌入来处理自然语言的丰富性，从而消除了对语言理解的需求。但是，这种联合方法无法扩展到较大的对话状态空间，因为它会遍历本体中的所有时隙值对来做出决定。最近，Rastogi等人(Scalable multi-domain dialogue state tracking)提出了一种开放式词汇候选集排序方法，其中候选集是根据语言理解系统的假设生成的，用于处理可伸缩性问题。但是，由于在所有值上都存在softmax层，因此此方法不考虑多值时隙。其他工作依赖于对话上下文中的所有可能的n-gram作为候选集的可能值以及多个可能值的估计概率。尽管这些方法显示出可以处理以前看不见的值，但与以前的方法相比，它们的性能要低。有多种可能的解释。例如，第一组生成方法可以通过学习进行推论来处理用户话语中未观察到的值，即“fancy restaurant”可以映射到价格范围内的“expensive”后端值，而对于第二组，候选集可能无法捕获候选集中的“expensive”，因为在转换上下文中未明确观察到它。此外，某些时段类型可以自然地解析为很少的时段值，例如一周中的几天，这可能在训练集中观察到很多实例。第一组生成方法可能更适合于跟踪此类时间段。

在本文中，我们分析了基于分层RNN的方法和开放词汇候选词生成方法，并提出了混合状态跟踪，HyST，一种灵活且准确的对话状态跟踪的混合方法，旨在了解每种插槽类型所依赖的方法。为了研究HyST对于一组丰富的域的适用性，我们对最近发布的MultiWOZ-2.0语料库进行了实验，该语料库包括单域和多域交互。当跟踪该语料库中包含的7个域的对话状态时，我们的基准要比以前的联合目标准确性基准（这需要为所有7个域的所有时隙估计正确的值）。我们最好的混合方法实现了44.22％的联合目标准确度，比我们的最佳基准高4.1％（绝对值），与以前的SOTA相比，相对改进了24％。

4. 核心

具有 $N$ 个回合的对话 $D$ 表示为一系列代理( $a_i$ )和用户( $u_i$ )回合，即 $a_1，u_1，a_2，u_2，...，a_N，u_N$ 。状态跟踪的任务是预测会话的每个用户回合， $u_i$ 之后的状态( $S_i$ )。会话状态( $S_i$ )通常被定义为时隙类型 $s^k$ 的一组时隙值 $s^k_i$ ，其中%k \in {1，...，T}$是预定义的。我们定义并实现了以下两种流行的对话状态跟踪方法。

model

4.1 Approach1:Open Vocabulary State tracking(OV ST) `方法1：开放词汇表状态跟踪(OV ST)`

类似于[7]，我们对需要跟踪的每个槽类型采用开放词汇评分模型。用户回合 $u_i$ 后模型的输入是一组候选 $\{1，...。，|C_i|\}$ ，其中 $|C_i|$ 是依次为每个槽类型 $s^k$ 和会话上下文 $D_i(a_1，u_1，...，a_i，u_i)$ 的值的候选数量。对于每一个候选 $c_i^j$ 和每一个槽类型 $s^k$ ，模型做出二元决策 $\hat{y_i}^{jk}\in [0, 1]$ ， $C_i^j$ 表示为槽类型其中一个值。

如果 $\hat{y_i}^{jk}=1$ ，我们使用候选 $c_i^j$ 更新槽 $s_i^k$ 的值。对于给定的对话，我们最大化了以下目标：

$L(D)=\sum_{i=1}^N\sum_{k=1}^N\sum_{j=1}^{C_i}logP(y_i^{jk}|c_i^j,s_i^k,D_i)\tag{4.1.1}$

给定用户回合 $u_i$ ，我们为该回合构建一个候选集。候选集是由每种槽类型的可能槽值组成的开放集。在典型的对话系统中，这可以从SLU系统的输出中构建，使用简单的规则(如业务逻辑或实体解析器)获得额外的值。对于我们的实验，我们形成了候选集，以包括用户中的所有单词 $n-gram$ 和代理话语中在该对话中 $i$ 。为了减小总候选集的大小，我们只包括那些被视为训练集中可能的时隙值的 $n-gram$ 。
我们用{yes，no，dontcare}扩展候选集，因为它们是隐含的值，不会显式出现在会话中。在实践中，为了增加覆盖率，这样的系统还可以包括附加值，如同义词、ASR校正、来自知识图的值和来自实体解析系统的已解析实体。

系统从每个插槽的默认状态开始。每次用户发话后，我们都会用预测为肯定的候选者更新对话状态。基于系统设计，可以在对话状态更新步骤中合并各种更新策略或约束。例如，如果我们要强制执行一个插槽只能有一个值的约束，则可以从积极候选集中选择得分最高的候选。对话历史上下文特征非常灵活，我们可以通过将其附加到现有上下文向量中来轻松添加新的上下文特征。对于我们的实验，我们在每个用户 $u_i$ 上使用以下上下文特征。

1. User utterance encoder (Ei)：我们使用一个biLSTM去编码每一个话语， $u_i=w_1^i,...w_{n_i}^i$ ，其中 $n_i$ 表示在 $u_i$ 中标记的数量，并且最后的话语表示 $E_i$ 是通过前向lstm最后的隐层和后向lstm最后的隐层连接而成。

image.png

2. Hierarchical LSTM (Zi)：我们使用单向LSTM对过去的用户话语对对话上下文进行编码。
$Z_i=LSTM^{dialogue}(E_1,...E_i)\tag{4.1.2}$

3. Dialogue Act LSTM (Ai)：我们在代理对话行为上使用单向LSTM来编码代理对话行为。
$LSTM^{dialogueAct}(s_1,...s_k)\tag{4.1.3}$

我们将所有这些特征连接到上下文特征向量 $F_{context}$ 中。上下文编码器被所有时隙共享。对于每种插槽类型，我们都有：
$F_{context}=[E_i;Z_i;A_i] \\ \hat{y_j}=sigmoid(FF_k(c_i^j), F_{context}) \tag{4.1.4}$

最后一层 $FF_k$ 是前馈层，它估计填充槽 $k$ 对应 $c_i^j$ 的概率。

4.2 Approach2:Joint State tracking(JST)`方法2：联合状态追踪（JST）`

联合状态跟踪方法建立了分层的RNN建模单词和每个对话的回合。类似于开放式词汇状态跟踪方法，我们获得了对话表示 $Z_i$ （等式2）。最后一层是每个时隙类型 $k$ ， $FF_k$ 的前馈网络，该网络估计了所有分布插槽类型可能值的概率， $S_k = s_k^1，...，s_k^{|S_k|}：$

$P_i(s_k\in S_k|Z_i)=softmax_k(FF_k(Z_i))\tag{4.2.1}$

可能值的词汇 $V_k$ 由训练集中观察到的值组成，包括none和dontcare。所有插槽类型均共享分层RNN层。

4.3 Hybrid state tracking(HyST)`混合状态追踪（HyST）`

我们将上述两种方法组合为一种混合方法。对于每个插槽，我们在OV ST和JST之间选择。

$A_k(M)=\frac{\sum_{i=1}^N1\{y_i^k=\hat{y_i}^{kM}\}}{N}\tag{4.3.1}$

给定方法 $M$ 时，时隙 $k$ 的精度。我们选择最佳方法 $M_{opt}$ 作为

$M_{opt}=\argmax_{JST,OV ST}(A^k(JST),A^k(OV ST))\tag{4.3.2}$

我们学习使用开发集进行选择的方法。表3中标有“ *”的位置是开放词汇表方法在开发集上表现更好的位置。

Slot breakdown for MultiWOZ-2.0

5. 实验与结果

An example dialogue with dialogue states after each turn

在所有实验中，我们将每个回合剪辑为30个标记，将每个对话剪辑为过去30个回合。我们使用ADAM[21]进行优化，学习率为0.001和默认参数。我们在训练时使用128的批量。我们随机初始化嵌入矩阵，并在训练过程中学习它们。我们使用手动搜索来调整使用我们的开发集的所有参数。

开放词汇状态跟踪：该模型由四个编码器组成：句子编码器，分层对话编码器，对话行为编码器和候选编码器。我们的候选编码器是维度300的嵌入查找。我们使用相同的嵌入层作为句子编码器的输入。我们的句子编码器是一个隐藏大小为256的biLSTM。我们的句子表示是biLSTM的最终状态。分层对话编码器是隐藏大小为512的LSTM，其将句子表示作为输入。我们将嵌入大小50用于系统对话框动作，并使用隐藏大小为64的LSTM对其进行编码。我们将这些表示连接起来，并将其通过输出为256的前馈网络传递。最终的256维向量用于每个时隙类型的二进制判决。

联合状态跟踪：联合模型用300维向量表示单词和系统动作，话语LSTM的隐藏层大小为200，对话级别LSTM的隐藏层大小为150。在早期的实验中，发现代理的作用是无用的，并从最终结果中排除。

结果

6. 重点论文

J.Williams,A.Raux,D.Ramachandran,andA.Black,“Thedia- log state tracking challenge,” in Proceedings of the SIGDIAL 2013 Conference, 2013, pp. 404–413.
M.Henderson,B.Thomson,andJ.D.Williams,“Theseconddi- alog state tracking challenge.” in SIGDIAL Conference, 2014, pp. 263–272.
N. Mrksˇic ́, D. O. Se ́aghdha, T.-H. Wen, B. Thomson, and S. Young, “Neural belief tracker: Data-driven dialogue state track- ing,” in 55th Annual Meeting of the Association for Computa- tional Linguistics (ACL), 2017.
A.Rastogi,D.Hakkani-Tu ̈r,andL.Heck,“Scalable multi-domain dialogue state tracking,” in Automatic Speech Recognition and Understanding Workshop (ASRU), 2017 IEEE. IEEE, 2017, pp. 561–568.
R. Goel, S. Paul, T. Chung, J. Lecomte, A. Mandal, and D. Hakkani-Tur, “Flexible and scalable state tracking frame- work for goal-oriented dialogue systems,” arXiv preprint arXiv:1811.12891, 2018.
B. Thomson and S. Young, “Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems,” Computer Speech & Language, vol. 24, no. 4, pp. 562–588, 2010.
B. Liu and I. Lane, “An end-to-end trainable neural network model with belief tracking for task-oriented dialog,” in Proceed- ings of Interspeech, 2017.

7. 代码编写

本文相关链接： http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

# 后续追加代码分析

参考文献

Goel, R., Paul, S., & Hakkani-Tur, D. (2019, July 1). HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking. arXiv.org.