论文-HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking

1. 简称

论文《HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking》简称HyST,作者Rahul Goel(Amazon),经典的对话状态追踪论文。

2. 摘要

基于端到端可训练神经网络的方法的最新工作证明了对话状态跟踪的最新结果。

性能最佳的方法估计所有可能的时隙值上的概率分布。但是,这些方法无法扩展到现实生活中通常使用的大值集,并且对于跟踪训练集中未发现的时隙值也不理想。

为了解决这些问题,已经提出了基于候选生成的方法。这些方法基于对话历史记录和/或语言理解输出来估计每个回合可能出现的一组值,因此可以对看不见的值和较大的值集进行状态跟踪,但是,它们在性能方面欠佳与第一组相比。

在这项工作中,我们分析了这两种替代性对话状态跟踪方法的性能,并提出了一种混合方法(HyST),该方法可为每种插槽类型学习适当的方法。

为了证明HyST在丰富的插槽类型集上的有效性,我们尝试了最近发布的MultiWOZ-2.0多域,面向任务的对话数据集。

我们的实验表明,HyST可扩展到多域应用程序。我们性能最好的模型分别比以前的SOTA和我们的最佳基准分别提高了24%和10%。

Index Terms:multi-domain dialogue systems, dialogue state tracking, scaling to previously unseen data

3. 引言

面向任务的对话系统旨在使用户能够通过口头互动来完成任务。面向任务的对话系统中的对话状态跟踪已被建议作为对话管理的一部分,目的是在给定整个先前对话上下文的情况下,估计对话系统对对话状态的信念。在过去的十年中,对话状态跟踪挑战(DSTC)提供了数据集和用于比较各种方法的框架。

在DSTC-2 中,许多系统依赖于去词化处理,其中语义字典中的插槽值被插槽标签代替,其性能优于依赖于口头语言理解输出的系统。但是,这些方法无法扩展到实际的应用程序,在这些应用程序中,人们可以遵守自然的语言话语,其中包括以前看不见的时段值提及以及对话状态可能很大的无限空间。为了解决这个扩展问题,NBT提出了一种神经信念跟踪器方法,该方法通过直接对用户的话语进行操作并集成预训练的词嵌入来处理自然语言的丰富性,从而消除了对语言理解的需求。但是,这种联合方法无法扩展到较大的对话状态空间,因为它会遍历本体中的所有时隙值对来做出决定。最近,Rastogi等人(Scalable multi-domain dialogue state tracking)提出了一种开放式词汇候选集排序方法,其中候选集是根据语言理解系统的假设生成的,用于处理可伸缩性问题。但是,由于在所有值上都存在softmax层,因此此方法不考虑多值时隙。其他工作依赖于对话上下文中的所有可能的n-gram作为候选集的可能值以及多个可能值的估计概率。尽管这些方法显示出可以处理以前看不见的值,但与以前的方法相比,它们的性能要低。有多种可能的解释。例如,第一组生成方法可以通过学习进行推论来处理用户话语中未观察到的值,即“fancy restaurant”可以映射到价格范围内的“expensive”后端值,而对于第二组,候选集可能无法捕获候选集中的“expensive”,因为在转换上下文中未明确观察到它。此外,某些时段类型可以自然地解析为很少的时段值,例如一周中的几天,这可能在训练集中观察到很多实例。第一组生成方法可能更适合于跟踪此类时间段。

在本文中,我们分析了基于分层RNN的方法和开放词汇候选词生成方法,并提出了混合状态跟踪,HyST,一种灵活且准确的对话状态跟踪的混合方法,旨在了解每种插槽类型所依赖的方法。为了研究HyST对于一组丰富的域的适用性,我们对最近发布的MultiWOZ-2.0语料库进行了实验,该语料库包括单域多域交互。当跟踪该语料库中包含的7个域的对话状态时,我们的基准要比以前的联合目标准确性基准(这需要为所有7个域的所有时隙估计正确的值)。我们最好的混合方法实现了44.22%的联合目标准确度,比我们的最佳基准高4.1%(绝对值),与以前的SOTA相比,相对改进了24%。

4. 核心

具有N个回合的对话D表示为一系列代理(a_i)和用户(u_i)回合,即a_1,u_1,a_2,u_2,...,a_N,u_N。状态跟踪的任务是预测会话的每个用户回合,u_i之后的状态(S_i)。会话状态(S_i)通常被定义为时隙类型s^k的一组时隙值s^k_i,其中%k \in {1,...,T}$是预定义的。我们定义并实现了以下两种流行的对话状态跟踪方法。

model
4.1 Approach1:Open Vocabulary State tracking(OV ST) 方法1:开放词汇表状态跟踪(OV ST)

类似于[7],我们对需要跟踪的每个槽类型采用开放词汇评分模型。用户回合u_i后模型的输入是一组候选\{1,...。,|C_i|\},其中|C_i|是依次为每个槽类型s^k和会话上下文D_i(a_1,u_1,...,a_i,u_i)的值的候选数量。对于每一个候选c_i^j和每一个槽类型s^k,模型做出二元决策\hat{y_i}^{jk}\in [0, 1]C_i^j表示为槽类型其中一个值。

如果\hat{y_i}^{jk}=1,我们使用候选c_i^j更新槽s_i^k的值。对于给定的对话,我们最大化了以下目标:

L(D)=\sum_{i=1}^N\sum_{k=1}^N\sum_{j=1}^{C_i}logP(y_i^{jk}|c_i^j,s_i^k,D_i)\tag{4.1.1}

给定用户回合u_i,我们为该回合构建一个候选集。候选集是由每种槽类型的可能槽值组成的开放集。在典型的对话系统中,这可以从SLU系统的输出中构建,使用简单的规则(如业务逻辑或实体解析器)获得额外的值。对于我们的实验,我们形成了候选集,以包括用户中的所有单词n-gram和代理话语中在该对话中i。为了减小总候选集的大小,我们只包括那些被视为训练集中可能的时隙值的n-gram
我们用{yes,no,dontcare}扩展候选集,因为它们是隐含的值,不会显式出现在会话中。在实践中,为了增加覆盖率,这样的系统还可以包括附加值,如同义词、ASR校正、来自知识图的值和来自实体解析系统的已解析实体。

系统从每个插槽的默认状态开始。每次用户发话后,我们都会用预测为肯定的候选者更新对话状态。基于系统设计,可以在对话状态更新步骤中合并各种更新策略或约束。例如,如果我们要强制执行一个插槽只能有一个值的约束,则可以从积极候选集中选择得分最高的候选。对话历史上下文特征非常灵活,我们可以通过将其附加到现有上下文向量中来轻松添加新的上下文特征。对于我们的实验,我们在每个用户u_i上使用以下上下文特征。

1. User utterance encoder (Ei):我们使用一个biLSTM去编码每一个话语,u_i=w_1^i,...w_{n_i}^i,其中n_i表示在u_i中标记的数量,并且最后的话语表示E_i是通过前向lstm最后的隐层和后向lstm最后的隐层连接而成。

image.png

2. Hierarchical LSTM (Zi):我们使用单向LSTM对过去的用户话语对对话上下文进行编码。
Z_i=LSTM^{dialogue}(E_1,...E_i)\tag{4.1.2}

3. Dialogue Act LSTM (Ai):我们在代理对话行为上使用单向LSTM来编码代理对话行为。
LSTM^{dialogueAct}(s_1,...s_k)\tag{4.1.3}

我们将所有这些特征连接到上下文特征向量F_{context}中。上下文编码器被所有时隙共享。对于每种插槽类型,我们都有:
F_{context}=[E_i;Z_i;A_i] \\ \hat{y_j}=sigmoid(FF_k(c_i^j), F_{context}) \tag{4.1.4}

最后一层FF_k是前馈层,它估计填充槽k对应c_i^j的概率。

4.2 Approach2:Joint State tracking(JST)方法2:联合状态追踪(JST)

联合状态跟踪方法建立了分层的RNN建模单词和每个对话的回合。类似于开放式词汇状态跟踪方法,我们获得了对话表示Z_i(等式2)。最后一层是每个时隙类型kFF_k的前馈网络,该网络估计了所有分布插槽类型可能值的概率,S_k = s_k^1,...,s_k^{|S_k|}:

P_i(s_k\in S_k|Z_i)=softmax_k(FF_k(Z_i))\tag{4.2.1}

可能值的词汇V_k由训练集中观察到的值组成,包括nonedontcare。所有插槽类型均共享分层RNN层。

4.3 Hybrid state tracking(HyST)混合状态追踪(HyST)

我们将上述两种方法组合为一种混合方法。对于每个插槽,我们在OV ST和JST之间选择。

A_k(M)=\frac{\sum_{i=1}^N1\{y_i^k=\hat{y_i}^{kM}\}}{N}\tag{4.3.1}

给定方法M时,时隙k的精度。我们选择最佳方法M_{opt}作为

M_{opt}=\argmax_{JST,OV ST}(A^k(JST),A^k(OV ST))\tag{4.3.2}

我们学习使用开发集进行选择的方法。表3中标有“ *”的位置是开放词汇表方法在开发集上表现更好的位置。

Slot breakdown for MultiWOZ-2.0

5. 实验与结果

An example dialogue with dialogue states after each turn

在所有实验中,我们将每个回合剪辑为30个标记,将每个对话剪辑为过去30个回合。我们使用ADAM[21]进行优化,学习率为0.001和默认参数。我们在训练时使用128的批量。我们随机初始化嵌入矩阵,并在训练过程中学习它们。我们使用手动搜索来调整使用我们的开发集的所有参数。

开放词汇状态跟踪:该模型由四个编码器组成:句子编码器,分层对话编码器,对话行为编码器和候选编码器。我们的候选编码器是维度300的嵌入查找。我们使用相同的嵌入层作为句子编码器的输入。我们的句子编码器是一个隐藏大小为256的biLSTM。我们的句子表示是biLSTM的最终状态。分层对话编码器是隐藏大小为512的LSTM,其将句子表示作为输入。我们将嵌入大小50用于系统对话框动作,并使用隐藏大小为64的LSTM对其进行编码。我们将这些表示连接起来,并将其通过输出为256的前馈网络传递。最终的256维向量用于每个时隙类型的二进制判决。

联合状态跟踪:联合模型用300维向量表示单词和系统动作,话语LSTM的隐藏层大小为200,对话级别LSTM的隐藏层大小为150。在早期的实验中,发现代理的作用是无用的,并从最终结果中排除。

结果

6. 重点论文

  • J.Williams,A.Raux,D.Ramachandran,andA.Black,“Thedia- log state tracking challenge,” in Proceedings of the SIGDIAL 2013 Conference, 2013, pp. 404–413.
  • M.Henderson,B.Thomson,andJ.D.Williams,“Theseconddi- alog state tracking challenge.” in SIGDIAL Conference, 2014, pp. 263–272.
  • N. Mrksˇic ́, D. O. Se ́aghdha, T.-H. Wen, B. Thomson, and S. Young, “Neural belief tracker: Data-driven dialogue state track- ing,” in 55th Annual Meeting of the Association for Computa- tional Linguistics (ACL), 2017.
  • A.Rastogi,D.Hakkani-Tu ̈r,andL.Heck,“Scalable multi-domain dialogue state tracking,” in Automatic Speech Recognition and Understanding Workshop (ASRU), 2017 IEEE. IEEE, 2017, pp. 561–568.
  • R. Goel, S. Paul, T. Chung, J. Lecomte, A. Mandal, and D. Hakkani-Tur, “Flexible and scalable state tracking frame- work for goal-oriented dialogue systems,” arXiv preprint arXiv:1811.12891, 2018.
  • B. Thomson and S. Young, “Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems,” Computer Speech & Language, vol. 24, no. 4, pp. 562–588, 2010.
  • B. Liu and I. Lane, “An end-to-end trainable neural network model with belief tracking for task-oriented dialog,” in Proceed- ings of Interspeech, 2017.

7. 代码编写

本文相关链接: http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

# 后续追加代码分析

参考文献

  1. Goel, R., Paul, S., & Hakkani-Tur, D. (2019, July 1). HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking. arXiv.org.
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,841评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,415评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,904评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,051评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,055评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,255评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,729评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,377评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,517评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,420评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,467评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,144评论 3 317
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,735评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,812评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,029评论 1 256
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,528评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,126评论 2 341