从树结构的长短期记忆网络改进语义表示

Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

从树结构的长短期记忆网络改进语义表示


图1:上:链结构LSTM网络。下:具有任意分支因子的树状结构LSTM网络。

1 简介

用于短语和句子的分布式表示的大多数模型——即使用实值向量来表示意义的模型——属于三个类别之一:

  • 词袋模型
  • 序列模型
  • 树结构模型

在词袋模型中,短语和句子表示独立于词序:例如,它们可以通过平均构成词表示来生成(Landauer和Dumais,1997; Foltz等,1998)。相反,序列模型构造句子表示作为令牌序列的顺序敏感函数(Elman,1990; Mikolov,2012)。最后,树形结构模型根据句子上的给定句法结构,从其构成的子词组成每个短语和句子表示(Goller和Kuchler,1996; Socher等,2011)。
对顺序不敏感的模型不足以完全捕捉自然语言的语义,因为它们无法解释由于词序或句法结构的差异导致的意义差异(例如,“猫爬树”与“猫爬树”) )。因此,我们转向有序的顺序或树状结构模型。特别是,树状结构模型是一种语言上具有吸引力的选择,因为它们与句子结构的句法解释有关。那么,一个自然的问题是:在多大程度上(如果有的话)我们可以用树状结构模型做得更好,而不是句子表示的顺序模型?在本文中,我们通过直接比较最近用于实现若干NLP任务中的最新结果的顺序模型类型与其树结构化泛化来解决该问题。
在我们的评估中,我们证明了Tree-LSTMs的经验强度作为表示句子的模型。我们在两个任务上评估Tree-LSTM架构:句子对的语义相关性预测和从电影评论中得出的句子的情感分类。我们的实验表明,Tree-LSTM在两个任务上都优于现有系统和顺序LSTM基线。我们的模型和实验的实现可以在https://github.com/stanfordnlp/treelstm上找到。

2 LSTM

2.1 概述

递归神经网络(RNN)能够通过在隐藏状态向量上递归应用转换函数来处理任意长度的输入序列。在每个时间步t,隐藏状态h_{t}是网络在时间t接收的输入矢量x_{t}及其先前隐藏状态h_{t-1}的函数。例如,输入向量x_{t}可以是文本正文中第t个单词的向量表示(Elman,1990; Mikolov,2012)。隐藏状态h_{t}\in \mathbb{R}^{d}可以被解释为直到时间t观察到的记号序列的d维分布式表示。

通常,RNN转换函数是一个自然变换,然后是逐点非线性,如双曲正切函数:h_{t}= \tanh (Wx_{t}+Uh_{t-1}+b)
不幸的是,具有这种形式的转变函数的RNN的问题在于,在训练期间,梯度向量的组分可以在长序列上指数地增长或衰减(Hochreiter,1998; Bengio等,1994)。随着梯度爆炸或消失的这个问题使得RNN模型难以学习序列中的长距离相关性。
LSTM架构(Hochreiter和Schmidhuber,1997)通过引入能够长时间保持状态的存储器单元来解决学习长期依赖性的问题。虽然已经描述了许多LSTM变体,但在这里我们描述了Zaremba和Sutskever(2014)使用的版本。
我们在每个时间步骤t将LSTM单元定义为\mathbb{R}^{d}中的向量集合:输入门i_{t},忘记门f_{t},输出门o_{t},存储器单元c_{t}和隐藏状态h_{t}。门控向量i_{t}f_{t}o_{t}的元素位于\left |0,1\right |中。我们将d称为LSTM的记忆维度。

LSTM的计算公式如下:


其中x_{t}是当前时间步的输入,\sigma表示逻辑Sigmod函数,⊙表示元素乘法。直观地,遗忘门控制忘记前一个记忆细胞的程度,输入门控制每个单元的更新程度,输出门控制内部记忆状态的曝光。因此,LSTM单元中的隐藏状态向量是单元内部记忆细胞状态的门控局部视图。由于门控变量的值对于每个矢量元素而变化,因此模型可以学习在多个时间尺度上表示信息。

2.2 LSTM变种

两种常用的基本LSTM架构变体:

  • 双向LSTM
  • 多层LSTM(也称为堆叠或深LSTM)。

双向LSTM:双向LSTM(Graves等,2013)由两个并行运行的LSTM组成:一个在输入序列上,另一个在输入序列的反向上。在每个时间步,双向LSTM的隐藏状态是前向和后向隐藏状态的串联。此设置允许隐藏状态捕获过去和未来信息。
多层LSTM:在多层LSTM架构中,层l中LSTM单元的隐藏状态在同一时间步骤中用作层\ell+1中LSTM单元的输入(Graves等,2013; Sutskever等,2014; Zaremba和Sutskever, 2014)。这里的想法是让更高层捕获输入序列的长度依赖性。
这两种变体可以组合成多层双向LSTM(Graves等,2013)。

3 树结构的LSTM

上一节中描述的LSTM体系结构的局限性在于它们仅允许严格的顺序信息传播。在这里,我们提出了基本LSTM架构的两个自然扩展:

  • Child-Sum Tree-LSTM
  • N-ary Tree-LSTM

两种变体都允许更丰富的网络拓扑,其中每个LSTM单元能够合并来自多个子单元的信息。
与标准LSTM单元一样,每个Tree-LSTM单元(由j索引)包含输入和输出门i_{j}o_{j},记忆细胞c_{j}和隐藏状态h_{j}。标准LSTM单元和Tree-LSTM单元之间的区别在于门控向量和记忆细胞更新取决于可能许多子单元的状态。另外,Tree-LSTM单元不是单个遗忘门,而是为每个孩子k包含一个遗忘门f_{jk}。这允许Tree-LSTM单元选择性地合并来自每个孩子的信息。例如,Tree-LSTM模型可以学习在语义相关性任务中强调语义头,或者它可以学习如何保持情感丰富的孩子的表达以用于情感分类。


图2:组合具有两个子节点(下标2和3)的Tree-LSTM单元的记忆细胞
c_{1}
和隐藏状态
h_{1}
。标记的边缘对应于指示的门控向量的门控,为了紧凑性省略了依赖性。
与标准LSTM一样,每个Tree-LSTM单元采用输入向量
x_{j}
。在我们的应用程序中,每个
x_{j}
都是句子中单词的向量表示。每个节点的输入字取决于用于网络的树结构。例如,在依赖树上的Tree-LSTM中,树中的每个节点将对应于头字的向量作为输入,而在选区树上的Tree-LSTM中,叶节点将相应的字向量作为输入。

3.1 Child-Sum Tree-LSTMs

给定树,让C(j)表示节点j的子集。Child-Sum Tree-LSTM转换方程式如下:


在公式(4)中,
k \in C(j)

直观地,我们可以将这些方程中的每个参数矩阵解释为编码Tree-LSTM单元的分量矢量,输入
x_{j}
和单元的孩子节点的隐藏状态
h_{k}
之间的相关性。例如,在依存树应用程序中,模型可以学习参数
W^{(i)}
,使得当给出语义上重要的内容词(例如动词)时,输入门
i_{j}
的组件具有接近1的值(即,“打开”)。作为输入,当输入是相对不重要的单词(例如确定器)时,值接近0(即“关闭”)。
依存树-LSTM。由于ChildSum Tree-LSTM单元在孩子隐藏状态
h_{k}
的总和上调整其组件,因此适用于具有高分支因子或其孩子节点无序的树。例如,对于依存树来说,它是一个很好的选择,其中头部的从属数量可以是高度可变的。我们将应用于依存关系树的Child-Sum Tree-LSTM称为依存树-LSTM。

3.2 N-ary tree-LSTMs

N -ary Tree-LSTM可用于树结构,其中分支因子最多为N,并且子项是有序的,即它们可以从1到N索引。对于任何节点j,分别将其第k个孩子节点的隐藏状态和记忆细胞写为h_{jk}c_{jk}。N-Tree Tree-LSTM转换方程如下:


在公式(10)中,
k = 1,2,...,N
。注意,当树只是一个线性链时,公式(2)-(8)和公式(9)-(14)都减少到标准LSTM计算公式(1)。
为每个孩子k引入单独的参数矩阵允许N-Tree Tree-LSTM模型在单元的孩子的状态上学习比ChildSum Tree-LSTM更细粒度的条件。例如,考虑一个选区树应用程序,其中节点的左孩子节点对应于名词短语,右孩子节点对应动词短语。假设在这种情况下强调表示中的动词短语是有利的。然后可以训练
U_{k\ell}^{(f)}
参数,使得
f_{j1}
的分量接近0(即“忘记”),而
f_{j2}
的分量接近1(即“保留”)。
忘记门参数化。在Eq.10中,我们定义了包含“非对角线”参数矩阵
U_{k\ell}^{(f)}
k \neq \ell
的第k个孩子的忘记门
f_{jk}
的参数化。此参数化允许更灵活地控制从孩子到父的信息传播。例如,这允许二叉树中的左隐藏状态对右孩子的遗忘门具有兴奋或抑制效果。但是,对于较大的N值,这些附加参数是不切实际的,可以绑定或固定为零。
句法解析器生成的递归二叉树结构(Constituency Tree-LSTMs)。我们可以自然地将二叉树-LSTM单元应用于二值化选区树,因为区分了左右子节点。我们将二元树-LSTM的这种应用称为选区树-LSTM。注意,在选区树-LSTM中,节点j仅在它是叶节点时才接收输入向量
x_{j}

在本文的其余部分,我们将重点介绍依赖树-LSTM和选区树-LSTM的特殊情况。事实上,这些架构密切相关;由于我们只考虑二值化选区树,因此两个模型的参数化非常相似。关键区别在于组成参数的应用:依赖树与LSTM的依赖与头部,以及选区树-LSTM的左孩子与右孩子。

4 模型

我们现在描述两个应用上一节中描述的Tree-LSTM架构的特定模型。

4.1 Tree-LSTM分类

在此背景中,我们希望从树的一些子节点的一组离散类Y中预测标签\widehat{y}。例如,解析树中节点的标签可以对应于该节点所跨越的短语的某些属性。
在每个节点j,我们使用softmax分类器来预测标签\widehat{y}_{j},给定在以j为根的子树中的节点处观察到的输入\{x\}_{j}。分类器将节点处的隐藏状态h_{j}作为输入:


代价函数是每个标记节点上正确类标签
y^{(k)}
的负对数似然性:

其中m是训练集中标记节点的数量,上标k表示第k个标记节点,λ是L2正则化超参数。

4.2 句子对的语义相关性

给定句子对,我们希望预测\left [1,k\right ]在某个范围内的实值相似度得分,其中K > 1是整数。序列\{1,2,...,K\}是一些序数相似度,其中较高的分数表示较高的相似度,并且我们允许实值分数考虑地面实况等级,这是几个人类注释者的评估的平均值。我们首先使用每个句子的解析树上的Tree-LSTM模型为对中的每个句子生成句子表示h_{L}h_{R}。给定这些句子表示,我们使用神经网络预测\widehat{y}的相似性得分,该神经网络同时考虑(h_{L},h_{R})对之间的距离和角度:


其中
r^{T}=\left [1\ 2...\ K\right ]
和绝对值函数以元素方式应用。使用距离测量
h_{\times }
h_{+ }
是出于经验的动机:我们发现组合优于单独使用任何一种测量。乘法度量
h_{\times }
可以解释为输入表示符号的元素比较。
我们希望给定模型参数θ的预测分布
\widehat{p}_{\theta}
下的预期评级接近金评级
y \in \left [1,K\right ]:\widehat{y}=r^{T}\widehat{p}_{\theta}\approx y
。因此,我们定义了满足
y=r^{T}p
的稀疏目标分布1 p:

对于
1\leq i \leq K
。代价函数是p和
\widehat{p}_{\theta}
之间正则化的KL-发散:

其中m是训练对的数量,上标k表示第k个句子对。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容

  • 主要内容 自然语言输入编码 前馈网络 卷积网络 循环网络(recurrent networks ) 递归网络(re...
    JackHorse阅读 4,089评论 0 2
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,834评论 2 64
  • 当薄雾弥漫了你转身的时候 当蝴蝶飞过了你折花的温柔 当盛夏忘记了你 当寒冬不记得你 当你把生活举在头顶 让细水从你...
    张诺一阅读 228评论 5 10
  • 一、 大三了,有一种感觉越来越强烈:我不熟悉城市,也农村陌生,这个世界我不懂。 我的家在一个偏僻的山村里,我小学初...
    _小有阅读 574评论 0 4
  • 吃夜宵太幸福,钥匙会掉。钥匙掉了不难过,难过的是挂坠,最爱的不二兔。 当初大凌凌送的,逛遍了整个萧山才给我淘来的。...
    小黄丫阅读 159评论 0 0