非侵入式Self-attention多维信息融合
Bert模型自2018年提出至今依旧辉煌热度不减,其在自然语言领域取得的成绩非常注目。一些研究已经将Bert应用在了序列数据的处理上,比如序列推荐场景下。然而在推荐场景下除了item序列之外,还有存在与序列item相关的额外信息(如用户在item的驻留时长、item类型等),又因为Bert模型只使用一种token序列作为输入,所以如何将与token相关的额外信息融合到模型,以及融合模型是否能提升模型性能成为一个新的研究方向。
Bert的强大是不能缺少的self-attention机制的贡献的。正是由于Self-attention机制可以解决RNN无法处理的长依赖问题和Self-attention优秀的并行能力,成就了Bert的声名鹊起。当然应用Self-attention机制的另一个明星模型就是地表最强模型——GPT了,目前OpenAI已经将GPT演进到了GPT-3了。
论文地址:https://arxiv.org/pdf/2103.03578.pdf
从Self-attention说起
self-attention机制可以理解为对输入序列的加权和,而其中的加权系数也就是所谓的Attention了,那么self主要表达了这些加权系数是由输入序列计算而来并且作用于输入的token,这与传统的attention机制有所不同。当然这里主要是针对Transformer模型中的encoder进行说明。其计算过程可以由下图来说明
self-attention计算过程示例
其中由组成长度为4的序列,经过embedding之后得到,在分别经过三个线性变换得到. 之后分别计算attenton权重经过加权和得到对序列所有token的综合向量, 即完成了的self-attention过程。
从上述过程中可以看出,原始self-attention计算过程中仅仅将token经过上述计算过程,与token相关的其他相信并未经过该流程。此外,序列中token本身的position信息经过编码(Transformer是由余弦函数编码,Bert则由随机Embedding编码)与向量对应相加。若认为position信息是一种token的额外信息的话,那么论文作者认为这种直接相加的方式属于侵入式信息融合。当采用同样的侵入方式处理其他额外相关信息的话,其效果不明显甚至有反效果。
为什么侵入式融合的效果差?
作者在一些先导性试验上验证了侵入式的信息融合并不能取得一个明显的提升效果,甚至会导致效果变差。其中可能的原因有两个:
- 直接在item表征上加入额外相关信息后,会造成item信息淹没;
- 一般情况下,模型利用self-attention层堆叠进行自动编码,融合额外信息后的映射空间会形成一个混合空间映射,在对item表征进行解码时带来混乱或困难。
这里的直接相加是一种融合方式,此外如拼接、有门控制的相加等融合方式同样无法解决这两种问题。
解决方案
如何解决信息淹没和混合映射空间带来的问题呢?作者提出了一种新的解决方案,首先我们定义用户序列:
其中表示用户在第次产生的交互实体,,是交互实体item的集合,也就是vocabulary。
额外相关信息可以分为两种:一种是和用户行为相关的信息,一种是和交互实体item相关的信息。加入额外信息后,交互序列的实体表示为:
将实体item和额外信息综合表征得到
其中表示对用户第次交互的综合表示,表示融合函数,表示对应的embedding层。其中融合函数主要有直接相加融合、逐点乘积融合和门函数融合等方式。
定义仅有实体ID得到的表示为
于是,用户序列的表征可以分为两种,仅由ID得到的表征和包含额外信息的综合表征:
则新的注意力计算为:
其中,即由包含额外信息的综合表征经过线性变换求得,由仅包含ID信息的表征经过线性变换求得。
上图表达了侵入式融合和非侵入式融合的两种方式。
实施方案
作者的具体实施方案如下图所示:
左图是作者在原始Bert架构上做了调整,将额外信息作为辅助融合到模型中,具体融合方式由右图说明。其中作为辅助的额外信息在Bert layer迭代过程中始终不变,而id信息则随着迭代不断进行更新。作者认证尽管id表征信息不断在更新,但是其始终处于同一映射空间中,所以在该映射空间中解码会获得更加准确的编解码。
实验结果
作者使用新的融合方案后得到的attention在多个数据集上均取得了最好的性能表现。
- NOVA-Bert的效果比其他的都要好
- 与Bert4Rec仅利用位置ID相比,侵入式融合使用了很多额外信息,但是改进非常有限甚至有负面效果。相反,NOVA-Bert方法能有效利用额外信息,性能稳定,优于其他方法
- 对于越大越稠密的数据集,模型提升的幅度会下降。作者认为在语料更丰富的情况下,这些模型可以从序列上下文中学习到足够好的embedding,而留给辅助信息的补充空间更小。
- NOVA-BERT模型的鲁棒性非常好;不管使用什么融合函数,NOVA-Bert的效果都比baseline好
- 最佳融合函数可能取决于数据集。一般情况下,gating融合方法具有很强的性能,这可能是因为gating方式的可训练机制