论文阅读“ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer”

Yan Y, Li R, Wang S, et al. ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer[J]. arXiv preprint arXiv:2105.11741, 2021.

摘要粗读

学习高质量的句子表征有利于广泛的自然语言处理任务。虽然基于BERT的预训练语言模型在许多下游任务上都取得了很高的性能,但the native
derived sentence 的表示被证明是collapsed的,因此在语义文本相似性(STS)任务上产生了较差的性能。在本文中,我们提出了ConSERT,一个自监督的矩阵表示转移的对比框架,它采用对比学习,以无监督和有效的方式微调BERT。通过使用未标记的文本,ConSERT解决了BERT派生的句子表示法的崩溃问题,并使它们更适用于下游任务。实验结果展示了较好的实验性能。

In this paper, we present ConSERT, a Contrastive Framework for Self-Supervised SEntence Representation Transfer, that adopts contrastive learning to fine-tune BERT in an unsupervised and effective way.

论文贡献点
  • 论文提出了一个简单而有效的基于对比学习的句子级训练目标。它减轻了BERT衍生出来的句子表示的崩溃,并将它们转移到下游任务中。(总的概括自己的论文的整体模型概况)
  • 探索了各种有效的文本增强策略来生成对比学习的视图(模型重点部分使用的方法作为亮点提出),并分析了它们对无监督句子表示转移的影响。
  • 仅使用无监督的方式,实现了性能的明显提高。
对比学习的相关工作

对比学习作为一项无监督任务中的技术。其主要的思想是:良好的表示应该能够识别同一物体,同时区别于其他物体。使用数据增强使得每个样本会产生不同的增强版本,并使得这些样本在表示空间中接近。这种方法可以看作是对输入样本的不变性建模。

ConSERT方法浅析

给定一个类似BERT的预训练语言模型M和一个从目标分布中提取的无监督数据集D,我们的目标是对D上的M进行微调,使句子表示更与任务相关,并适用于下游任务。

General Framework

模型包含3个主要的模块:
(1)首先是一个数据增强模块,它为输入样本生成不同的视图表示作为token embedding layer的输入。
(2)其次是一个共享的BERT编码器,用来计算每个输入文本的句子表示。在训练过程中,使用最后一层的token embedding的平均池化来获得句子表示。
(3)BERT编码器上的对比损失层。它最大限度地提高了同一个句子的表示与其对应的增强版本之间的一致性,同时保持它与同一batch中的其他句子表示的距离。

详细流程:(1)对于每个输入文本x,首先将其传递给数据增强模块,其中应用两个转换T_1T_2来生成两个版本的token embedding,分别表示为: e_i=T_1(x), e_j=T_2(x)。(2)然后,e_ie_j都将由BERT中的多层transformer块进行编码,并通过平均池化生成句子表示r_ir_j。(3)对于句子表示的输出对,模型采用了经典的 the normalized temperature-scaled cross-entropy loss (NT-Xent)作为对比学习的目标。在每个训练步骤中,从D中随机抽取N个文本,构建一个mini-batch进行处理,在增强后得到2N个文本句子表示。每个数据样本点需要从2(N-1)个负样本中找出自己对应的增强样本。

Data Augmentation Strategies

模型的数据增强模块使用了四种不同的策略,如下:
  • Adversarial Attack
    该方法通过在输入样本中添加最坏情况的扰动来生成对抗性样本。请注意,该策略只适用于与监督下的联合训练,因为它依赖于监督损失来计算对抗性扰动。
  • Token Shuffling
    该策略目标是随机打乱输入序列中的token的顺序。由于transformer体系结构中的bag-of-words性质,位置编码是关于顺序信息的唯一因素。因此,根据( Slm: Learning a discourse language representation with sentence unshuffling.)论文,论文通过将打乱的位置id传递给嵌入层,同时保持标记id的顺序不变来实现这个策略。
  • Cutoff
    ( A simple but tough-to-beat data augmentation approach for natural language understanding and generation)提出了一种简单而有效的数据增强策略,称为截止。它们随机删除L×d特征矩阵中的一些标记(用于标记截止)、特征维度(用于特征截止)或标记跨度(用于跨度截止)。作者指出在实验中只使用标记截止和特征截止,并将它们应用于token embedding以生成视图。
  • Dropout
    Dropout是一种广泛使用的避免过拟合的正则化方法。在实验中,作者也展示了它作为一种对比学习的增强策略的有效性。对于这种设置,我们以特定的概率随机删除标记嵌入层中的元素,并将它们的值设置为零。与前一种增强策略不同,该策略中每个元素都是单独考虑的。
Incorporating Supervision Signals

除了无监督转移外,该方法也可以与监督学习相结合。以NLI数据集的监督任务为例:

当然没有使用标签信息的无监督方法可以很好的和监督目标相结合以很好的支持下游任务。作者在论文中也给出了不同的结合方式:

  • Joint training (joint)
    将两种监督方式相加,使用一个超参数\alpha进行调节。通常这种方法也比较常见。
    直接在NLI数据集上进行联合训练。
  • Supervised training then unsupervised transfer (sup-unsup)
    采用先使用顺序执行的方法。先对模型进行训练然后使用L_{con}对比学习进行微调。
  • Joint training then unsupervised transfer (joint-unsup)
    结合前两种方式,使用先联合训练(Joint training)再使用L_{con}对比学习进行微调的方式。
实验结果展示的分析
  • Effect of Data Augmentation Strategy

    在这一部分,作者巧妙的使用了热力图的方式,很明确的展示了不同的策略组合方式对性能的影响。

请注意,这里不考虑对抗性攻击策略,因为它需要额外的监督来生成对抗性样本。

  • Influence of Temperature
    在涉及到某些超参数的情况下,如L_{con}中temperayure参数的变化对模型性能的影响。
    其实是在实验过程中的参数的调优。
    -以及batch size的设置

该模型从结构设计上来讲,形式较为简单,但按照论文实验中所讲的一样,它以无监督的方法解决了句子表示在BERT中存在 collapsed的状况,以对比学习的方法探讨了再不增加标记数据的情况下如何对句子表示进行微调,没有额外的数据代价,并且展示出了良好的性能。
该论文中谈到了不同的数据增强的策略对性能的增强,具有很高的参考价值。并且继续思考对比学习在无监督多视图聚类中的扩展。https://github.com/yym6472/ConSERT.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容