利用对比学习来提升采样质量

Introduction

今天分享一篇来自2021年NIPS会议的paper:Improving Contrastive Learning on Imbalanced Seed Data via Open-World Sampling。论文题目的意思是:在不平衡的原始数据上,通过对比学习(Contrastive Learning)来提升开放式采样效果。其出发点是:当前对比学习许多下游任务上都取得显著成效,尤其在不平衡数据场景下,且有实验显示构造的负样本对越多越好,这样就会“引诱”研究者使用大量的外部未标注数据来构造对比样本以提高表征效果。如此就引来以下问题:1)采样大量的未标注数据加入学习意味需要消耗更多的计算资源;2)采样的外部未标注数据通常呈现隐式长尾分布,加入学习的样很可能跟原始任务没任何关联,以致带来噪声的学习;3)盲目的使用所有采样的未标注数据,也会进一步导致样本不平衡和分布分散的问题。基于上述问题,论文作者提出一种基于对比学习的开放式采样框架MAK(Model-Aware K-center)其核心是提出三个采样原则1)长尾性(tailness),保证采样的样本尽可能是原任务中的长尾数据;2)近似性(proximity),保证采样的样本尽可能是原任务是相关的,过滤掉分布之外的样本,解决OOD问题;3)多样性(diversity),期望采样的数据有一定差异性。论文的核心就是围绕这三个原则来展开的,接下来我们详细了解下这几个原则。

Three Principles

图中用动物图像识别的例子来说明提出的MAK框架:在原始训练数据集中,狗类属于头部标签(Head class),豹类属于尾部标签(Tail class),所以在采样时首先忽视头部类的样本,保证采样的长尾性;接着排除掉跟原始数据高度相似的样本,保证采集的多样性;最后删掉跟动物识别不相关的样本,保证采样的近似性。

(1)Tailness

为了实现采样达到长尾性的目的,在对比学习框架下,作者认为hard examples(难样本)可以视为尾部类样本,这在不平衡性(或呈现长尾分布)数据集上是合理的,因为模型在尾部的样本通常识别的不好。那问题又转化称为:如何识别hard samples。文中说有一种直观的方式来判断:选择对比损失(contrastive loss)最大的样本作为hard sample,但由于对比损失受数据增强方式的影响,而通常增强方式都是采用随机性,这样选择难样本的噪声有点大。为此,作者提出 empirical contrastive loss expectation——经验期望对比损失来判断难样本,其意思就是将每个样本进行多次对比学习(M次),然后进取平均,以此降低随机数据增强的影响,即为:

上述第一个公式是计算样本v_iM次对比损失后的平均值;第二个公式里是在一个batch里样本v_i对比损失计算方式,其中A为数据增强方法,V-为batch里相对v_i的负样本集合。

这样文中选择经验期望对比损失最大的样本作为hard sample,也视为尾部采样的样本。作者在实验中验证其提出的该损失的有效性。

(2)Proximity

虽然Tailness原则保证采样是尾部的样本,但在开放的未标注数据集上,还是很可能采到跟原任务不相关的数据。为此,作者提出近似原则(Proximity),解决这个问题,即为:

公式中s_0,s_1分布代表原始数据集和外部采样的数据集,D(s_0,s_1)定位两个数据集的平均距离,以期望越小越好。delta符号表示两个样本的空间距离,文中采用cosine distance的方式。此外,为了提高计算效率,在实验中,对于s_1中的一个样本来说,并不计算s_0中所有样本,而是采用 K-mean的方式计算。

(3) Diversity

在保证长尾性和近似性后,再追求采样的多样性,避免采样的样本跟原始样本高度相似,这样对模型来说并不能带来更多有意义的差异性特征学习。其计算原则为:


公式中S_all为外部所有数据,s_1也是其中部分,表示从中采样的一个小集合,数量小于等于K。其计算的逻辑是,在给定的s_0中心点下,期望采样的s_1的中心点,到s_0s_1组合新的中心点最近,到S_all中心点最远,以此得到具备多样性的subset。这里采用 K-center 贪婪的算法求解,整体计算流程见下图。

Model-Aware K-Center(MAK)

把上述三个原则加在一起,即构成这样的一个采样优化目标:


因为上述优化是NP-hard问题,为了求解上述目标,作者采用分段计算的方式,先把前两个计算项组成一个新的指标q,即为:

其中N为正态分布,alpha为平衡参数。具体计算步骤为:首先在原始数据集s_0上训练一个样本表征模型f;然后利用表征模型计算经验对比损失L_CL和 平均特征距离D,进而计算q值排序,选择最大前C个样本构造初步采样池,这一步即达到采样的长尾性和近似性原则;最后在初步采样池中,利用K-center 贪婪的算法,选择并形成最终K个样本组成的新采样集合s_1,即为输出结果。

Experiment

在实验中,论文使用 ImageNet-100-LT做原始数据集,使用ImageNet-900 and ImageNet-Place-mix作为外部采样的数据集。超参数中M取5,K取10,C1.5K。下图为论文在原始数据集上通过两个外部数据集采样来提升训练的结果,此外对比了random采样方式。实验结果验证了提出MAK方法的有效性。

此外,实验也可视化对比了MAKDiversity原则的效果。显示基于该原则,可以使得采样的样本分布更合理些。

Conclusion

分享这篇论文的由衷是,在初读时,觉得跟以前看的一篇韩家炜关于关键词挖掘的论文有异曲同工之处,其中是为挖掘的关键词定义几个原则进行提炼。本篇论文的核心是在对比学习的方法下,提出几个采样的原则,以提高采样的质量,其思路值得尝试。因为,在前期分享《关于数据增强中如何合成高质量样本》中的方法实践中,发现合成的样本还是噪声不小,当时就想如何过滤掉合成噪声较大的样本,正好这篇论文碰撞了当初想法,就拿出来分享下。

在论文里的Diversity计算公式中,我并没想的特别清楚。因为觉得这个原则跟Proximity其实有点矛盾,类似要求:你离我最近,另外你还要跟我保持一定距离。当然这个要求没问题,但难点在于这个平衡度如何掌握,这也许是一个值得思考的地方。此外,论文也开源了代码:https://github.com/VITA-Group/MAK,有兴趣可去看看。

更多文章可关注笔者公众号:自然语言处理算法与实践

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342