Huang J, Gong S, Zhu X. Deep semantic clustering by partition confidence maximization [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8849-8858.
摘要翻译
通过同时学习视觉特征和数据分组,深度聚类对高维视觉数据的结构分析显示出了较好的处理能力。// 现有的深度聚类方法通常依赖于(基于样本间关系和/或自估计伪标签的)局部学习约束。 这很容易受到分布在附近的不可避免的错误的影响,并在训练过程中错误传播。// 在这项工作中,提出通过从所有可能的分离中学习最具有置信度的聚类解决方案解决该问题,基于将来自相同语义类别的样本分配到不同的聚类中会降低聚类内部的紧凑性和簇间的多样性,即更低的分区置信度。具体地说,引入了一种新的深度聚类方法,称为分区置信最大化(PICA)。它是建立在学习语义上最可信的数据分离思想之上的,通过最大化聚类的“全局”分区置信度,所有集群都可以一对一地映射到真实的类簇中。这是通过引入可微
划分不确定性指标及其随机近似和原则目标损失函数来实现的,因此传统的深度网络和基于小批量的模型训练能够直接采用。
相关工作记录
第一段:首先给出视觉领域无监督聚类问题的概念,并得到了广泛的关注。然后提出视觉数据存在的高维度问题由此引出deep clustering。虽然使用可学习表示进行聚类分析有可能对未标记数据的聚类受益,但如何提高这些集群的语义合理性仍然是一个开放问题。
第二段:给出当前deep clustering的相关工作分类。并说明这些方法存在的问题。在总结中给出:"如果没有全局解决方案级的指导来从所有可能的分离中进行选择,所得到的集群通常在语义上就不那么可信了"。由此引出自己的工作。
第三段:自己的工作提出。
论文动机
上图为深度聚类中的学习局部约束和全局约束。真实的类别区分由彩色背景描述,决策边界和边缘分别由灰色实线和灰色阴影区域表示。箭头意味着学习监督。在局部学习约束下,一个模型更有可能在邻域内传播错误,因为在解决方案层面上缺乏全局结构指导,如(b)。
虽然一组数据可以根据不同的标准以多种方式分离,但将来自相同语义类别的样本分配到不同的类簇将会减少内部的紧凑性和簇间的多样性,并导致较低的分区置信度。PICA是专门设计用来鼓励模型从所有可能的解决方案中学习置信度最高的类簇,以便找到语义上最可信的类簇间分离。
具体来说,论文提出了(1)一个划分不确定性指数,它量化了当同时执行特征表示学习和聚类分配时,深度模型如何有意义的分离一组目标图像。为了拟合标准的小批量模型学习,(2)引入了划分不确定性指标的随机逼近。进一步提出了(3)一种新的基于随机划分不确定性指标的目标损失函数,使现有网络能够进行深度聚类。
模型浅析
问题定义
给定来自个语义类簇的个图片样本。目标是学习这些个样本的聚类分配。通常有两个组件进行端到端联合学习:(1)特征抽取器:用于将样本转换为向量表示:;(2)分类器:用于对每个样本的向量表示学习分配分布:。因此,在聚类中,样本图像最后所属的类簇即为论文的目标是直接从原始数据样本中发现底层的语义类决策边界。
方法概述
一般来说,图像聚类并不是一个定义良好的问题,因为多个不同的解决方案都可以使得输入数据有意义。由于完全缺乏高级的指导知识,这使得深度聚类极具有挑战性。考虑到这一点,作者假设置信度最高的数据分区是正在寻找的最有前途和语义上可信的解决方案。
(1) Partition Uncertainty Index
对于给定样本,假设由抽取器给出的类簇分配可以记为:
理想情况下,每个图像只被分配给一个类簇,即每个都是一个one-hot向量。这也正是PICA想要去实现的目的。为此,作者设计了
partition uncertainty index
作为学习目标。在上述理想情况下,可见任意两个簇的和的ASV量都是彼此正交的,所以二者ASV的余弦相似度值为。而最坏的情况是,每个样本分配到各个类簇的概率都是等同的,即无法区分,此时二者ASV的余弦相似度值为。一个分区不确定性指数(PUI)表示为所有簇对的ASV余弦相似度集:
PUI的随机近似值
在原始的PUI的定义中,考虑的是数据集中所有样本到指定类簇的概率值。这使得它不适合用于基于随机小批处理的深度学习。因此,提出了一种PUI的随机近似方法。具体地说,在每次训练迭代中使用数据集的随机子集(在概率论和统计学中,是对整个目标数据空间的离散均匀分布的采样)。在实践中,这很容易适应标准深度学习的小批量训练,即每次将设置为一个mini-batch。形式上,在第t次训练迭代中,我们有一个mini-batch 的个样本来训练模型并设置。的最新模型表示的集群预测矩阵为:
可得:
(2) Learning Objective Function
给定随机PUI--M_SPUI,如前面所讨论的,PICA以最小化M_SPUI(除对角元素)为目标进行学习训练。一个典型的目标损失函数,通常需要一个标量度量。
因此引入自注意力机制对的矩阵进行转换。计算任意两个类簇间的ASV余弦相似度,实际上是通过将每个集群作为一个数据样本并抑制所有样本间的关注来增强自我注意。因此,对每个集群应用softmax操作作为自注意,并获得一个概率度量如下:
有一些与算法无关的简单聚类方法,它们将大多数样本分配到少数集群中。为了避免这种情况,目标函数中还引入了一个额外的约束,以最小化类簇大小分布的负熵:
之前看到的时候一直在想为什么优化目标中有常数log(K),以为可以看做L0正则的一种,其实人家只是为了确保损失值非负。
综上,PICA的训练目标为最小化:
(3)PICA训练过程
PICA的整个创新点就是将看问题的角度,由样本转换到了类簇,我们所关注的分布不再是单个样本到每个类簇。而是所有样本的类簇级分布,并由此形成了所要优化的类簇对表示。按作者的设计,将局部的指导信息升级到了全局指导信息,想法新颖。后续可以考虑将这两种指导信息进行结合用于聚类。