摘要翻译:
聚类是数据分析的一项基本任务。近年来,从深度学习方法中获得灵感的深度聚类获得了最先进的性能,并引起了广泛的关注。目前的深度聚类方法通常利用深度学习强大的表示能力来提高聚类结果,例如autoencoder,这表明学习一种有效的聚类表示是一个至关重要的要求。深度聚类方法的优点是从数据本身中提取有用的表示,而不是从数据的结构中提取有用的表示,这在表示学习中很少受到关注。基于图卷积网络(GCN)在图结构编码方面取得的巨大成功,我们提出了一种结构化深度聚类网络(SDCN),将结构信息整合到深度聚类中。具体来说,我们设计了一个传递算子,将自动编码器学习到的表示转换到相应的GCN层,并设计了一个双自监督机制来统一这两种不同的深层神经结构,引导整个模型的更新。通过这种方式,从低阶到高阶的多种数据结构自然地与自动编码器学习到的多种表示相结合。此外,我们从理论上分析了传递算子,即通过传递算子,GCN将自编码器特有的表示改进为高阶图正则化约束,而自编码器有助于缓解GCN中的过平滑问题。通过全面的实验,我们证明我们所提出的模型可以始终比最先进的技术表现得更好。
- Despite the success of deep clustering, they usually focus on the characteristic of data itself, and thus seldom take the structure of data into account when learning the representation.
- Notably, the importance of considering the relationship among data samples has been well recognized by previous literatures and results in data representation field. Such structure reveals the latent similarity among samples, and therefore provides a valuable guide on learning the representation.
- In summary, the structural information plays a crucial role in data representation learning. However, it has seldom been applied for deep clustering.
论文关注点:在DEC的单视图深度聚类的模型中扩展了关于结构信息的捕获,并使用GCN结构来捕获。在相比于GAE的结构,关于GCN的部分并没有采用临接矩阵的重建来进行监督,而是在此基础上利用聚类的目标分布信息构造了另外的结构分布,以量化结构信息的监督。
模型描述
图注:和分别是输入数据和重建数据。和分别是DNN和GCN模块第层的输出。不同的颜色代表从DNN中学习到的不同的表征。蓝色实线表示目标分布是由分布计算出来的,两条红色虚线表示双重自我监督机制。目标分布同时指导DNN模块和GCN模块的更新。
总述:首先根据原始数据构造一个KNN图。然后将原始数据和KNN图分别输入到AE和GCN中。作者将AE的每一层与相应的GCN层连接起来,这样就可以通过传递操作符将特定于AE的表示集成到结构感知的表示中。同时,提出了一种双重自我监督机制来监督AE和GCN的训练过程。
模型浅析
- KNN图
假设我们有原始数据,其中每一行代表第个样本,为样本个数,为维数。对于每个样本,首先找到它的前k个相似的邻居,并设置边将其与其邻居连接起来。
样本的相似矩阵的计算方法有很多。作者列出了构建KNN图时针对连续数据和离散数据的两种方式:
- Heat Kernel。样本与的相似度按:= 计算,其中为热传导方程中的时间参数。用于连续数据,如图像。
- Dot-product。样本与样本的相似度计算公式为:= 。对于离散数据,例如单词袋,使用点积相似度,这样相似性只与相同单词的数量相关。
计算相似矩阵后,我们选择每个样本的前k个相似点作为其邻居,构造无向k近邻图。这样,我们就可以从非图数据中得到邻接矩阵。
b:对于文本任务来讲,这里一改GCN中传统的利用词和文档作为节点的方式,使用最简单的KNN来构造样本点的临接矩阵,不仅使得模型的理解上更直观,同时也启发了后续构图的思路。作为想要学习结构信息的临接矩阵而言,是一个很好的出发点
- DNN模块
关于书写自己模块的引入
- As we mentioned before, learning an effective data representation is of great importance to deep clustering. There are several alternative unsupervised methods for different types of data to learn representations. For example, ...
- In this paper, for the sake of generality, we employ the basic autoencoder to learn the representations of the raw data in order to accommodate(适应) for different kinds of data characteristics.
b:一般情况下在介绍AE结构时所说的层数,指的是出去输入层和重建层之外的,第一个隐藏层到Code层的层数
DNN模块采用的是具有层的基础AE结构,这里将不进行赘述。
- GCN模块(使用GCN模块来传播DNN模块生成的表示)
为什么要引入该模块的写法
- Autoencoder is able to learn the useful representations from the data itself, e.g. ..., while ignoring the relationship
between samples. In the section, we will introduce how to use the GCN module to propagate these representations generated by the DNN module.- Once all the representations learned by DNN module are integrated into GCN, then the GCN-learnable representation
will be able to accommodate for two different kinds of information, i.e., data itself and relationship between data.
step-:获得第层的卷积操作输出结果
对于每一层的结果的卷积操作是与图神经一致的,但是在输出的构造上,作者连接了DNN模块对应层的表示形式(will be propagated through the normailized adjacency matrix),如图中选择了平衡因子来组合来自DNN和GCN的信息。
step-:但对于第一层的输出只保留了来自原始。
step-:在关于结构信息分布的构造上,则是采用了多分类的softmax层获取。
结果表示概率样本属于聚类中心,我们可以将视为概率分布。
- 双重自监督模块
相比于IDEC模型,在固有的loss函数中,论文又引入了,这部分的构造来源于结构分布,使用了与辅助分布相同的目标分布,使得二者有统一的目标。
目标函数优点:
(1)与传统的多分类损失函数相比,KL散度以一种更加“温和”的方式更新整个模型(soft labels),防止数据表示受到严重干扰;
(2) GCN和DNN模块统一在同一个优化目标上,使其在训练过程中结果趋于一致。
因为DNN模块和GCN模块的目标是近似目标分布,而这两个模块之间有很强的联系,所以称其为双重自我监督机制。
论文中使用GCN+不同层AE的表达以添加结构,实验结果验证了模型的有效性,并且给出了理论支持。整体实验很完整。对于样本间关系的构造上,给出了新的思路,并且开启了关于总体样本结构的进一步探索。
关于理论支持这一块没有看,待续。。