Lu H, Liu S, Wei H, et al. Multi-kernel fuzzy clustering based on auto-encoder for fMRI functional network[J]. Expert Systems with Applications, 2020, 159: 113513.
摘要翻译
现有的基于自编码器的聚类算法只使用了一层信息。本文提出了一种新的子空间聚类算法,该方法利用从堆叠自编码器中学习到的多个隐层的信息构建不同的核。提出的基于自动编码器的模糊多核聚类方法,通过核的隶属矩阵和系数,实现目标函数的值迭代到最小误差。同时,该方法结合了自编码器,实现了输入数据的降维效果。为了验证该算法的有效性,作者首先在脑网络数据集上进行了实验。与MKFC、RMKKM等算法相比,该方法显著地提高了准确性。在构建的高维网络数据集上的实验结果优于目前的几种聚类算法。结果表明,子空间信息经过降维后更有利于聚类。
因为该论文是针对特定领域的特定数据集,因此笔者只关注所提出的模型结构。(:笔者尽力对模型进行理解,因涉及到领域专业知识,如有偏差请指正!
预备知识
- fuzzy clustering
模糊聚类(FCM)是机器学习领域的经典聚类算法K-means算法上的扩展,它使用L2范数来度量重构误差。此外,FCM是一种软聚类方法,对球形聚类更有效。选择模糊聚类的原因是隶属度描述了属于聚类中心的数据点的不确定性,因此它比清晰聚类包含更多的信息。(1)式中的为L2范数: -
kernel fuzzy clustering
如果聚类算法的度量只局限于欧式距离,那么类簇中的复杂特征很难被分开。Girolami等人(2002)提出了Mercer核方法来分离具有复杂特征的非线性簇。在引入核函数后,将目标函数推广到等式 (3):
由(3)式可以得出(4)式的优化目标:
其中,K表示为:
表示为:
- multiple kernel fuzzy clustering
KFC算法中使用的是单个核函数。当面对多种不同类型的特征样本,且每个样本都有多个非线性聚类时,单核函数不能满足核样本的要求。也就是说对于核方法而言,最重要的是使用的核适合于所有的样本点数据。因此,对于MKFC中每个样本都有多个核函数,期望从中可以得到一个合适的映射。
假设,有个核,为了找到一个合适的核,从而为每个核都建立了对应的核权重。
模型简述
图中提出的AE-MKFC将一个堆栈编码器的多个隐藏层与多个核结合起来,最终得到了可以聚类的最佳核矩阵。编码器部分不仅可以减少维度,而且可以高度地表示样本特征。在图中,为了便于表示堆叠的SAE,没有给出解码器过程的细节。在实验中,SAE通过训练隐藏层实现降维。具体实现步骤如下:
通过层的降维操作,每个样本被转化成层的隐含数据表示。
核矩阵(半正定矩阵):
以及对应的核权重:
该算法的最终目标是获得一个全面的最优核空间来聚类,从而求解的核可以由权重获得:
作者也给出了最好的核函数:
前序有文献指出,欧式距离可以转化为如下的内积形式且正交关系可以防止映射中的交叉项:
对了找到每个样本点到对应簇中心的最短距离,AE-MKFC的最终的目标函数可以综合为如下:
emmm 论文中有些符号没太看懂。。。先放着吧