一、定义
将大量的数据集中后作为样品,从中必然存在一定的相似数据或者规律,基于这个假设将数据分离出来并且发现不同类的特征
二、应用场景
聚类分析常用于数据探索或挖掘的前期,做探索性分析;同样适用于样本数量较大的情况下做数据预处理工作。
三、常用的聚类分析算法
聚类分析算法基于划分、层次、密度、网格、统计学、模型等类型的算法,典型算法包括:K均值(经典算法)、DBSCAN、两步聚类、BIRCH、谱聚类
四、解决的问题与缺点
能解决的问题:数据集可以分为几类;每个类别有多少样本量。
缺点:无法提供明确的行动指向,聚类结果更多的是为后期挖掘和分析工作提供预处理和参考,无法回答“为什么”和“怎么办”
五、数据异常对聚类的影响
K均值异常
1、数据的异常值
2、数据的一场量纲(量级单位)
3、超大量时应该放弃K均值算法
DBSCAN算法:基于密度寻找被低密度趋于分离的高密度空间,以此来实现不同数据样本的聚类。
优点:
1、原始数据集的分布规律没有明显要求,能适应任何数据集分布形状的空间聚类,因此数据适应性更广。
2、无须制定聚类数量,对结果的先验要求不高
3、由于DBSCAN可区分核心对象、边界点和噪声点,因此对噪声的过滤效果好,能有效对应数据噪点。
高纬度聚类处理方法
1、降维
2、子空间聚类