1、引言
在高维空间中往往会出现数据样本稀疏,距离计算困难等问题,这是所有机器学习算法共同面临的严重障碍,被称为“维数灾难”。
缓解维数灾难的一个重要途径是降维,即通过某用数学变换将原始高维属性空间变为一个低维“子空间”。在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。为什么能进行降维?因为在很多时候,人们观测或收集到的数据样本虽是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维嵌入。下图给出了一个直观的例子,原是高维空间中的样本点,在这个低维嵌入子空间中更容易进行学习。
2、多维缩放MDS算法
若要求原始空间中样本之间的距离在低维空间中得以保持,就像上面的图一样,我们就得到了多维缩放(Multiple Dimensional Scaling)算法。这是一种经典的降维算法,下面我们进行一个简单的介绍:
上面有些细节可能刚开始看的时候有些难以理解,不过也没关系,动一动手, 其实也没有那么难算: