Scatter Plot Matrix 又叫 Scagnostic. 是一种常用的高维度数据可视化技术。它将高维度的数据每两个变量组成一个散点图,再将他们按照一定的顺序组成散点图矩阵。通过这样的可视化方式,能够将高维度数据中所有的变量两两之间的关系展示出来。
Figure 1, 用scatter plot matrix 展示了安德森鸢尾花卉数据集(Anderson’s Iris data set) , 数据集里面一共有四个变量 sepals width, sepals height, petals width, petals height(看又左到右对角线4个散点图,这四个散点图的横纵变量是sepals width - vs - sepals width, sepals height - vs - sepals height,….这是为什么,散点图的点只显示在对角线上).最上面左边的散点图横轴是petal width, 纵轴是sepal width. 图中的三种颜色表示三种不同的种类的安德森鸢尾花。通过这样的方式,我们能够一眼看到所有的数据,同时进行比较。但是可以看到图标中沿着对角线两边的图标是对称的,因为用sepals width -vs- petals height, 和 petals height -vs- sepals width 展示出来的散点图是类似的,只是将横轴纵轴对调。
Figure 2,对scatter plot 进行了改良,将重复的散点图换成了数据,数据表示的是correlate rate(线性相关性)。对角线的散点图改成了柱状图,用来显示当前变量的数值分布。
Scatter Plot Matrix 最初是由john and paul turkey 提出的, 如之前所提,它能够让你一眼就看到所有的变量的两两相关性。但是这个技术有一个很大的缺陷,就是单数据的维度变得很大的时候计算机的屏幕就无法容纳这么多的散点图。Here is an example from Mike Bostock你只需要把页面的数据改成自己的数据,就可以用这个技术玩自己的数据了。