基本概念
现实中,事物之间的联系是错综复杂的,而事物之间的关系可以看作两类:一类是函数关系,一类是相关关系。函数关系指的是变量间一一对应的确定关系,相关关系指的是两个变量之间存在的不确定的数量关系。
相关分析主要研究相关关系。
在进行相关分析前,最好先绘制散点图,以初步判断变量之间是否存在相关趋势、该趋势是否为直线趋势。
相关分析中最常用的是二元变量的相关分析,即简单相关分析;
三个及三个以上变量之间的关系称为复相关,研究一个因变量和两个自变量之间的关系;
控制一个变量研究其他两个变量之间的关系称为偏相关;
不是通过相关系数,而是通过相似性或距离描述变量之间的关系的方法称为距离相关分析。
简单相关分析
不同类型的变量数据,应采用不同的相关分析方法。Pearson相关适用于数值变量;Spearman相关和Kendall's tau-b相关适用于顺序变量;对于分类变量,一般采用列联表的方式进行χ²检验的方法研究其相关性。
1.Pearson相关系数
Pearson相关系数适用于测度两数值的相关性。数值变量的特点是取值用数字表示,即可以进行运算而计算出差异的大小。则样本相关系数计算公式为:
(r取值在-1与1之间,当两个变量的线性关系增强时,相关系数趋于1或-1)
当|r|≥0.8时,视作高度相关;
0.5≤|r|<0.8时,视作中度相关;
0.3≤|r|<0.5时,视作低度相关;
r|<0.3时,可视作不相关。
在实际问题中,样本的相关系数计算具有随机性,因此需要对其进行显著性检验。
在X、Y均服从正态分布,及原假设(ρ=0)为真时,统计量
服从自由度为n-2的T分布。
2.Spearman相关系数
Spearman相关系数又称秩相关系数,适用于测度两顺序变量(等级、秩次)的相关性。它对原始变量的分布不做要求,属于非参数统计方法。通俗地讲,“顺序变量”就是变量的排序等级,如1-非常不满意,2-满意,3-非常满意等。
由于Spearman相关系数可以套用Pearson相关系数的公式,在此不再重复计算式和统计量公式。值得一提的是,当n>30时,检验统计量也可以近似的用
来计算。
3.Kendall's tau-b相关系数
Kendall相关系数有3种形式,它也是测度两顺序变量的相关性。采用的仍是非参数的方法,它利用变量值的秩数据,计算同序对数目U和异序对数目V。
所谓同序对,指的是变量大小顺序相同的两个样本观测值,即X的等级高低顺序与Y的等级高低顺序相同。否则称异序对。
Kendall相关系数公式为:对Kendall相关系数也需要进行显著性检验。如果n≤30,可以直接利用等级相关统计量表,SPSS会自动给出相伴概率值P。如果n>30,检验统计量也可以用近似服从正态分布的Z值计算:
3.SPSS应用
步骤:分析->相关->双变量,选入需要分析的变量,如图:
在“相关系数”框组中,默认的是Pearson相关系数,也可以根据需要选择Spearman相关系数和Kendall's tau-b相关系数。
输出结果:
由此可见,在0.01的显著性下,交易量和响应时间的相关性显著。一个*
表示0.05的显著性;2个**
表示0.01的显著性。
偏相关分析
在很多情况下,当影响某个变量的因素过多时,常假定其中某些因素不变,考察其他因素的影响。
偏相关分析假定变量之间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。因此在进行偏相关分析之前,可以先通过计算Pearson相关系数来考察线性关系。
SPSS应用
步骤:分析->相关->偏相关,选入需要分析的变量和需要控制的变量,如图:
输出结果:
由表可知,在排除了成功率的干扰后,相关系数0.650<0.899,可见简单相关分析有夸大的成分。交易量和响应时间的相关性属于弱相关。
距离相关分析
简单相关分析和偏相关分析都是研究两个变量之间的线性关系,但由于实际问题的复杂性,我们可以通过距离相关分析来考察变量之间是否具有相似性,进而研究相关关系。
距离相关分析一般不单独使用,而是作为聚类分析和因子分析等统计方法的预分析过程。
SPSS应用
步骤:分析->相关->距离,选入需要分析的所有变量,如图:
此时我们先选用“基于变量间”计算距离,选取相似性,默认为Pearson相关系数。
一般而言,考察变量之间的相似性采用相似性测度;而对于样本之间的相似性采用不相似性测度。
输出结果:
输出结果为3个变量间的相似度矩阵。可以看出交易量和响应时间的相关系数同前计算结果一致。也可以进行变量间的相关程度计算。