非约束排序1—概述 (数量生态学:R语言的应用第五章)
在这之前我们已经学习了聚类分析,聚类分析的目的在于寻找数据的间断性,排序的目的就在于寻找数据的连续性(通过连续的排序轴展示数据的主要趋势)。
本章主要内容是对PCA、CA、MCA、PCoA和NMDS等排序方法的学习,如何使用正确的参数选项运行这些排序分析的函数以及如何正确解读排序图。
1.排序的概念
排序的过程是将样方或植物种排列在一定的空间,使得排序轴能够反映一定的生态梯度,从而,能够解释植被或植物种的分布与环境因子间的关系,也就是说排序是为了揭示植被-环境间的生态关系。所以,排序也叫梯度分析。
简单的梯度分析是研究植物种和植物群落在某一环境梯度或群落线上的变化,也就是一维排序。
复杂的梯度分析是揭示植物种和群落在某些环境梯度(群落面或群落体)上的变化关系,也就是二维或多维排序。
只使用植物种的组成数据的排序称作间接梯度分析,同时使用植物种的组成数据和环境因子组成数据的排序叫做直接梯度分析。间接梯度分析完成后,需要通过再分析找出排序轴的生态意义,再用其解释植物群落或植物种在排序图上的分布。而直接梯度分析因为使用了环境因子组成数据,排序轴的生态意义往往是一目了然的,在结果解释上比较容易。
从数学上讲,排序基本上是一个几何问题,把样方(实体)作为点在P维种类(属性)空间排列,使得排列结果能客观地反映样方间的相互关系,这种用属性(种或环境因子)来对实体(样方)进行排序的过程叫做正分析或者正排序;如果反过来用实体去排列属性则叫做逆分析或者逆排序。
由于排序的结果能够客观地反映群落间的关系,所以它可以与分类方法结合使用,而检验分类的结果,就是先用某一分类方法对样方进行分类。比如用传统的定性方法或某一数量方法进行分类,然后再在排序图上圈定群落的界限,这样可以直观地看出各植被类型间的关系,以检验分类的合理性,并且可以用排序轴所含的生态意义来帮助解释分类的结果。
排序的结果一般用直观的排序图表示,排序图通常只能表现出三维坐标。因此排序的一个重要内容是要降低维数,减少坐标轴的数目,降低维数往往会损失信息。一个好的排序方法应该是由降低维数引起的信息损失尽量少,即发生最小的畸变,也就是说它的低维排序轴包含大量的生态信息。
1.1多维空间
如果将每个变量都当作一个维度,那么多元数据可以视为多维空间内点的集合。因此,有多少个变量,就有多少个维度。绘制对象间散点图是揭示数据主要趋势一个很好的途径。排序目的是生成可视化的排序图,排序过程实际上是将多维空间内的数据点尽可能排列在可视化的低维空间,使最前面的几个排序轴尽可能包含数据结构变化的主要趋势。同时,也可以结合聚类或回归等其他方法解释排序图中的数据结构和趋势。
非约束排序只是描述性方法,不存在统计检验评估排序结果显著性的问题,而第6章约束排序则需要对排序结果进行显著性检验。
1.2 降维空间内的排序
大部分常用排序方法(NMDS除外)都是基于关联矩阵特征向量的提取。排序方法可以按照样方之间的距离度量方式以及变量的类型进行分类。
在降维空间排序的基本原理:假设一个包含n个对象p个变量的n×p的数据矩阵。n个对象可以视为在p维空间内点的集合。可以想象这个集合通常不是规则的椭球体,而是某些方向长一些,某些方向扁平。这些方向并不一定与多维空间的某一维重合(一维相当于一个变量)。这个不规则球体上最长的方向代表数据点集合的最大方差的方向。第一轴一般选取在这个最长的梯度上,即在这个方向上能诠释的方差最多,也是能提供最多信息的方向。为了保证第二轴诠释第二多的方差,必须保证它与第一轴正交(即线性独立、标量积为0)。接下来各轴的提取与第二轴一样(均与前一轴正交),直至所有轴都被确定为止。
如果数据结构趋势比较明显,则排序轴提取的效率会很高,因为前几轴能包含大部分信息,即承载大部分的方差。在这种情况下,低维排序空间内(通常是两维)样方之间的距离能很好地近似多维空间内的距离。
2.种类环境关系模型
所有排序方法都是基于一定的模型之上,这种模型反映植物种和环境之间的关系以及在某一环境梯度上的种间关系。最常用的关系模型有两种:一种是线形模型,另一种是非线性模型。
线性模型包括直线和曲线线性关系,其含义是某个植物种随着某一环境因子的变化而呈线性变化或叫线性反应。该模型所反映的种间关系也是线性关系。植物种和环境间的关系多数情况下不是线性关系,而是非线性关系。
非线性模型一般是指二次曲线模型,最著名的生态关系模型是高斯模型或叫高斯曲线。
**高斯模型是正态曲线**,含义是某个植物种的个体数随某个环境因子值的增加而增加。当环境因子增加到某一值时,植物种的个体数达到最大值,此时的环境因子值称为该种的最适值;随后当环境因子值继续增加时,种的个体数逐渐下降,非线性模型所反映的种间关系复杂化。如下图所示。
图左边表示两个种对环境梯度反应的不同模型,右边表示模型所对应的关系,a-d为线形模型,e-f为单峰模型。
在自然植物群落中,植物种和环境间的关系十分复杂,不可能完全符合高斯曲线。研究表明,即使是种数-环境关系不能与高斯曲线(正态曲线)完全吻合,但大多数种也表现为一个单峰曲线,即二次曲线模型,所以也将植物种-环境关系模型统称为单峰模型。
3. 线性排序和非线性排序
基于线性模型上所建立的排序方法叫做线性排序,而基于单峰模型上的排序称为非线性排序。非线性排序结果好于线性排序,因为它能更好地反映种-环境间及种-种间的关系。
在现代的排序方法中,依其模型可分为两大类:一类是以主分量分析(PCA)为主的线性排序方法;另一类是以对应分析(CA)为基础而发展起来的非线性排序方法。在CA家族中有的方法如除趋势对应分析(DCA)是基于高斯模型,生态学者和统计学者都比较满意。
对于主分量分析(PCA),线形模型是它的一大缺点。大多数研究结果都表明PCA是一非常有效的排序方法。在应用PCA时,大部分都对数据进行转换或标准化等处理,使数据结构发生一定的变化,在一定程度上符合PCA的线形模型。
4.本章我们所要学习的排序方法:
排序的主要目的是生成可视化的排序图,这决定了排序过程实际上是讲多维空间的数据尽可能的数据点排列在可视化的低维空间,使最前面的几个排序轴尽可能包含数据结构变化的主要趋势。本章讲的非约束排序只是描述性方法,不存在检验评估排序结果是否显著性的问题,下一章约束排序则需要对排序结果进行显著性检验。
- 主成分分析(PCA):也叫主分量分析,基于特征向量的主要排序方法。分析对象是原始的定量数据。标尺为1时,排序图展示样方之间的欧氏距离,标尺为2时,排序图展示样方之间的Malhal-anobis距离。
- 对应分析(CA):分析对象必须是频度或类频度、同量纲的非负数据。排序图展示行(对象)(标尺1)或列(变量)(标尺2)之间的卡方距离。在生态学研究中主要用于分析物种数据。
- 多重对应分析(MCA):分类变量数据表的排序,即所有变量都是因子的数据框。
- 主坐标分析(PCoA):分析对象为距离矩阵(大部分为Q模式),非原始的样方-变量矩阵表格。所以灵活选择关联测度(第3章)。
- 非度量多维尺度分析(NMDS):与前面三种排序方法不同,NMDS不是基于特征向量提取的排序方法。NMDS尝试在预先设定数量的排序轴去排序对象,目标是保持这些对象排位关系不变。NMDS也可以从相异矩阵开始分析。
- PCoA和NMDS可以对任何一种距离方阵(在R里面为“dist”类的数据)进行排序。
今天先把排序的概念,以及本章所将要学习的内容做一个概述,下一节将开始讲解第一部分内容,主成分分析的内容,加油!!
如有不足或错误之处,请批评指正。
有什么不明白的也欢迎留言讨论。