非约束排序1—概述（数量生态学：R语言的应用第五章）

在这之前我们已经学习了聚类分析，聚类分析的目的在于寻找数据的间断性，排序的目的就在于寻找数据的连续性（通过连续的排序轴展示数据的主要趋势）。

本章主要内容是对PCA、CA、MCA、PCoA和NMDS等排序方法的学习，如何使用正确的参数选项运行这些排序分析的函数以及如何正确解读排序图。

1.排序的概念

排序的过程是将样方或植物种排列在一定的空间，使得排序轴能够反映一定的生态梯度，从而，能够解释植被或植物种的分布与环境因子间的关系，也就是说排序是为了揭示植被-环境间的生态关系。所以，排序也叫梯度分析。

简单的梯度分析是研究植物种和植物群落在某一环境梯度或群落线上的变化，也就是一维排序。

复杂的梯度分析是揭示植物种和群落在某些环境梯度（群落面或群落体）上的变化关系，也就是二维或多维排序。

只使用植物种的组成数据的排序称作间接梯度分析，同时使用植物种的组成数据和环境因子组成数据的排序叫做直接梯度分析。间接梯度分析完成后，需要通过再分析找出排序轴的生态意义，再用其解释植物群落或植物种在排序图上的分布。而直接梯度分析因为使用了环境因子组成数据，排序轴的生态意义往往是一目了然的，在结果解释上比较容易。

从数学上讲，排序基本上是一个几何问题，把样方（实体）作为点在P维种类（属性）空间排列，使得排列结果能客观地反映样方间的相互关系，这种用属性（种或环境因子）来对实体（样方）进行排序的过程叫做正分析或者正排序；如果反过来用实体去排列属性则叫做逆分析或者逆排序。

由于排序的结果能够客观地反映群落间的关系，所以它可以与分类方法结合使用，而检验分类的结果，就是先用某一分类方法对样方进行分类。比如用传统的定性方法或某一数量方法进行分类，然后再在排序图上圈定群落的界限，这样可以直观地看出各植被类型间的关系，以检验分类的合理性，并且可以用排序轴所含的生态意义来帮助解释分类的结果。

排序的结果一般用直观的排序图表示，排序图通常只能表现出三维坐标。因此排序的一个重要内容是要降低维数，减少坐标轴的数目，降低维数往往会损失信息。一个好的排序方法应该是由降低维数引起的信息损失尽量少，即发生最小的畸变，也就是说它的低维排序轴包含大量的生态信息。

1.1多维空间

如果将每个变量都当作一个维度，那么多元数据可以视为多维空间内点的集合。因此，有多少个变量，就有多少个维度。绘制对象间散点图是揭示数据主要趋势一个很好的途径。排序目的是生成可视化的排序图，排序过程实际上是将多维空间内的数据点尽可能排列在可视化的低维空间，使最前面的几个排序轴尽可能包含数据结构变化的主要趋势。同时，也可以结合聚类或回归等其他方法解释排序图中的数据结构和趋势。

非约束排序只是描述性方法，不存在统计检验评估排序结果显著性的问题，而第6章约束排序则需要对排序结果进行显著性检验。

1.2 降维空间内的排序

大部分常用排序方法（NMDS除外）都是基于关联矩阵特征向量的提取。排序方法可以按照样方之间的距离度量方式以及变量的类型进行分类。

在降维空间排序的基本原理：假设一个包含n个对象p个变量的n×p的数据矩阵。n个对象可以视为在p维空间内点的集合。可以想象这个集合通常不是规则的椭球体，而是某些方向长一些，某些方向扁平。这些方向并不一定与多维空间的某一维重合（一维相当于一个变量）。这个不规则球体上最长的方向代表数据点集合的最大方差的方向。第一轴一般选取在这个最长的梯度上，即在这个方向上能诠释的方差最多，也是能提供最多信息的方向。为了保证第二轴诠释第二多的方差，必须保证它与第一轴正交（即线性独立、标量积为0）。接下来各轴的提取与第二轴一样（均与前一轴正交），直至所有轴都被确定为止。

如果数据结构趋势比较明显，则排序轴提取的效率会很高，因为前几轴能包含大部分信息，即承载大部分的方差。在这种情况下，低维排序空间内（通常是两维）样方之间的距离能很好地近似多维空间内的距离。

2.种类环境关系模型

所有排序方法都是基于一定的模型之上，这种模型反映植物种和环境之间的关系以及在某一环境梯度上的种间关系。最常用的关系模型有两种：一种是线形模型，另一种是非线性模型。

线性模型包括直线和曲线线性关系，其含义是某个植物种随着某一环境因子的变化而呈线性变化或叫线性反应。该模型所反映的种间关系也是线性关系。植物种和环境间的关系多数情况下不是线性关系，而是非线性关系。

非线性模型一般是指二次曲线模型，最著名的生态关系模型是高斯模型或叫高斯曲线。

  **高斯模型是正态曲线**，含义是某个植物种的个体数随某个环境因子值的增加而增加。当环境因子增加到某一值时，植物种的个体数达到最大值，此时的环境因子值称为该种的最适值；随后当环境因子值继续增加时，种的个体数逐渐下降，非线性模型所反映的种间关系复杂化。如下图所示。

图左边表示两个种对环境梯度反应的不同模型，右边表示模型所对应的关系，a-d为线形模型，e-f为单峰模型。

在自然植物群落中，植物种和环境间的关系十分复杂，不可能完全符合高斯曲线。研究表明，即使是种数-环境关系不能与高斯曲线（正态曲线）完全吻合，但大多数种也表现为一个单峰曲线，即二次曲线模型，所以也将植物种-环境关系模型统称为单峰模型。

3. 线性排序和非线性排序

基于线性模型上所建立的排序方法叫做线性排序，而基于单峰模型上的排序称为非线性排序。非线性排序结果好于线性排序，因为它能更好地反映种-环境间及种-种间的关系。

在现代的排序方法中，依其模型可分为两大类：一类是以主分量分析（PCA）为主的线性排序方法；另一类是以对应分析（CA）为基础而发展起来的非线性排序方法。在CA家族中有的方法如除趋势对应分析（DCA）是基于高斯模型，生态学者和统计学者都比较满意。

对于主分量分析（PCA），线形模型是它的一大缺点。大多数研究结果都表明PCA是一非常有效的排序方法。在应用PCA时，大部分都对数据进行转换或标准化等处理，使数据结构发生一定的变化，在一定程度上符合PCA的线形模型。

4.本章我们所要学习的排序方法：

排序的主要目的是生成可视化的排序图，这决定了排序过程实际上是讲多维空间的数据尽可能的数据点排列在可视化的低维空间，使最前面的几个排序轴尽可能包含数据结构变化的主要趋势。本章讲的非约束排序只是描述性方法，不存在检验评估排序结果是否显著性的问题，下一章约束排序则需要对排序结果进行显著性检验。

主成分分析（PCA）：也叫主分量分析，基于特征向量的主要排序方法。分析对象是原始的定量数据。标尺为1时，排序图展示样方之间的欧氏距离，标尺为2时，排序图展示样方之间的Malhal-anobis距离。

对应分析（CA）：分析对象必须是频度或类频度、同量纲的非负数据。排序图展示行（对象）（标尺1）或列（变量）（标尺2）之间的卡方距离。在生态学研究中主要用于分析物种数据。

多重对应分析（MCA）：分类变量数据表的排序，即所有变量都是因子的数据框。

主坐标分析（PCoA）：分析对象为距离矩阵（大部分为Q模式），非原始的样方-变量矩阵表格。所以灵活选择关联测度（第3章）。

非度量多维尺度分析（NMDS）：与前面三种排序方法不同，NMDS不是基于特征向量提取的排序方法。NMDS尝试在预先设定数量的排序轴去排序对象，目标是保持这些对象排位关系不变。NMDS也可以从相异矩阵开始分析。

PCoA和NMDS可以对任何一种距离方阵（在R里面为“dist”类的数据）进行排序。

今天先把排序的概念，以及本章所将要学习的内容做一个概述，下一节将开始讲解第一部分内容，主成分分析的内容，加油！！

如有不足或错误之处，请批评指正。
有什么不明白的也欢迎留言讨论。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

非约束排序1—概述 （数量生态学：R语言的应用第五章）

非约束排序1—概述 （数量生态学：R语言的应用第五章）

1.排序的概念

1.1多维空间

1.2 降维空间内的排序

2.种类环境关系模型

3. 线性排序和非线性排序

4.本章我们所要学习的排序方法：

推荐阅读更多精彩内容

非约束排序1—概述（数量生态学：R语言的应用第五章）

非约束排序1—概述（数量生态学：R语言的应用第五章）