冗余分析(RDA)——R包vegan

从概念上讲,冗余分析(redundancy analysis, RDA)是响应变量矩阵与解释变量矩阵之间多元多重线性回归的拟合值矩阵的PCA分析,也是多响应变量(multi-response)回归分析的拓展。简单一点来说,RDA是通过线性回归分析结合主成分分析的排序方法,目的是寻找能最大程度解释响应变量矩阵变差的一些列的解释变量的线性组合,也就是环境对于样本的影响,因此RDA是被解释变量约束的排序。对于算法的详细介绍,就不在这里赘述了,可以参考以下链接:群落分析的冗余分析(RDA)概述 (qq.com)

下面介绍可以进行RDA的一个R包,生态学统计分析常用的vegan,官网:https://github.com/vegandevs/vegan

在基因组环境关联分析(GEA)中,常用到的是LFMM和RDA两种方法,但是这里要讲到的进化中的RDA和群落分析中的有一些区别,是RDA基因组扫描 RDA-based genome scan,论文:Evaluation of redundancy analysis to identify signatures of local adaptation。文章的脚本有上传在GitHub,链接:https://github.com/Capblancq/RDA-genome-scan/blob/master/Script_RDA.R

0.安装

> install.packages("remotes")
> remotes::install_github("vegandevs/vegan")
> library(vegan)

1.数据文件

RDA用到两个文件,响应变量(基因型数据、物种数据、细菌门水平丰度表等)和解释变量(环境数据:温度、湿度、海拔、有机质含量等)。

示例数据:Dryad Data -- Evaluation of redundancy analysis to identify signatures of local adaptation (datadryad.org)

sim1.csv文件中包含环境数据和基因型数据,直接读取:

> data<-read.csv("sim1.csv",header = T)
sim1.csv

第1列为分群信息,第2列到第11列为环境数据,第12列到14列是表型数据,14列之后是基因型数据。

1.1响应变量

在本贴中用到的响应数据是基因型数据,即sim1中14列之后的数据。

#提取响应数据
> geno<-data[,-c(1:14)]
geno

1.2解释变量

sim1.csv中的第2到11列为环境数据

> env<-data[,2:11]
env

2. RDA基因组扫描

> library("robustbase")
> library("robust")
> library("qvalue")
> rdadapt<-function(rda,K)
 {
   loadings<-rda$CCA$v[,1:as.numeric(K)]
   resscale <- apply(loadings, 2, scale)
   resmaha <- covRob(resscale, distance = TRUE, na.action= na.omit, estim="pairwiseGK")$dist
   lambda <- median(resmaha)/qchisq(0.5,df=K)
   reschi2test <- pchisq(resmaha/lambda,K,lower.tail=FALSE)
   qval <- qvalue(reschi2test)
   q.values_rdadapt<-qval$qvalues
   return(data.frame(p.values=reschi2test, q.values=q.values_rdadapt))
}

3.冗余分析

3.1使用全部环境变量

> rda_all <- rda(geno~., env, scale = FALSE)
# 保留RDA中四个约束轴
> res_rdadapt<-rdadapt(rda_all, 4)
> row.names(res_rdadapt)<-colnames(geno)
> head(res_rdadapt)
        p.values   q.values
X   0.0002819648 0.01566471
X.1 0.3924069078 0.95071092
X.2 0.1651672760 0.92863749
X.3 0.1539308576 0.92863749
X.4 0.3538912022 0.95071092
X.5 0.7169689587 0.98712367
# 输出SNP的p值和q值
> write.csv(res_rdadapt,"rda_pvalue.csv")
  • geno:响应变量
  • ~.:省略写法,表示将解释变量中所有的环境因子都作为解释变量,带入RDA
  • scale:响应变量是否执行标准化。当有多个响应变量,且量纲不一致时,推荐使用标准化scale = TRUE。

结果解读

> rda_all.scaling1 <- summary(rda_all, scaling = 1)
> rda_all.scaling1

如果对排序样方之间的距离更感兴趣,或者大多数解释变量为因子类型,则考虑I型标尺 scaling = 1;如果对变量之间的相关关系更感兴趣,则考虑II型标尺scaling = 2。


3.2使用部分环境变量

> rda_part <- rda(geno~envir1+envir3+envir5, env, scale = FALSE)

当只考虑部分环境因子时,可在~后指定环境因子,不同的因子间用+连接。

3.3考虑环境变量间的互作

> rda_inter <- rda(geno~envir1+envir3+envir5+envir3*envir5, env, scale = FALSE)

因子间的互作用*表示,envir3 * envir5即envir3和envir5两个因子间的互作。

4.结果绘制

> library("ggplot2")
> p1<- ggplot() +
      geom_line(aes(x=c(1:length(rda_all$CCA$eig)), y=as.vector(rda_all$CCA$eig)), linetype="dotted", size = 1.5, color="darkgrey") +
      geom_point(aes(x=c(1:length(rda_all$CCA$eig)), y=as.vector(rda_all$CCA$eig)), size = 3, color="darkgrey") +
      scale_x_discrete(name = "Ordination axes", limits=c(1:9)) +
      ylab("Inertia") +
      theme_bw()

4.1RDA排序图

根据是否展示物种向量,排序图可分为双序图(仅展示样方和环境变量二者关系)和三序图(展示样方、物种及环境变量三者关系)。

> plot(rda_all, scaling = 1, main = 'I 型标尺', display = c('wa', 'sp', 'cn'))

RDA三序图中将排序对象(样方),展示为“标签点”;响应变量(基因型)和解释变量(环境变量)均以向量表示。

display参数用于定义在排序图中展示哪些信息:

  • wa:使用基因位点(物种)加权和计算的样方坐标,
  • sp:基因位点(物种);
  • cn:约束成分(即解释变量)

RDA三序图

图形解释:群落分析的冗余分析(RDA)概述 (qq.com)

这个图该有的信息都有了,就是不够好看,美化一下。

> p2<- ggplot() +
   geom_point(aes(x=rda_all$CCA$v[,1], y=rda_all$CCA$v[,2]), col = "gray86") +
   geom_point(aes(x=rda_all$CCA$v[which(res_rdadapt[,2] < 0.1),1], y=rda_all$CCA$v[which(res_rdadapt[,2] < 0.1),2]), col = "orange") +
   geom_segment(aes(xend=rda_all$CCA$biplot[,1]/10, yend=rda_all$CCA$biplot[,2]/10, x=0, y=0), colour="black", size=0.5, linetype=1, arrow=arrow(length = unit(0.02, "npc"))) +
   geom_text(aes(x=1.2*rda_all$CCA$biplot[,1]/10, y=1.2*rda_all$CCA$biplot[,2]/10, label = colnames(env))) +
   xlab("RDA 1") + ylab("RDA 2") +
   theme_bw() +
   theme(legend.position="none")
RDA三序图

4.2Manhattan图

> p3<- ggplot() +
  geom_point(aes(x=c(1:length(res_rdadapt[,1])), y=-log10(res_rdadapt[,1])), col = "gray83") +
  geom_point(aes(x=c(1:length(res_rdadapt[,1]))[which(res_rdadapt[,2] < 0.1)], y=-log10(res_rdadapt[which(res_rdadapt[,2] < 0.1),1])), col = "orange") +
  xlab("SNPs") + ylab("-log10(p.values)") +
  theme_bw()
# 此处筛选标准为q<0.1为显著位点,可根据自己的数据进行调整
Manhattan plot
#筛选显著位点
> rda_sig_snp<-subset(res_rdadapt,res_rdadapt$q.values < 0.1)
> head(rda_sig_snp)
         p.values     q.values
X    2.819648e-04 1.566471e-02
X.10 1.497575e-06 1.069696e-04
X.20 2.065122e-08 2.065122e-06
X.30 4.986654e-04 2.624555e-02
X.40 3.810703e-05 2.381690e-03
X.50 5.882242e-05 3.460142e-03
> write.csv(rda_sig_snp,"rda_sig_snp.csv",row.names = T)

4.3图形排列

> library(ggpubr)
> ggarrange(ggarrange(p1, p2, ncol = 2, labels = c("A", "B")),
  ggarrange(p3,ncol = 1, labels = c("C")),
  nrow = 2)

引用转载请注明出处,如有错误敬请指出。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容