群体结构——Structure堆叠图详细画法

基本概念

基迪奥有篇文章写得非常的简单明了,我这里就不再赘述,大家移步去搞清楚基本知识。

群体结构图形——structure堆叠图

STRUCTURE软件的使用准则

软件假设输入的标记数据中,每个标记都是独立的,所以在分析之前,需要对标记按照一定规则进行筛选。常见筛选方法有如下三种Nat Rev Genet, 2015

  • 一定物理距离取一个代表用于分析
  • 全基因组上随机抽取一部分标记进行分析
  • 按照LD筛选:LD强度大于一定阈值的标记只保留一个用于分析

STRUCTURE软件实操:

前期准备

给标记加上ID

SNP data通常都是以VCF格式文件呈现,拿到VCF文件的第一件事情就是添加各个SNP位点的ID。

先看一下最开始生成的VCF文件:

原始VCF文件

可以看到,ID列都是".",需要我们自己加上去。我用的是某不知名大神写好的perl脚本,可以去我的github上下载,用法:

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

当然也可以用excel手工添加。添加后的文件如下图所示(格式:CHROMID__POS):

添加ID后VCF文件

SNP位点过滤(Missing rate and maf filtering)

SNP位点过滤前需要问自己一个问题,我的数据需要过滤吗?

一般要看后期是否做关联分析(GWAS);如果只是单纯研究群体结构建议不过滤,因为过滤掉低频位点可能会改变某些样本之间的关系;如果需要和表型联系其来做关联分析,那么建议过滤,因为在后期分析中低频位点是不在考虑范围内的,需要保持前后一致。

如果过滤,此处用到强大的plink软件,用法:

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

参数解释:--maf 0.05:过滤掉次等位基因频率低于0.05的位点;--geno 0.2:过滤掉有20%的样品缺失的SNP位点;--allow-extra-chr:我的参考数据是Contig级别的,个数比常见分析所用的染色体多太多,所以需要加上此参数。

LD筛选(LD pruning and make bed file)

前文提到STRUCTURE软件假设输入的标记数据中,每个标记都是独立的,所以我们需要对标记按照一定规则进行筛选,这里用其中的一种方法——LD筛选。

plink --vcf YourDataName-id-maf0.05.vcf --indep-pairwise 100 50 0.2 -out YourDataName-id-maf0.05-LD --allow-extra-chr --make-bed

100—以100个kb为单位;50—SNP数目,50个SNP的步长;0.2—LD强度。

转换为STRUCTURE格式

plink --bfile YourDataName-id-maf0.05-LD --extract YourDataName-id-maf0.05-LD.prune.in --out YourDataName-id-maf0.05-LD-structure --recode structure --allow-extra-chr

填写STRUCTURE配置文件:

配置文件有两个,分别是mainparams和extraparams。我们需要填写mainparams同时生成空extraparams文件。

注意:mainparams配置文件的个数为最大K值乘重复次数,如计算K从1到10,每个重复3次,则要有30个该文件,也要有对应的30个命令行。

K=1第一次重复的mainparams配置文件及参数介绍

如果计算K从1到10,每个重复3次,30个配置文件可以这样命名:

mainparams配置文件命名方法

STRUCTURE运行

运行STRUCTURE很简单:

#单个运行:
structure -m mainparams_1_1 -e extraparams
structure -m mainparams_1_2 -e extraparams
structure -m mainparams_1_3 -e extraparams
。
。

#同时运行:将mainparams配置文件名放到一个list中,用for循环调用运行STRUCTURE:
for i in $(less mainparams.list); do nohup structure -m ${i} -e extraparams & done

结果可视化

Structure的结果可视化用到一个R包——pophelper,需要在R环境中安装后调用。注意:新版pophelper用下述命令会报错,最好使用V2.2.9

#安装pophelper 2.2.9软件:
install.packages(c("Cairo","devtools","ggplot2","gridExtra","gtable","tidyr"),dependencies=T)
devtools::install_github('royfrancis/pophelper')

数据可视化包括两个方面,1)计算K值并画图,2)绘制Structure堆叠图。方法很简单,把所有的结果都放在同一个文件夹里,调用pophelpe即可,写好的R命令如下所示,按需求执行:

另外,需要准备分组文件(pop_list.txt),我分了如下图的几列,大家可以自己DIY。注意:该文件中的样品排序需要与VCF中的样品排序相对应

pop_list.txt
# read structure results
#更改工作路径(该路径下存有Structure所有的运行结果)
setwd("F:structure_results")
#调用pophelper
library(pophelper)
file_list <- list.files(path = "./out/", full.names = T) # list file directory
qlist <- readQ(file_list) # read result files
# evanno method to calculate deltaK
tbq <- tabulateQ(qlist)
smq <- summariseQ(tbq)

###绘制最佳K值线
evannoMethodStructure(smq, exportplot = T, writetable = T,
                      imgtype = "png", height = 16, width = 18,outputfilename = "evanno")
evannoMethodStructure(smq, exportplot = T, writetable = T,
                      imgtype = "pdf", height = 16, width = 18,outputfilename = "evanno")

# clumpp repeat results
clumppExport(qlist = qlist, parammode = 3, prefix = "pop", useexe = T) # run clumpp
collectClumppOutput(prefix = "pop", filetype = "both", runsdir = getwd()) # collect clumpp results
# read clumpp merged results
fclum <- list.files(path = "pop-both", full.names = T, pattern = "merge")
qclum <- readQ(fclum)
sample_order <- read.table("./pop_list.txt", header = T, stringsAsFactors = F)

ind_name <- sample_order[,1]
for(i in 1:length(qclum)){
  row.names(qclum[[i]]) <- ind_name
}
mink <- 2
maxk <- 10
k_order <- vector()
if(maxk < 10){
  k_order <- 1:length(qclum)
} else if (maxk < 20) {
  end1 <- maxk - 10 + 1
  start2 <- end1 + 1
  k_order <- c(start2:length(qclum), 1:end1)
}
klab <- vector()
if(mink == 1){
  klab <- 2:maxk
} else {
  klab <- mink:maxk
}

# 绘制全局structure图
# plot global barplot without group information
prefix <- "demo"
height <- 2
width <- 16
plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=0.1,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

# 绘制全局并带有组信息的structure图
# plot global barplot with group information
prefix <- "demo_label"
plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T, grplabsize=2, grplabheight = 4)

plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=0.1,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T,grplabsize=2, grplabheight = 4)

# 绘制各个k值的structure图
# plot single K barplot
plotQ(qclum, imgoutput = "sep",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)
plotQ(qclum, imgoutput = "sep",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T,grplabsize=2, grplabheight = 4)

## for admixture plot
library(pophelper)
setwd("F:/works/developing/course/gwas/data/lecture07/admixture_results")
file_list_admix <- list.files("admixture_output/", pattern = ".Q", full.names = T)
info <- read.table("sample_order.txt", header = T, stringsAsFactors = F)
qlist_admix <- readQ(file_list_admix)
for(i in 1:length(qlist_admix)){
  row.names(qlist_admix[[i]]) <- info$sample
}
k_order <- vector()
mink <- 1
maxk <- 10
if(maxk < 10){
  k_order <- 1:length(qlist_admix)
} else if (maxk < 20) {
  end1 <- maxk - 10 + 1
  start2 <- end1 + 1
  k_order <- c(start2:length(qlist_admix), 1:end1)
}
klab <- vector()
if(mink == 1){
  klab <- 2:maxk
} else {
  klab <- mink:maxk
}

prefix <- "admix"
height <- 1
width <- 16
plotQ(qlist_admix[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

plotQ(qlist_admix[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

参考:
群体结构图形——structure堆叠图
Sehraiber J G. Methods and models for unravelling human evolutionary history. Nature Reviews. Genetics, 2015

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335