Dsuite: 从VCF文件中快速计算D-统计量和亲缘相关性的工具

工具背景介绍

D统计量(也称为ABBA-BABA统计量)和相关统计量通常用于评估种群或紧密相关物种之间的是否存在基因流。当前计算D统计量的工具大多数都需要该工具自定义特定的文件格式,并且不便于评估包含许多种群或物种的基因流。

Dsuite是一种快速的通过C++实现的工具。可以对数十个甚至数百个种群或物种的所有组合进行D统计量进行计算,并且可以直接使用常见的变异(VCF)文件作为输入。此外,该程序可以估算混合物分数,并提供基因渗入是否仅限于特定基因座的证据。因此,Dsuite非常适用于评估跨大型基因组数据集的基因流。

工具下载与安装

在编译安装之前,首先你要有GCC并且其版本需要大于4.9.0。

该工具可以通过github进行直接下载:

git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make

编译好后可以通过./Build/Dsuite来测试命令能否成功执行。

与其他类似的工具相比,Dsuite在运行时间和消耗内存方面都有更好的表现。


输入文件

主要的输入文件有两个:

  1. VCF文件,可以是被压缩的格式(gzip或者bgzip)。文件可以含有multiallelic 位点 and indels,但是只有biallelic 位点才会用于分析。
  2. 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。
Ind1    Species1
Ind2    Species1
Ind3    Species2
Ind4    Species2
Ind5    Species3
Ind6    Outgroup
Ind7    Outgroup
Ind8    xxx
...     ...
IndN    Species_n

这里最少要设置一个Outgroup外群物种。如果你想完全忽略某个个体,可以使用xxx将其屏蔽(不需要子集hua VCF文件了)。

可选的输入文件

  1. 进化树文件(newick)格式,这棵树需要有与物种/种群名称相对应的叶子标签。分支长度可以有,但是分析中不使用。具体的例子如下:
(Species2,(Species1,(Species3,Species4)));
(Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0)));
  1. 三重组合文件,每一行三个个体/物种,由标签按顺序分隔P1 P2 P3
Species1    Species2    Species3
Species1    Species4    Species2
...         ...         ...

测试文件下载:

###VCF file
wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz
 
###群体文件SETS.txt)

wget http://cichlid.gurdon.cam.ac.uk/sets.txt

工具使用

Dsuite Dtrios -为所有可能的种群/物种三重组合计算D统计量(ABBA-BABA)

使用测试数据进行测试:

~/biosoft/Dsuite/Build/Dsuite Dtrios  Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt

生成下列的文件:

-rw-r-----  1 hhu hhu  49M Oct  8 11:51 sets__combine_stderr.txt
-rw-r-----  1 hhu hhu 5.6M Oct  8 11:51 sets__combine.txt
-rw-r-----  1 hhu hhu 5.5M Oct  8 11:51 sets__Dmin.txt
-rw-r-----  1 hhu hhu 5.5M Oct  8 11:51 sets__BBAA.txt

简单看看包含D统计量的sets_Dmin.txt文件,可以看到每个三重组合所对应的D值与其P-value:

head sets__BBAA.txt

==> sets__BBAA.txt <==
P1      P2      P3      Dstatistic      p-value
Alticorpus_macrocleithrum       Alticorpus_geoffreyi    A_calliptera    0.00562169      0.388387
Aulonocara_minutus      Alticorpus_geoffreyi    A_calliptera    0.0084396       0.247183
Alticorpus_geoffreyi    Aulonocara_steveni      A_calliptera    0.0283765       0.0798469
Alticorpus_geoffreyi    Aulonocara_stuartgranti A_calliptera    0.0240418       0.0681949
Aulonocara_yellow       Alticorpus_geoffreyi    A_calliptera    0.0201788       0.0998002
Alticorpus_geoffreyi    Buccochromis_nototaenia A_calliptera    0.0455587       0.00370416
Alticorpus_geoffreyi    Buccochromis_rhoadesii  A_calliptera    0.0741405       5.45716e-05
Alticorpus_geoffreyi    Champsochromis_caeruelus        A_calliptera    0.0666998       0.000146784
Alticorpus_geoffreyi    Chilotilapia_rhoadesii  A_calliptera    0.0800385       2.43101e-05

Dinvestigate-对D统计量显着提高的三重奏进行后续分析:计算f4统计信息,以及沿基因组窗口中的f_d和f_dM

Dsuite Dinvestigate INPUT_FILE.vcf.gz SETS.txt test_trios.txt

介绍到这里,工具固然是好用,但是怎样解析生成的结果,怎样从结果中提取有用的信息是更重要的下一步,后面的推文会通过阅读一些文章和大家分享一些如何解读基因渗入相关的内容。

参考网站:

  1. Dsuite的GitHub:https://github.com/millanek/Dsuite
  2. Dsuite的初稿: https://www.biorxiv.org/content/10.1101/634477v1
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容