构建系统发育树

系统发育树的构建


现有的方法

邻接法(NJ) phylip fasta/phy
最大似然法(ML) raxml/paml fasta/phy
最大简约法(MP) phylip/paup fasta/phy
贝叶斯法 MrBayes nexus
溯祖法 BEAST xml

系统发育树构建方法的优劣

  • link
  • 选择:一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。

其他资料


数据准备

  • vcf/genotype to phy/fasta
  • phy与fasta相互转换,最好是准备好fasta格式文件,使用工具转化成相互式的phy格式。
    • 脚本位置:
      • /lustre/project/og04/shichunwei/project/temp/Tree/fasta2phy.pl
      • /lustre/project/og04/shichunwei/project/temp/Tree/phy2fasta.pl

model test

modelgenerator

java -jar modelgenerator.jar align_file num_gamma_categories
java -jar modelgenerator.jar test.phy 4
  • 问题:采用ModelGenerator的时候,gamma categories 具体是什么意思
  • the number of discrete gamma categories ? 4,8 or bigger? maybe default if 4.
  • link

jModeltest

  • 一般只需 -AIC即可
java -jar /lustre/project/og04/shichunwei/biosoft/jmodeltest-2.1.7/jModelTest.jar -d  jmodel.fasta -s 11 -i -g 4 -f -AIC -AICc -DT -BIC -a -tr 8 > jmodel.out

fasttree

  • fasta/phy,有多个模型可选,邻接→最大简约→最大似然?我的理解是多种结合。模型采用的是Jukes-Cantor or generalized time-reversible(核酸); JTT (Jones-Taylor-Thorton) or WAG (Whelan Goldman)(蛋白)

  • 数据:核酸或蛋白(fasta/phy)

  • 网址

  • 说明书中指出其准确性优于邻接法BIONJ和FastME,弱于最大似然法RaxML和PhyML,但是速度更快。

  • 示例:

/lustre/project/og04/shichunwei/biosoft/fasttree/FastTreeMP -nt -gtr  -fastest -boot 1000 -gamma -log crab.log cds.clustalw.phy > fasttree.tree
  • 参数选择:(GTR model)

    -nt 核酸

    -boot 1000

    -n read multiple alignments

    -fastest -- speed up the neighbor joining phase & reduce memory usage(recommended for >50,000 sequences)

    -gamma

    -log log file

    -run cpus : 通过在终端中输入export OMP_NUM_THREADS=3来控制运行的线程数。fasttree -help 会告诉你程序最终会用多少个线程运行。上例中为3.


  • fasttree model choice
    • GTR+CAT ; FastTree -gtr -nt alignment_file > tree_file
    • JC+CAT ; FastTree -nt alignment_file > tree_file

fastme

  • Nearest Neighbor Interchange (NNI)、 Subtree Pruning and Regrafting (SPR) 邻接法
  • 数据:nucleotide or amino acid multiple sequences alignments (MSA)
  • 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree\
perl fasta2phy.pl test.fasta\
perl -p -i -e 's/\./\-/g' test.phy\
/lustre/project/og04/shichunwei/biosoft/fastme-2.1.5/src/fastme -i test.phy -T 8 -B -b 1000 -d F84 -o outtree
  • 参数选择:

    -T number of threads

    -i input data file

    -o output tree file

    -B output bootstrap trees file


BIONJ

  • 邻接法
  • 输入数据:distance matrix from phylip

mega

  • 图形化交互式界面,不适合集群上使用。

phylip

  • 涵盖了邻接法、最大似然法和最大简约法构建发育树。重点还是数据准备(phy格式),使用起来比较简单,交互式的命令,故可能不适合串成自动运算的脚本。
  • link
  • /lustre/project/og04/shichunwei/biosoft/phylip-3.696/exe
  • 操作步骤(bootstrap检验):

  • bootstrap:先产生多套数据,再构树,然后合并得到最优树

  • MP法
    • seqboot 产生 1000套伪序列
    • dnapars,M选项为分析multiple data sets改为yes,产生1000个树结果
    • consence,得到一致树
    • 参数选择:
      • O 选择外类群
      • I inputfile interleaved or not

  • ML法
    • seqboot 产生 1000套伪序列
    • dnaml,M选项为分析multiple data sets改为yes,产生1000个树结果
    • consence,得到一致树

  • 距离法
    • seqboot 产生 1000套伪序列
    • dnadist 计算距离,更改M选项
    • neighbour 更改M选项,产生1000个树结果
    • consence 得到一致树

RaxML

  • 最大似然,起初来源于phylip的dnaml link
  • 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree/RAxML
/lustre/project/og04/shichunwei/biosoft/standard-RAxML-master/raxmlHPC -x 12345 -p 12345 -# 1000 -m GTRGAMMA -s test.phy -n out -f a -o EL -T 8
  • 1000次 bootstrap,得到最优树;-m 选择模型;-f a : fast bootstrap;-o 设置外类群;-T 线程数

phyml

  • 最大似然法,
/lustre/project/og04/shichunwei/biosoft/mpich-3.2/install_dir/bin/mpirun -n 4 /lustre/project/og04/shichunwei/biosoft/PhyML-3.1/PhyML-3.1_linux64 -i test.phy  -d nt -b 1000 -m GTR -c 4 -a e -s BEST
  • -m 选择模型;

    -b bootstrap;

    -i 默认DNA interleaved sequence;

    -d type,nt核酸,aa氨基酸;

    -q 更改 -i 为sequential format;

    -n dataset num

    -m model:HKY85 (default) | JC69 | K80 | F81 | F84 |TN93 | GTR | custom

    -a gamma:e

    -c number of relative substitution rate categories,default = 4

    -s BEST

    -多线程 mpirun -n 4

    -外类群设置:add “ * ” at the end of sequence name


LVB

/lustre/project/og04/shichunwei/biosoft/lvb_3.4_source/lvb/lvb -b 1000 -c l -i infile -o outtree -p 4 -s 12345 -t 1
  • -b bootstrap ; -p thread ; -t tree number ; -c cooling schedule,g is faster & l is more accurate ; -s random seed ;
  • the max sites : 500,0000.
  • bootstrap 之后,调用phylip consence ,指定 outgroup 得到最大简约有根树;也可以用 phylip retree 得到有根树
  • tree length ? shortest tree?

存在问题:

  • 不同软件得出的modeltest结果不一致;基于多种标准有不同的结果,该选择哪种标准,AIC?是否需要自定义氨基酸模型?
  • 取交集,或任选一个;标准基于AIC;倾向于选择而不是自定义
  • 有的软件输入文件是基于sequence的,不能用SNP简单连接成fasta或phy,故需标明只能用sequence的软件
  • 注意输入文件的格式,phy有两种格式

测试数据

  • 测试地址:/lustre/project/og04/project/KF-JL-B1-20150203-01_soybean/version3/02.pop_structure/tree/ML

  • 测试地址2: /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_sequence/crab_cds_sequence.phy
    /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_snp/crab_snp.phy

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,468评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,620评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,427评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,160评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,197评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,334评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,775评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,444评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,628评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,459评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,508评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,210评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,767评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,850评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,076评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,627评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,196评论 2 341

推荐阅读更多精彩内容