构建系统发育树

系统发育树的构建

现有的方法

邻接法(NJ)	phylip	fasta/phy
最大似然法(ML)	raxml/paml	fasta/phy
最大简约法(MP)	phylip/paup	fasta/phy
贝叶斯法	MrBayes	nexus
溯祖法	BEAST	xml

系统发育树构建方法的优劣

link
选择：一般情况下，若有合适的分子进化模型可供选择，用最大似然法构树获得的结果较好；对于近缘物种序列，通常情况下使用最大简约法；而对于远缘物种序列，一般使用邻接法或最大似然法。

其他资料

link

数据准备

vcf/genotype to phy/fasta
phy与fasta相互转换，最好是准备好fasta格式文件，使用工具转化成相互式的phy格式。
- 脚本位置：
  - /lustre/project/og04/shichunwei/project/temp/Tree/fasta2phy.pl
  - /lustre/project/og04/shichunwei/project/temp/Tree/phy2fasta.pl

model test

modelgenerator

参考
示例：

java -jar modelgenerator.jar align_file num_gamma_categories
java -jar modelgenerator.jar test.phy 4

问题：采用ModelGenerator的时候，gamma categories 具体是什么意思
the number of discrete gamma categories ？ 4,8 or bigger? maybe default if 4.
link

jModeltest

一般只需 -AIC即可

java -jar /lustre/project/og04/shichunwei/biosoft/jmodeltest-2.1.7/jModelTest.jar -d  jmodel.fasta -s 11 -i -g 4 -f -AIC -AICc -DT -BIC -a -tr 8 > jmodel.out

fasttree

fasta/phy，有多个模型可选，邻接→最大简约→最大似然？我的理解是多种结合。模型采用的是Jukes-Cantor or generalized time-reversible(核酸); JTT (Jones-Taylor-Thorton) or WAG (Whelan Goldman)（蛋白）
数据：核酸或蛋白(fasta/phy)
网址
说明书中指出其准确性优于邻接法BIONJ和FastME，弱于最大似然法RaxML和PhyML，但是速度更快。
示例:

/lustre/project/og04/shichunwei/biosoft/fasttree/FastTreeMP -nt -gtr  -fastest -boot 1000 -gamma -log crab.log cds.clustalw.phy > fasttree.tree

参数选择：(GTR model)

-nt 核酸

-boot 1000

-n read multiple alignments

-fastest -- speed up the neighbor joining phase & reduce memory usage(recommended for >50,000 sequences)

-gamma

-log log file

-run cpus : 通过在终端中输入export OMP_NUM_THREADS=3来控制运行的线程数。fasttree -help 会告诉你程序最终会用多少个线程运行。上例中为3.

fasttree model choice
- GTR+CAT ; FastTree -gtr -nt alignment_file > tree_file
- JC+CAT ; FastTree -nt alignment_file > tree_file

fastme

Nearest Neighbor Interchange (NNI)、 Subtree Pruning and Regrafting (SPR) 邻接法
数据：nucleotide or amino acid multiple sequences alignments (MSA)

link

示例：

cd /lustre/project/og04/shichunwei/project/temp/Tree\
perl fasta2phy.pl test.fasta\
perl -p -i -e 's/\./\-/g' test.phy\
/lustre/project/og04/shichunwei/biosoft/fastme-2.1.5/src/fastme -i test.phy -T 8 -B -b 1000 -d F84 -o outtree

参数选择：

-T number of threads

-i input data file

-o output tree file

-B output bootstrap trees file

BIONJ

邻接法

输入数据：distance matrix from phylip

mega

图形化交互式界面，不适合集群上使用。

phylip

涵盖了邻接法、最大似然法和最大简约法构建发育树。重点还是数据准备（phy格式），使用起来比较简单，交互式的命令，故可能不适合串成自动运算的脚本。
link
/lustre/project/og04/shichunwei/biosoft/phylip-3.696/exe
操作步骤（bootstrap检验）：

bootstrap：先产生多套数据，再构树，然后合并得到最优树

MP法
- seqboot 产生 1000套伪序列
- dnapars，M选项为分析multiple data sets改为yes，产生1000个树结果
- consence，得到一致树
- 参数选择：
  - O 选择外类群
  - I inputfile interleaved or not

ML法
- seqboot 产生 1000套伪序列
- dnaml，M选项为分析multiple data sets改为yes，产生1000个树结果
- consence，得到一致树

距离法
- seqboot 产生 1000套伪序列
- dnadist 计算距离，更改M选项
- neighbour 更改M选项，产生1000个树结果
- consence 得到一致树

RaxML

最大似然，起初来源于phylip的dnaml link
示例：

cd /lustre/project/og04/shichunwei/project/temp/Tree/RAxML
/lustre/project/og04/shichunwei/biosoft/standard-RAxML-master/raxmlHPC -x 12345 -p 12345 -# 1000 -m GTRGAMMA -s test.phy -n out -f a -o EL -T 8

1000次 bootstrap，得到最优树；-m 选择模型；-f a : fast bootstrap；-o 设置外类群；-T　线程数

phyml

最大似然法，

/lustre/project/og04/shichunwei/biosoft/mpich-3.2/install_dir/bin/mpirun -n 4 /lustre/project/og04/shichunwei/biosoft/PhyML-3.1/PhyML-3.1_linux64 -i test.phy  -d nt -b 1000 -m GTR -c 4 -a e -s BEST

-m 选择模型；

-b bootstrap；

-i 默认DNA interleaved sequence；

-d type，nt核酸，aa氨基酸；

-q 更改 -i 为sequential format；

-n dataset num

-m model：HKY85 (default) | JC69 | K80 | F81 | F84 |TN93 | GTR | custom

-a gamma：e

-c number of relative substitution rate categories，default = 4

-s BEST

-多线程 mpirun -n 4

-外类群设置：add “ * ” at the end of sequence name

LVB

web site

/lustre/project/og04/shichunwei/biosoft/lvb_3.4_source/lvb/lvb -b 1000 -c l -i infile -o outtree -p 4 -s 12345 -t 1

-b bootstrap ; -p thread ; -t tree number ; -c cooling schedule,g is faster & l is more accurate ; -s random seed ;
the max sites : 500,0000.
bootstrap 之后，调用phylip consence ,指定 outgroup 得到最大简约有根树；也可以用 phylip retree 得到有根树
tree length ? shortest tree?

存在问题：

不同软件得出的modeltest结果不一致；基于多种标准有不同的结果，该选择哪种标准，AIC？是否需要自定义氨基酸模型？

取交集，或任选一个；标准基于AIC；倾向于选择而不是自定义

有的软件输入文件是基于sequence的，不能用SNP简单连接成fasta或phy，故需标明只能用sequence的软件

注意输入文件的格式，phy有两种格式

测试数据

测试地址：/lustre/project/og04/project/KF-JL-B1-20150203-01_soybean/version3/02.pop_structure/tree/ML
测试地址2: /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_sequence/crab_cds_sequence.phy
/lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_snp/crab_snp.phy

最后编辑于：2017.12.04 01:41:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,468评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,620评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,427评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,160评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,197评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,334评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,775评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,444评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,628评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,459评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,508评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,210评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,767评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,850评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,076评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,627评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,196评论 2赞 341

构建系统发育树

系统发育树的构建

现有的方法

系统发育树构建方法的优劣

其他资料

数据准备

model test

modelgenerator

jModeltest

fasttree

fastme

BIONJ

mega

phylip

RaxML

phyml

LVB

存在问题：

测试数据

推荐阅读更多精彩内容