系统进化树学习笔记。
系统进化树简介
系统进化树(Phylogenetic tree)
:用一种类似树状分支图形来概括各节点之间的进化关系,节点可以是不同物种、同一物种不同样本、不同基因等。可体现物种进化关系和演化历程,群体内部样本亲缘关系,基因家族成员分类和进化关系等。
分类:根据是否指定跟节点,可分为有根树和无根树。
无根树:没有指定祖先节点,进化树只呈现各个节点的拓扑结构和相关距离。
有根树:指定根节点,进化树可呈现各个节点的距离和祖先节点以及各个分枝分化的先后关系,可用于分化时间的推断。
系统进化树的基本元素
进化拓扑结构
:进化树不同分支的拓扑图形。
根(root)
:所有分类的共同祖先。
节点(node)
:一个分类单元:有外部节点(out node)和内部节点(inner node),外节点又称叶节点,代表参与分析的物种或序列。
进化分支
:两种以上生物(或序列等)及其祖先组成的树枝。
外群
:与分析序列相关的生物序列且具有较远的亲缘关系。
常用的三个指标:距离标尺、分支长度和自展值
距离标尺
:进化树可显示序列的差异度(数值),标尺即为“比例尺”。
分支长度
:对应演化距离,在树形结构中,枝长累积距离越近的样本或序列差异越小,反之差异越大,如 D 和 I 之间的差异就是 a+b,D 和 F 之间的差异度是 a+c+d。
自展值(bootstrap)
:检验计算的进化树分支可信度,该值范围 0-1 或者 0-100% 。
系统进化树的拓扑结构
经典形式(Traditional),圈图(Circular),辐射树(Radiation)
Cladogram
和Phylogdram
区别关键在于枝长(branch length)是否代表进化距离。
-
Cladogram 强调分支的进化关系,或者可以理解为拓扑上的关系,枝长不代表进化距离,每一个tip在末端对齐。
2.Phlogdram强调的是种系遗传,枝长有意义,代表遗传变化的多少或进化距离,越长距离祖先状态变化越大。
系统进化树构建
系统进化树的构建步骤
1.数据准备
基因的核苷酸序列,SNP位点,蛋白的氨基酸
FASTA格式
:第一行是由大于号“>”打头。从第二行开始为序列本身。
2.多序列比对
常用的软件包括MEGA,Clustal X,Muscle,Phylip。
MEGA
:是最常用的比对建树软件,优点是可视化图形界面,操作方便简单;但是比对速度慢,输出格式单一
Clustal X:优点是图形界面,可输出多种格式(如phy),但是速度也不快
Muscle 和 Phyllp 的优点是运算快,但需要简单地应用代码,不适合初学者。
多序列比对结果优化:Jalview
3.选择建树方法
Distance-based methods 距离法(NJ邻接法,MP最大简约法、ML最大似然法、Bayesla贝叶斯法,推断法)
首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵,进化树的构建则是基于这个矩阵中的进化距离关系。如果序列的相似性较高,各方法的结果差别不大;现在文章较常见的是NJ和ML模型。可根据序列相似度选择建树方法,对于近缘序列,可以用MP,MP一般不用在远缘序列上,这时一般用NJ或ML。
NJ和ML需要选择模型:蛋白质序列一般选择Poisson Correction(泊松修正)模型,核酸序列选择Kimura 2-parameter(Kimura-2参数)模型。
4.构建进化树
构建进化树的软件
- PHYLIP 免费的、集成的进化分析工具http://evolution.genetics.washington.edu/phylip.html
- MEGA 图形化、集成的进化分析工具 http://www.megasoftware.net/
- PAUP 商业软件,集成的进化分析工具http://paup.csit.fsu.edu/
- PHYML 最快的ML 建树工具http://www.atgc-montpellier.fr/phyml/
- MrBayes 基于贝叶斯方法的建树工具http://mrbayes.csit.fsu.edu/
建树软件的选择
- NJ构树:PHYLIP(命令行),MEGA(图形化)
- MP构树:PAUP(付费),PHYLIP,MEGA
- ML构树:PHYML(速度快),Tree-puzzle(命令行),PAUP,PHYLIP
进化树的评估
1⃣️Bootstrap评估进化树:用来检验构建的进化树分支可信度的。
- 原理:把序列的位点都重排,重排后的序列再用相同的办法构建,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝记为重现一次。这样经过打乱重排给定的次数后(一般设置500-1000次),这个分枝被重现的次数占重排次数的百分比就是自展值。
2⃣️ 自展值大于75(75%)才认为这个分枝是可靠的。
- 自展值低,即无法将该节点周边的序列准确区分开,可能是序列太相似或者差异太大。
- 若低自展值节点位于树的枝末端,一般是由于序列太相似了,导致无法区分,可换用其他序列或使用分辨率更高的技术对样本进行检测和分类。
- 若自展值低的节点位于树靠近根部的位置,可能是分枝周边的序列相似度太低;可适当删掉一些不靠谱的序列,或许删掉多条序列中保守性差的区域
3⃣️ 可用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。
进化树美化
- 进化树美化软件有treeview,Figtree,在线网站iTOL和Evoiview,AI,PS等。
- 通常需要注意建完树后用输出格式*.tree 或 *.nwk 的文件,导入到相关软件,进行修饰。
- 推荐iTOL:由欧洲分子生物学实验室(EMBL)开发和维护的生命树的系统发生树的网站,用于展示和操纵系统进化树(https://itol.embl.de/)。