Hi,大家好。对于做实验的小伙伴来说,我们经常需要构建进化树,那么很多人应该都会选择MEGA(Molecular Evolutionary Genetic Analysis)这款软件。MEGA软件的目标是从进化的角度出发,为探索、发现和分析DNA和蛋白质序列提供工具。从1993年第一个版本问世到今天为止,MEGA已经更新了8个版本,目前最新的版本为MEGAX。
今天我们就来介绍一下MEGAX在图形界面(GUI)下如何构建系统发育树。系统发育树又称演化树或者进化树,是一种呈现不同物种或者是同物种不同族群的个体之间的亲缘关系树状图,可应用于亲缘分支分类方法、流行病学以及生态学等等[1]。
第一步:下载MEGA软件
MEGA支持包括Windows,MacOS和LINUX多系统运行,可以说非常友好了。这里我下载的是macOS版本
MEGA的网址(https://www.megasoftware.net),选好所需版本,点击DOWNLOAD,按照要求填写所需信息下载即可。
第二步:准备自己要比对的序列
这里我们准备的fasta格式的文件: example.fasta
第三步:进行多序列比对
和
来选择。
比对完成之后,点击Data-Export Aligment-MEGA Format,将比对结果保存为example.meg格式文件
第四步:构建系统发育树
来选择建树方法。构建系统发育树有三种主要的建树方法,分别是距离法、最大简约法(maximum parsimony, MP),最大似然法(maximum likelihood,ML) 和贝叶斯法(Bayesian)。其中基于距离法的算法主要包括UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。距离法是考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,其中NJ法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得到一棵树。其缺点主要表现在将序列上的所有位点同等对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列;最大简约法是考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异,该方法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树;最大似然法主要考察数据组中序列的多重比对结果,对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树,ML法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时;贝叶斯法是一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posterior probability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验。
对进化树评估一般会采用Bootstrap 进行检验。Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度,默认自检次数为1000次。
平时一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择Neighbor-Joining法建树。本人亲自验证过NJ法建树几秒搞定,使用ML法,8线程足足运行了2个多小时。
进化树构建完毕后,将进化树的文本文件也保存一下。点击File中的Export Current Tree(Newick),将结果保存为Newick格式。便于之后在iTOL等工具中进行进一步的美化。
1.维基百科
2.Glen Stecher, Koichiro Tamura, and Sudhir Kumar (2020) Molecular Evolutionary Genetics Analysis (MEGA) for macOS. Molecular Biology and Evolution (https://doi.org/10.1093/molbev/msz312)
3.http://blog.sina.com.cn/s/blog_6c0267490102wgxn.html,三大系统进化树法则:邻接法,最大简约法,最大似然法