有时候,我们需要对某个特定基因家族进行进化树的构建,那么怎么来实现呢?以下是一种比较简单的基于Mega的方法
一 提取蛋白序列
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/下载faSomeRecords脚本:faSomeRecords.txt
右键复制链接地址,wget ctrl+shift+v
#赋予所有人可执行权限
chmod a+x faSomeRecords
#添加环境变量(也可以直接./)
./faSomeRecords pep.fa(蛋白序列文件) ID.txt(蛋白序列对应的基因IDlist,一行一个基因名) out.fa(输出文件)
二 利用Mega软件构建进化树
首先在自己电脑的Windows系统下安装Mega软件
序列比对
做系统进化树之前要做多序列比对,将比对结果提交给MEGA建树。打开MEGA,点击File→Open A File/Session…→找到自己要比对的序列,打开
弹出对话框,选Align
接下来我们进行序列比对,在Alignment里面有Alignment by ClustalW和Muscle两个选项。其中ClustalWClustalW是现在用的最广和最经典的多序列比对软件,基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好。
Muscle速度快,用于序列多的时候进行的比对。
这里我们选择ClustalW:
弹出对话框选OK,之后弹出多序列比对参数设置窗口。由于MEGA的参数都是经过考量的,所以当看不懂时默认就好
可以将比对结果保存下来
保存文件格式选择.meg
双击刚才建好的.meg文件,文件就直接导入MEGA,点击,会出现“Sequence Data Explorer”窗口,最上面一行是consensus sequence,也就是一列里出现次数最多的字母
点击MODELS中的Find Best DNA/Protein Models(ML) ,软件会根据你的数据帮你计算寻找最适合的模型,提高建树的精确度
运行后结果如下。最重要的是BIC(BayesianInformation Criterion),越低代表模型越好。在这里就可以看到,BIC分数最低的模型是JTT+G,但软件不支持组合模型,所以我们选择单个模型中BIC分数最小的,此处为JTT
点击Phylogeny构建进化树,有多种建树方法,适用情况自行摸索,此处选择NJ邻接法建树
弹出设置窗口,没有什么要求时默认即可。
Test of Phylogeny(建树的检验方法),是用来检验建树的质量的。默认的检验方法是Bootstrp method (步长检验)。步长检验需要设定检验次数,通常为100的倍数,默认设置为500,通常1000次以上较为可靠,这里设置1000。
Model处选择上文计算好的JTT。
Gap/Missing Date Treatment,大多数建树方法会要求删除多序列比对中含有空位较多的列。但是根据遗传距离度量方法的不同,删除原则不同。如果是以序列间不同残基的个数来度量遗传距离的话,选择Complete deletion;如果其他方法例如NJ,可以选择Partial deletion,程度约50%
可对树的形状进行调整
基因名字过长,是因为基因序列导出后,未对基因名做简化处理,大家可以将导出的fasta格式以文本文件打开,将多余字符删除,只保留想要信息即可
View:可以更改枝的线条,字体样式等。
Image:输出图片。
Caption:单击后生成文献中该图的标题、备注说明,使用到的文献等,这个功能很好用,写文章会需要的。
最后记得将建树结果保存为.nwk格式,这个结果保存很重要,下次直接双击就可进入MEGA对其操作
以上是对于进化树的简单构建,如果我们要做出好看的进化树的话,还是推荐使用TBtools或者如果有R语言基础的可以尝试ggtree
参考文章链接:
https://blog.csdn.net/wt141643/article/details/119295616
https://www.jianshu.com/p/61dcac9d94f8