写在前面:在基因家族生信分析(二)这篇文章里,简单提到了一种基因结构绘制的方法,当时是跟着视频课做笔记,没有实际操作。直到今天实际操作了一下,发现有很多需要注意的地方,今天就详细记录一下。
正文在这:先放成果图哈,这张基因结构图里分为进化树,CDD(保守功能结构域),UTR/CDS(基本基因结构)三大部分。
第一步,UTR/CDS(基本基因结构)
1)首先从拟南芥官网获取GFF3文件(GFF3文件里无具体序列,是一些结构信息)
2)以WRKY家族转录因子为例,下载序列信息,打开plantTFDB网站,选择所需物种。点击WRKY家族,点击Download Sequence
3)简化2里的基因名,方便后续操作
4)提取基因ID和序列(取其中30个)
5)展示基本基因结构
第二步,UTR/CDS(基本基因结构)+CDD(保守结构域)
1)打开NCBI的CD search:一键直达,然后找到Batch CD-search,进行批量分析。
2)打开hitdata.txt(这里要用excel打开)。
3)将Query列信息分列,是为了获取对应的基因ID。
4)将From,To,Short Name 列信息同样复制到Sheet2,得到我们所需的信息。(ps. 这里保存的话,就没有sheet2了,而是直接变成了hitdata.txt,但是信息仍然是处理过的,影响不大)
5)展示基因结构
第三步,UTR/CDS(基本基因结构)+CDD(保守结构域)+进化树
1)这里就是用mega做一个进化树,然后保存为netwick格式(文件8),这个就不讲了,不会的可以关注公众号私信我,给你发教程哈。
需要注意的是,当你把.nwk文件导入并作图,出来的基因顺序是根据进化树顺序排列的,但是是倒序,如上图中红框部分本来在最上面,生成图片之后就跑到了最下面。
基因结构图同样导出成pdf,将这两个图片用AI编辑,把你的进化树水平翻转一下,然后调好间距、颜色、blabla,然后保存,就可以得到一开始的效果图啦!
不过时至今日,基因结构绘制功能已经有了加强版,看着就很厉害,可惜我还不会用,害,慢慢学习,加油!有哪个小伙伴会的话也可以教教我呀哈哈哈。
为了方便大家练习,我把做这张图用到的文件都打包在一个文件夹了,微信搜索“今天吃了橙子”,回复”结构图“即可快速获取哦~
今日份奥利给:一个人要像一支队伍,对着自己的头脑和心灵招兵买马,不气馁,有召唤,爱自由(,早日SCN)。