一
现在,基因组测序和组装的价格已经降到了很多科研团队都能负担的水平,因此,很多物种的基因组序列都被测定并公开了。同时,描述这些基因结构的文件,比如GTF或GFF3文件,也可以在网上免费下载。
对于大多数科研人员来说,有了这两个文件就足够他们开展研究了。但理想很丰满,现实却很骨感。虽然物种的基因组很多,但基因组序列的质量往往参差不齐,而基因结构注释文件更是五花八门,这常常会给后续的数据分析带来麻烦。我最近在研究一些数据,就遇到了这样的问题。
我想,如果能有一个工具,能够规范化GFF3文件,补充完整缺失的信息,让这个文件能更好地适应各种后续的数据分析,甚至更方便进一步的研究使用,那该多好啊!
我查了查,发现市面上几乎没有这样的工具。除了一个perl脚本集合(在github上搜索aget能找到)可能能做点类似的工作外,真的没找到其他相关的软件,特别是那种还有用户界面的。
功夫不负有心人,终于被我找到有位大佬花了一些时间,写了一个叫做GXF Fix的工具,然后把它集成到了TBtools主程序里。这个工具的主要功能就是修复基因结构注释文件中缺失的部分,基于文件中已有的信息来补充完整。
二
基因结构注释信息文件是科研中常用的一种数据格式,但它们常常存在一些问题。
首先是“GENE”特征缺失。有些注释文件可能非常粗糙,比如直接从转录组组装结果得到的GTF文件,它们可能完全没有包含“gene”这一特征。我遇到的,恰恰就是这个问题。
其次是“mRNA”特征的缺失。有些基因结构注释文件里,可能缺少了“mRNA”特征,只包含了“exon”(外显子)和“cds”(编码序列),或者只有“cds”。这样的文件对于一些转录组分析流程来说,可能根本无法使用,比如“STAR align - stringtie”这个流程。这个问题,以前也遇到过。
再者是“UTR”(非翻译区)信息的缺失。只有极少数的物种会提供UTR区间的信息,大部分文件只给出“exon”和“cds”,甚至只有“mRNA”和“cds”。虽然UTR信息很可能存在,但需要用户自己去计算坐标。而有了UTR区间的好处是,我们可以知道一些位点的绝对可靠序列特征信息,比如miRNA的靶位点等。
此外,基因结构注释信息文件的排序也可能混乱无序。
……当然,还有很多其他令人头疼的问题。
三
GXF Fix 修复基因结构注释信息文件 - GTF/GFF3
话不多说,让我们直接开始看看如何修复gff注释文件。首先,功能界面如下:
示例一:拟南芥的基因结构注释信息文件,可以说是非常全面
内容对比
使用示例 - 粗糙注释
有一些注释信息文件,还是比较粗糙的。比如缺少 gene,甚至 mRNA feature都没有。
直接进行修复。
一个我做项目的实例:这是我在做3D基因组研究时,问中科院海洋所的一个大佬要的数据(在此实名感谢这位姐姐~)。但是其实数据有一些问题存在,比如基因组文件和注释文件染色体名称不匹配、注释文件中第三列没有“Gene”等。前者好解决,后面这个问题确实让我想了很久。让我们看看GXF Fix的强大吧。
修复前:第三列无gene
修复中,速度很快
修复后:第三列有gene了!
最后,真的要感谢大佬写出了这么方便好用的功能,让我们这些基因组研究者能够更加方便快捷的进行gff文件修复~
参考链接:https://blog.csdn.net/abai0410/article/details/115679446