GTF与GFF文件格式的区别与转换

GTF与GFF文件都是用于存储注释信息的文本类型，经常可以看到二者格式之间的相互转换。二者的名字相似，连内容都极为相似，那么二者的差异究竟在哪里呢？

GFF (general feature format): 可以用于任何基因组注释的存储
GTF (gene transfer format): 严格的用于基因注释信息的存储

GFF

GFF文件是一种用来描述基因组特征的文件，现在我们所使用的大部分都是第三版）（GFF3）。gff文件除gff1以外均由9列数据组成，前8列在gff的3个版本中信息都是相同的，只是名称不同。

第9列attributes的内容存在很大的版本特异性，9列信息（以gff3为例）分别是：

1	2	3	4	5	6	7	8	9
seqid	annotation source	feature type	start	end	score	strand	phase	attributes

seqid ：参考序列的id。
annotation source：注释的来源。如果未知，则用点（.）代替。一般指明产生此gff3文件的软件或方法。
feature type：类型，此处的名词是相对自由的，建议使用符合SO惯例的名称（sequenceontology），如gene，repeat_region，exon，CDS等。
start coordinate：开始位点，从1开始计数（区别于bed文件从0开始计数）。
end coordinate：结束位点。
score：得分，对于一些可以量化的属性，可以在此设置一个数值以表示程度的不同。如果为空，用点（.）代替。
strand：“＋”表示正链，“－”表示负链，“.”表示不需要指定正负链。
phase ：步进。对于编码蛋白质的CDS来说，本列指定下一个密码子开始的位置。可以是0、1或2，表示到达下一个密码子需要跳过的碱基个数。
attributes：属性。一个包含众多属性的列表，格式为“标签＝值”（tag=value），不同属性之间以分号相隔，这一列最后没有分号。如：
```
ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human
```
几个attributes举例：
- ID：type的标识；
- Name：type的展示名称。Name的值在可视化的时候得到展示。因此，Name可以根据自己展示的需要随意取值；
- Parent ：指明type所从属的上一级ID。用于将exons聚集成transcript，将transripts聚集成gene。

GFF允许使用#作为注释符号，例如很多GFF文件都会使用如下的两行来表明其版本其创建日期：

## gff-version 2
## created 11/11/11

GFF文件每一列所代表的含义前面表格中有，但请注意，它的第3列feature type是不受约束的，你可以使用任意的名称，但也不要太淘气~用一些适当的名称对于后面的分析会有很大的帮助。

我们需要注意的是GFF文件的第9列，从第二版开始(GFF2)，所有的属性都以标签=值的方式呈现，各个属性之间以;作为分隔符

ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human

在最新版本的GFF文件中(GFF3)，有一些是已经预先定义的属性特征，并且这些特征往往还有特殊的含义：ID这个标签实在各行都要有的；另外有一个Parent的属性，它指明type所从属的上一级ID。

GTF

当前所广泛使用的GTF格式为第二版(GTF2)，它主要是用来描述基因的注释。GTF格式有两个硬性标准：

根据所使用的软件的不同，feature types是必须注明的。
第9列必须以gene_id以及transcript_id开头
GTF文件的第9列同GFF文件不同，虽然同样是标签与值配对的情况，但标签与值之间以空格分开，且每个特征之后都要有分号;（包括最后一个特征）

1	2	3	4	5	6	7	8	9
seqname	source	feature	start	end	score	strand	frame	attributes

seqname: 序列的名字。通常格式染色体ID或是contig ID。
source：注释的来源。通常是预测软件名或是公共数据库。
start：开始位点，从1开始计数。
end：结束位点。
feature ：基因结构。CDS，start_codon，stop_codon是一定要含有的类型。
score ：这一列的值表示对该类型存在性和其坐标的可信度，不是必须的，可以用点“.”代替。
strand：链的正向与负向，分别用加号+和减号-表示。
frame：密码子偏移，可以是0、1或2。
attributes：必须要有以下两个值：
- gene_id value; 表示转录本在基因组上的基因座的唯一的ID。 gene_id与value值用空格分开，如果值为空，则表示没有对应的基因。
- transcript_id value; 预测的转录本的唯一ID。transcript_id与value值用空格分开，空表示没有转录本。
attribures之后有可能会有comments选项，以“#”开头，一直到行末尾。

区别

gtf2的内容和gff3也是很相似的，区别只在其中的3列:

-	GTF2	GFF3
feature type	根据软件名称注明	可以是任意名称
attributes	空格分隔	‘=’分隔

格式转换

使用Cufflinks里面的工具"gffread":

#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

使用脚本进行格式转换

GTF to GFF

import sys

inFile = open(sys.argv[1],'r')

for line in inFile:
  #skip comment lines that start with the '#' character
  if line[0] != '#':
    #split line into columns by tab
    data = line.strip().split('\t')

    #parse the transcript/gene ID. I suck at using regex, so I usually just do a series of splits.
    #transcript_id和gene_ids是GTF第九列肯定存在的
    transcriptID = data[-1].split('transcript_id')[-1].split(';')[0].strip()[1:-1]
    geneID = data[-1].split('gene_id')[-1].split(';')[0].strip()[1:-1]

    #replace the last column with a GFF formatted attributes columns
    #I added a GID attribute just to conserve all the GTF data
    data[-1] = "ID=" + transcriptID + ";GID=" + geneID

    #print out this new GFF line
    print '\t'.join(data)

脚本运行

python myScript.py myFile.gtf > myFile.gff

GTF to GFF

import sys

inFile = open(sys.argv[1],'r')

for line in inFile:
  #skip comment lines that start with the '#' character
  if line[0] != '#':
    #split line into columns by tab
    data = line.strip().split('\t')

    ID = ''

    #if the feature is a gene 
    if data[2] == "gene":
      #get the id
      ID = data[-1].split('ID=')[-1].split(';')[0]

    #if the feature is anything else
    else:
      # get the parent as the ID
      ID = data[-1].split('Parent=')[-1].split(';')[0]
    
    #modify the last column
    data[-1] = 'gene_id "' + ID + '"; transcript_id "' + ID

    #print out this new GTF line
    print '\t'.join(data)

参考资料：

最后编辑于：2019.01.07 18:07:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

GTF与GFF文件格式的区别与转换

GFF

GTF

区别

格式转换

使用脚本进行格式转换

GTF to GFF

GTF to GFF

参考资料：

推荐阅读更多精彩内容