1、简介
- 注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。
- 基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。
- Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
- 两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
- 处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。
2、bed文件
BED文件每行至少包括chrom,chromStart,chromEnd三列(必选);另外还可以添加额外的9列(可选),这些列的顺序是固定的。
-
必选的三列:
- chrom:染色体的名称(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。
- chromStart:染色体或支架中特征的起始位置。染色体中的第一个碱基编号为0。
- chromEnd:染色体或支架中特征的结束位置。染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99
-
9个可选的BED字段:
- name: 定义BED行的名称。当轨道打开到完全显示模式时,此标签显示在Genome浏览器窗口中BED行的左侧,或者在打包模式下直接显示在项目的左侧。
- score: 得分在0到1000之间。如果此注释数据集的轨迹线useScore属性设置为1,则得分值将确定显示此要素的灰度级别(较高的数字=较深的灰色)。此表显示 Genome Browser将BED分数值转换为灰色阴影:
- strand:定义正负链。要么“.” (=无绞线)或“+”或“ - ”。
- thickStart:绘制基因的起始位置(例如,基因显示中的起始密码子)。当没有厚部分时,thickStart和thickEnd通常设置为chromStart位置。
- thickEnd:绘制特征的结束位置(例如基因显示中的终止密码子)。
- itemRgb:R,G,B形式的RGB值(例如255,0,0)。如果轨道行 itemRgb属性设置为“On”,则此RBG值将确定此BED行中包含的数据的显示颜色。注意:建议使用此属性的简单颜色方案(八种颜色或更少颜色),以避免压倒Genome浏览器和Internet浏览器的颜色资源。
- blockCount:- BED行中的块(外显子)数。
- blockSizes:- 块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。
- blockStarts:- 以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。
例如:
chr1 10279 10779 + 0 NA Intergenic -1345 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1 13252 13752 + 0 NA TTS,(NR_024540) 1628 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1 16019 16519 + 0 NA intron,(NR_024540,,intron,8,of,10) 1167 NR_107062 102465909 NA NR_107062 MIR6859-2 microRNA,6859-2
chr1 29026 29526 + 0 NA promoter-TSS,(NR_024540) 94 NR_024540 653635 Hs.446466 NR_024540 WASH7P WAS,protein,family,homolog,7,pseudogene
chr1 96364 96864 + 0 NA Intergenic 27523 NM_001005484 79501 Hs.554500 NM_001005484 OR4F5 olfactory,receptor,,family,4,,subfamily,F,,member,5
chr1 115440 115940 + 0 NA Intergenic 24876 NR_039983 729737 Hs.534942 NR_039983 LOC729737 uncharacterized,LOC729737
chr1 237535 238035 + 0 NA Intergenic -86107 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062
chr1 240811 241311 + 0 NA Intergenic -82831 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062
3、gtf/gff文件
- GTF 为General Transfer Format缩写,跟 GFF2格式类似。相信大家做转录组分析时候经常会看到Cufflinks或者Stringtie软件对转录组进行定量与组装会时产生一个gtf文件,以人类基因组hg38为例,里面包含的信息如下:
1 havana gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";
1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 11869 12227 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 12613 12721 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 13221 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic"; transcript_support_level "1";
-
每列信息的含义如下:
- seqname:序列的ID,可以是染色体的ID也可以是Scaffold或者Contig的ID。
- source:产生此文件的软件,如Stringtie产生的则为Stringtie,CUfflinks产生的则为Cufflinks,不知道的使用点 “.” 表示。
- feature:可以是gene,exon,transcript,lncRNA,CDS等等特征。
- start:上述feature的在序列上的起始位置。
- end:上述feature的在序列上的终止位置。
- score:一个浮点数值,也可以为点 “.” 。有值的时候代表上述feature的可靠性。因为无论是gene还是mRNA,都是基于预测生成的,因而必然会有一个值来衡量预测准确性。
- strand:+ (forward)或者 - (reverse),代表上述feature是位于正链还是负链上。
- frame:内含子相位,只能为'0', '1' or '2',或者为点 “.”。 '0' 代表feature起始碱基为三联体密码子的第一个碱基, '1' 代表三联体密码子的第2个碱基, 2代表第3个碱基。
- attribute:备注列。主要备注该feature的一些信息,常见的是gene或者transcript等的ID信息以及FPKM值等,多个备注信息之间通常用分号分隔。
gff格式。为General Feature Format缩写,目前采用的是version 3,即我们常说的gff3文件。该文件常用来对基因组进行注释,表示基因,外显子,CDS,UTR等在基因组上的位置。众多基因预测软件如Glean,EVM,AUGUSTUS等会产生此格式文件。
与gtf文件不同之处只是在第9列。此列格式为“标签=值”(tag=value),标签与值之间用“=”,不同的标签之间用“;”隔开,一个标签可以有多个值,不同值用“,”分割。
参考
https://www.jianshu.com/p/9208c3b89e44
https://www.jianshu.com/p/3a8aa6ea5002