生物信息学常见数据格式

生物信息学上常见的数据格式主要有fasta,fastq,gff/gtf。

1 FASTA

FASTA是一种基于文本用于表示核酸序列蛋白质的氨基酸序列的格式。

主要分为两部分,第一部分即第一行为id行,以“>”开头,包含注释信息;第二部分(不只有第二行)为序列信息,每个字母表示一个碱基或氨基酸,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。

下面举几个例子

核酸序列

我们以人类血红蛋白α亚基的mRNA序列为例

图源NCBI

点击红框中的FASTA可查看其FASTA格式,如下

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G

注释信息

  • gb:gene bank,
  • AF349571.1:Gi号,类似于每个人都有自己与众不同的身份证,序列也是类似;
  • Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds:对序列的描述,如是什么核酸序列(mRNA),具体是什么类型(cds)。

我在查询序列的时候发现,作为mRNA序列,为什么没有碱基U,反而出现了碱基T。

知乎孟浩巍大佬解释说“这是为了保证数据的统一性,因为U只是在RNA中替换了原来的T,所以为了下游的方便分析处理,无论RNA序列还是DNA序列都是使用T而不是U。”

氨基酸序列

同样以人类血红蛋白α亚基的序列为例

图源NCBI

点上面的FASTA即可查看其FASTA格式,如下

>sp|P69905.2|HBA_HUMAN RecName: Full=Hemoglobin subunit alpha; AltName: Full=Alpha-globin; AltName: Full=Hemoglobin alpha chain
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNA
VAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSK
YR

注释信息

  • P69905.2:Gi号
  • HBA_HUMAN:序列简称
  • RecName:数据库推荐使用的名字
  • AltName:别名

正如前面的介绍,FASTA格式非常简单,但相较于下面将要介绍的FASTQ格式来说,缺少了测序序列的质量信息。

2 FASTQ

FASTQ是一种存储了生物序列以及相应的质量评价的文本格式,共有四行。

以SRR2176381为例,在linux环境下使用prefetch命令将SRR2176381的sra格式测序数据下载下来,再通过fastq-dump命令将sra转换为fastq,转换后查看,如下

@SRR2176381.1 HWI-ST397:369:C3JLPACXX:8:1101:1635:2086 length=101
NGAGTAATCCGGCTGTCAGTTCCTGACGCTTGCAAAACTTCACCGATCCCACATTGCCTGAAATATCGCGGGTCTGTGCTTTAACCAATGCACCATCTCCC
+SRR2176381.1 HWI-ST397:369:C3JLPACXX:8:1101:1635:2086 length=101
#1=DDFFFFHHHHJJJJJJIIIJJIIIJJJJJJJJJJJJJEEIHFFGIJJJJJJJHHHHHBDFFFFFDDDDD9>D9@AACDDACCCDBCDDDDDDDCCCDD

第1行: id行,以“@”开头,主要储存序列测序时的坐标等信息。

  • SRR2176381.1:Gi号
  • HWI-ST397:369:C3JLPACXX:测序仪的唯一设备名称
  • 8:lane的编号
  • 1101:tail的坐标
  • 1635:在tail中的X坐标
  • 2086:在tail中的Y坐标
  • length=101:长度为101

第2行: 序列行,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。

第3行: 附加信息行,以“+”开始,一般为空或和第一行相同。

第4行: 碱基质量行,根据ASCII表,用一个字符代表碱基质量的好坏,与第二行的测序结果是一一对应的,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好

3 GTF和GFF

GTF和GFF都是以\t分隔用于基因注释的文件。

GTF文件和GFF文件可通过软件相互转化。

GTF:General Transfer Format

GFF:General Feature Format

一个GTF或GFF文件包含9列内容

  1. seqid: 序列编号,一般为chr或者scanfold编号,每条染色体拥有一个唯一的ID。
  2. source: 注释来源,可以是数据库的名称、软件的名称,也可以为空。
  3. feature: 注释类型,一般为CDS,exon,cDNA,5UTR等等。
  4. start: 该序列在参考序列上的起始位置,以1为染色体的起点。
  5. end: 该序列在参考序列上的终止位置。
  6. score: 得分,如拼装的可信度,“.”表示为空。
  7. strand: 正链还是负链,+表示正链,-表示负链,?表示不清楚正负链的信息。
  8. phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2。从0开始,CDS的起始位置,除以3,余数就是这个值,表示到达下一个密码子需要跳过的碱基个数。
  • 0表示这个region的第1bp就是正好是密码子的第1个碱基;
  • 1表示这个region的第2bp就是正好是密码子的第1个碱基;
  • 2表示这个region的第3bp就是正好是密码子的第1个碱基;
  1. attribute: 包含多属性的列表,一般会记录 gene_id 与transcript_id;标签与值之间以空格分开,且每个特征之后都要有分号(包括最后一个特征)
chr1    hg19_ncbiRefSeq CDS 67000042    67000051    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    66999929    67000051    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67091530    67091593    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67091530    67091593    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67098753    67098777    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67098753    67098777    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67105460    67105516    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67105460    67105516    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67108493    67108547    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";

欢迎关注我的公众号 小汪Waud

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,812评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,626评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,144评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,052评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,925评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,035评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,461评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,150评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,413评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,501评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,277评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,159评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,528评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,868评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,143评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,407评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,615评论 2 335

推荐阅读更多精彩内容