简介
SRA是NIH的高通量测序数据的主要档案,是国际核苷酸序列数据库协作(INSDC)的一部分,包括NCBI序列阅读档案(SRA),欧洲生物信息学研究所(EBI)和DNA数据库。 日本(DDBJ)。 提交给三个组织中任何一个的数据在它们之间共享。
特点
存档来自各种高通量测序平台的原始测序数据和比对信息,比如Illumina。
二代测序流程
数据
SRA接受来自各种测序项目的数据,包括涉及人类受试者或其宏基因组的临床重要研究,其可能包含人类序列。
根据SRA数据产生的特点,将SRA数据分为四类:
Studies-- 研究课题
Experiments-- 实验设计
Runs-- 测序结果集
Samples-- 样品信息
SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.
Studies是就实验目标而言的,一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分:
ERP或SRP表示Studies;
SRS 表示 Samples;
SRX 表示 Experiments;
SRR 表示 Runs;
如何寻找并了解SRP
1.在文章中寻找GSE号(以GSE111229为例)
2.打开GEO数据库,输入GSE号
3.可通过Linux下载
4.打开NCBI,搜索SRP号
5.得研究基本信息
参考来源:生信技能树
友情链接:
课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)
欢迎关注公众号:青岛生信菜鸟团