本系列主要内容
介绍ENCODE的数据概况,在data portal上查询数据,使用REST API批量下载数据,参照ENCODE官方数据处理流程构建自己的pipeline。同时介绍ENCODE项目培训课程(主要是数据分析)的资料。
这是一个包含四篇文章的小专栏,内容分别为:
- 介绍ENCODE计划的数据体系(data model)
- 批量下载ENCODE portal的数据(附示例代码)
- 学习ENCODE的官方数据处理流程(pipeline)(附代码仓库列表)
- ENCODE项目数据分析培训课程的资源(附下载链接)
本篇主要内容
通过介绍ENCODE计划的数据概况,你可以了解这个项目产生了什么数据,以及这些数据对你有没有价值。
一句话介绍ENCODE计划
ENCODE的目标是定义人类基因组中所有发挥“功能”的DNA元件,并研究这些元件与蛋白和RNA之间的相互作用如何调控细胞的转录活动。第一阶段于2003年由NIH开启,最新一期的ENCODE Phase 4从2017年2月开始实施,资助总金额达到3200万美元,基本上确立了未来五年世界范围内基因组学的前沿研究方向。
为什么要启动Phase 4
引用自National Human Genome Research Institute (NHGRI):
Although much progress has been made over the past decade, these catalogs are incomplete. The purpose of this FOA is to solicit applications for research projects to apply state-of-the-art, high-throughput and cost-effective data generation pipelines to develop an expanded catalog of candidate functional elements in the human and mouse genomes.
Phase 4的重点研究方向请查看:https://www.encodeproject.org/data/annotations/
ENCODE的数据调度中心 Data Coordination Center (DCC)
ENCODE作为周期长,经费多,参与者众多的合作项目,当然要设立超大型数据中心 Data Coordination Center (DCC),把每个数据摆放在合适的位置,让用户方便的查询下载数据。其中Phase 1-3的DCC在UCSC,到了Phase 4,DCC搬到了Standford University。DCC的任务包括和Data Analysis Center (DAC) 合作定义数据模型 (data model),并将数据存储在数据库里(data portal),分享给全世界的研究人员。
ENCODE 生物样本(biosample)的多样性
- ENCODE的bioample按照种类分为immortalised cell line (GM12878, K562等), tissue (liver, lung等), whole organisms, primary cell (bone marrow cell等)和stem cell (H1-ESC等), in vitro differentiated cells (neutron cell)等等。
- 按照在ENCODE里的重要性分为tier1,tier2和其他。Tier1的细胞系(GM12878,H1-ESC和K562)拥有最高的优先性,配套的数据也最多。详细请查看https://www.encodeproject.org/search/?type=Biosample
ENCODE Assay的多样性
- ENCODE phase 2起包括:ChIP-seq, DNase I Hypersensitivity, RNA-seq和DNA methylation等
- ENCODE phase 3和4陆续增加了包括ATAC-Seq, ChIA-PET, Hi-C, eCLIP-Seq等
完整列表请参考:https://www.encodeproject.org/profiles/experiment.json
ENCODE的数据模型 (data model)
在一次实验(Experiment)中,会有生物学和技术性重复(Biological and Technical Replicate),制备的文库(Library)以及来源的生物学样本(Biosample)。它们都是不同类型的对象(object),对应着自己的metadata,比如Experiment对应的metadata包括:实验日期,文库制备流程(protocol),操作人和测序仪器等,完整版请查看:https://www.encodeproject.org/profiles/experiment.json。一些重要的object拥有自己独一无二的标示(accession number),以ENCXX开头。请看图:
图片来自https://www.encodeproject.org/help/getting-started/
这些objects以及metadata组成的关系网络称作 Data model。完整版data model和metadata请查看:https://github.com/ENCODE-DCC/encoded/blob/master/src/encoded/schemas/biosample.json
有了metadata,产生数据的实验室(Mapping Center)就有了一套规则描述自己产生的每一个数据,用户也可以轻易的搜索到自己所需的数据。
结语
ENCODE在产生,管理,可视化数据以及数据流程的标准化,研究的可重复性上积累了大量经验,翻阅一下相关论文,逛一下代码仓库都会有收获。
下一节主要介绍使用data portal,通过metadata搜索数据,以及批量下载数据(附示例代码)。
参考资料
ENCODE portal官网:https://www.encodeproject.org
ENCODE DCC Github仓库地址:https://github.com/ENCODE-DCC
ENCODE Phase 4 Funding申请页面: https://grants.nih.gov/grants/guide/rfa-files/RFA-HG-16-002.html#_Section_I._Funding
ENCODE Wikipedia页面:https://en.wikipedia.org/wiki/ENCODE