人类基因组计划:Human Genome Project, HGP。 (1999-2006)
其宗旨在于测定组成人类染色体(指单倍体)中所包含的六十亿对组成的核苷酸序列,从而繪製人类基因组圖譜,並且辨識其载有的基因及其序列,达到破译人类遗传信息的最终目的。
ENCODE计划: DNA元件百科全书 (Encyclopedia of DNA Elements, ENCODE)。
(2003-)
由美国国家人类基因组研究所(NHGRI)在2003年9月发起的一项公共联合研究项目, 旨在找出人类基因组中所有功能组件。研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异。证明所谓“垃圾DNA”都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。
Gencode计划: 是ENCODE计划的一部分。是ENCODE的衍生品,由英国剑桥的wellcome Trust Sanger研究所负责整理与维护。
数据库文章:The GENCODE v7 catalog of human long noncoding RNAs, 链接是 http://genome.cshlp.org/content/22/9/1775.full, 我们大老板在这个作者里面。
FTP地址:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/ 可以下载该数据库的所有资料。
下载GENCODE最新版是v24,在linux系统里面用:
wget -c -r -np -k -L -A "*metadata*" ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/
可以把所有metadata数据下载到当前的文件夹下了。
检查里面的记录数:
cd /ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24
ls *gz |while read id;do (echo -n $id;echo -n " ";zcat $id |wc -l ) ;done
以下是输出的结果:
gencode.v24.metadata.Annotation_remark.gz 40879
gencode.v24.metadata.EntrezGene.gz 170466
gencode.v24.metadata.Exon_supporting_feature.gz 19193542
gencode.v24.metadata.Gene_source.gz 66206
gencode.v24.metadata.HGNC.gz 182831
gencode.v24.metadata.PDB.gz 94547
gencode.v24.metadata.PolyA_feature.gz 84652
gencode.v24.metadata.Pubmed_id.gz 209094
gencode.v24.metadata.RefSeq.gz 75365
gencode.v24.metadata.Selenocysteine.gz 119
gencode.v24.metadata.SwissProt.gz 45067
gencode.v24.metadata.Transcript_source.gz 217202
gencode.v24.metadata.Transcript_supporting_feature.gz 87375
gencode.v24.metadata.TrEMBL.gz 61924
可以与官网的统计信息相对应: http://www.gencodegenes.org/stats.html
还可以下载所有的gtf文件:
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/
参考:http://www.bio-info-trainee.com/1781.html
HCA计划:人类细胞图谱计划 (2016年10月开始)
旨在To create comprehensive reference maps of all human cells—the fundamental units of life—as a basis for both understanding human health and diagnosing, monitoring, and treating disease.
FANTOM计划:哺乳动物基因组功能注释计划,主要应用CAGE测序。现在已经到第六个阶段了。由日本理化学研究所DGT部门负责。
Roadmap: 表观遗传组图谱。美国NIH负责
千人基因组计划:1000 Genomes Project。启动于2008年1月,是一项国际研究工作,目标是迄今建立最详尽的人类遗传变异目录。科学家们计划在随后三年内,利用新开发的、更快、更便宜的技术,测定来自不同族群的数量至少一千名的匿名参与者的基因组序列