高通量组学技术的成熟与发展,实验室检测成本的大幅降低,使在人群中获得各层面跨组学数据(基因组学、转录组学、蛋白组学、微生物组学、单细胞组学)成为可能,这为从群体水平上探讨复杂疾病(心血管疾病、肿瘤等)的内在遗传机制提供了重大机遇,科学研究已悄然进入跨组学大数据时代。如何对这些组学数据进行科学合理地统计分析与应用,充分挖掘其蕴含的生物医学信息,有助于认识复杂疾病的发生、发展和转归规律,为后续药物靶点设计、缩短实验验证周期及精准医疗等提供证据。
讲座举办单位是国家健康医疗大数据研究员及山东大学公共卫生学院生物统计学系,博淼生物科技(北京)有限公司共同举办跨组学大数据系列论坛。
讲座一 南京医科大学公共卫生学院 生物统计学系 沈思鹏——从GWAS到多组学:以肿瘤研究为例
1、多组学候选基因集挖掘——Comprehensive analysis of m6A regulators and interactive coding and non-coding RNAs across 32 cancer types
2、基于组学间关联信息(QTL)的跨组学整合分析
Transcriptome-Wide Association Study(TWAS)
基于Mendelian randomization(孟德尔随机化)的工具变量法
TWAS整合的优势:发现novel candidate genes—Integrative approaches for large transcriptome-wide association studies
提升预测能力和检验效能—Transcriptional risk scores link GWAS to eQTLs and predict complications in Crohn's disease
组学关系数据库
SNP and gene expression (eQTL)
GTEx(http://www.gtexportal.org/home/)
SNP and DNA methylation(meQTL)
mQTLdb(http://www.mqtldb.org)
SNP and metabolites(serum/urine)
Metabolomics GWAS Serve (http://metabolomics.helmholtzmuenchen.de/gwas/index.php?task=download)
Cancer QTLs using TCGA
PancanQTL (http://bioinfo.life.hust.edu.cn/PancanQTL/)
潜在的统计学问题:面对效应不尽相同的各QTL数据库,如何保证结果的稳健性?如何利用多层面信息提高疾病风险预测的效果?如何挖掘组学之间的深层次交互作用?如何将组学与肿瘤的早筛早检相结合,降低发病率、死亡率?
讲座二:国家健康医疗大数据研究院 孙晓茹
讲的内容是GWAS分析过程中调整协变量的研究现状。根据她的结论,在研究中尽量不要对协变量进行调整,除非是含有混杂因素的协变量。