富集分析方法
- ORA Over-representation analysis过表达分析,常见的是GO富集分析和KEGG富集分析;
- FCS functional class scoring功能集打分,常见的是GSEA;
- PT pathway topology通路拓扑结构分析,代表是SPIA;
- NT network topology网络拓扑结构分析;
ORA局限性:
1.有可能在多重假设检验后不存在具有统计学意义的差异基因存在;
2.又或者,具有统计学意义的基因很多,但并不富集于统一的生物学主题;相应的阐述可能冗长、主观,主要依赖生物学家的专业知识;
3.单基因分析可能丢失对通路影响的重要信息;细胞过程通常会对多个基因造成影响; 代谢通路中所有编码基因的表达增加20%对通路造成的影响可能比单个基因增加20倍更重要;
4.不同的课题组研究同一种生物现象时,得到的具有统计学意义的基因list的overlap很少;
GSEA的优势:
1.在基因集的水平上进行分析;
2.基于先验的生物学知识(基因集S);
3.不具有统计学意义的基因也会考虑进去(Gene List L);
4.目的:观察基因集S中的基因在L中是随机分布还是集中在top/bottom(预期是如果富集,会呈现出后面的分布);
GSEA的步骤
1.ES(Enrichment Score)的计算
Kolmogorov-Smirnov test
- 详细介绍可参见
https://www.cnblogs.com/arkenstone/p/5496761.html- 以gseKEGG为例,K-S test检验的是,treat vs control(geneList-L)的分布与geneSet的分布是否一致,检验得到的结果是ES;
geneList为ID依据logFC排序所得,L中的基因在S中,sum increase,不在S中,sum decrease,最终得到的max|sum|即为ES;
2.ES 显著水平的计算
permutation test
- 详细介绍可参见:
https://www.plob.org/article/3176.html- gene_set permutation生成随机基因集(我的理解是,从geneList中随机抽取(number of genes in gene_set)个基因得到),产生ES(S, pi) ,集合所有ES(S, pi) 形成直方图,对ES的显著水平进行检验(p=percentage of ES(S, pi)>=ES(S));
p.vlaue
的解释见:
https://www.jianshu.com/p/eede4ea05f59
3.多重假设检验校正
FDR
- FDR代表某个基因集的特定NES是假阳性的概率;样本量大(每组至少7个)的情况,使用sample_label permutaion,FDR的阈值建议是0.25,即4个假设中至少有3个是可用的;但如果样本量少的情况下,使用gene_set permutation进行分析,此时,FDR的cutoff应该更严格一些,比如5%;
- FDR是两个分布的比率:(1)permutation背景下,实际的ES versus 所有基因集的所有permutation的ES(2)实际基因集背景下,实际的ES versus 所有基因集的ES;例如,如果分析四个基因集并执行1000次permutation,则第一个分布包含4000个数据,第二个分布包含4个。
- 建立直方图(所有S和所有permutation),于某个NES(>=0)而言, FDR为NES(S,pi)>=NES的比例(permutation水平下),除以基因集水平下,NES(S)>=NES*的比例;
不咋华丽的分割线,结合上clusterprofiler的gseKEGG函数理解下:
gseKEGG
kk_gse <- gseKEGG(geneList = geneList,
organism = 'mmu',
nPerm = 1000,
minGSSize = 10,
verbose = FALSE)
-
organism
geneList对应的物种; -
nperm
设置permutation的次数; -
minSize
基因集中至少应含的基因数目; -
maxSize
基因集中最多包含的基因数目;
kk_gse@result
-
Description
通路名称; -
setSize
通路中基因数目; -
pvalue
对应该通路富集结果的p值,未设置seed=T的话,p值应是略微有变化的; -
p.adjust
对p值进行校正,默认是BH方法,将基因集数据考虑进去了,即FWER;pvalueCutoff即p.adjust的cutoff为0.05; -
qvalues
(是上述介绍的FDR?我没算,嗯,其实是我不会算,也没仔细研究) -
leading_edge
Tags:对ES 有贡献的基因的比例;
List:反应出ES于ranked list 中“登顶”得到最终的ES的位置;
Signal: N 指list中的基因数,Nh 指基因集中的基因数;
[参考内容]:
1.http://www.bio-info-trainee.com/2102.html
2http://bioinformatics.mdanderson.org/MicroarrayCourse/Lectures09/gsea1_bw.pdf
3.https://bioinformatics.cancer.gov/sites/default/files/course_material/GSEA_Theory.pptx
4.http://compbio.ucdenver.edu/Hunter_lab/Phang/downloads/files/GSEA.ppt
5.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1239896/
6.http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA
7.https://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html
8.http://www.360doc.com/content/18/0303/21/45848444_734023872.shtml
9.https://www.jianshu.com/p/5a4bda169247
课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)