今天经人提醒才发现自己对GSEA的理解完全错误,也怪自己没认真看文献和资料。重点理解:
一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
目前,市面上绝大多数公司在求得差异基因列表后,都会在此之上提供给客户Pathway 以及GO 富集分析,毕竟给予成百上千的差异表达基因以简洁、明晰的生物学功能的概括,才是进行高通量生物学表达谱实验的主要目的。然而,在实际应用于生物学高通量数据时,它们都有一个重大的缺陷:对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(FC) ≧2.0 & p ≦ 0.05。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍,因为实际通过芯片观测到的RNA 表达变化,往往是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度是不同的:在神经递质系统内,一个1.2 倍的表达差异即可能产生及其显著的效应。
GSEA与其他下游分析的重要区别在于它使用的不是差异基因集而是经排序(p值或者logFC)的全部基因列表。
全文链接:GSEA分析是什么鬼
我果然还是太菜~