转录调控 | 基因集富集分析(GSEA)介绍

很多人会好奇为什么当KEGG、GO等常规差异富集结果中没有富集到我关注的通路时,大家会推荐进行GSEA分析呢?GSEA分析到底是什么?为什么KEGG、GO都可以进行该分析?

那么就让我们在本篇文章中一起来揭开GSEA的神秘面纱,希望下面的分享对大家后续的学术研究有所帮助。

基本概念

GSEA(Gene Set Enrichment Analysis ):基因集富集分析,其基本思想是使用预定义的基因集,把基因按照在两组样本中的差异表达程度进行排序,然后采用统计学方法检验预先设定的基因集合是否在排序列表的顶端或底端富集。

GSEA分析与常规富集分析的区别在哪里?

传统的GO/KEGG富集结果,如果富集到的同一通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样?是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?

传统的富集分析,针对总体的差异基因,其实是不能区分通路的上下调情况的。

这是因为,传统的富集分析根本不考虑基因表达量的变化趋势,其算法的核心只关注这些差异基因的分布是否和随机抽样得到的分布一致,由于没有采用有效的统计学手段去分析某条通路下的差异基因的总体变化趋势,这使得传统的富集分析结果无法回答上述的问题。

想要回答这个问题,我们就需要用到GSEA富集分析方法。

此外,GO/KEGG差异基因的一刀切法--常规的基于超几何分布的富集分析依赖于显著上调或下调的基因,容易遗漏部分差异表达不显著但有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。基因集富集分析(GSEA)不需要指定明确的差异基因阈值,算法根据实际整体趋势分析,从基因集的富集角度出发,更容易囊括细微但协同变化对生物通路的影响,尤其是差异倍数较小的基因集。在结果解读时应该是侧重于GSEA分析还是常规富集分析?其中哪个更好呢?没有哪个更好的说法,只有哪个结果更符合我们的研究目的,只要有富集结果,就具有一定生物学意义。

基本原理

GSEA主要包括四个步骤:1:基因排序2:计算富集得分(Enrichment Score)3:估计富集得分的显著性水平4:多重假设检验。

Step1、基因排序

1)根据所有基因的表达数据,计算每个基因在分组间的差异(signal2 noise),然后按照在两个表型中的差异度从大到小排序,形成一个排好序的基因列表。

2)根据排序好的基因列表,判断基因集S中的基因是否在排序表的顶端或者底端富集。

Step2 、计算基因集S的 ES(Enrichment Score)富集得分

计算方法:从目标基因列表L的第一个基因开始,计算一个累计统计值。当遇到一个落在基因集S里面的基因,则加分。遇到一个不在基因集S里面的基因,则减分,增量的大小取决于基因与表型的相关性。最高峰为富集得分值(ES)

Step3、计算ES的显著性水平(名义P值)

利用empirical phenotype-based permutation test 来计算ES的名义P值,保留了原始表达数据的复杂相关性。

Step4、ES标准化和多重假设检验

考虑该基因集的大小,将每个基因集的ES标准化,得到标准化的富集分数(NES);通过计算false discovery rate (FDR) 值,来控制假阳性率。

其中FDR、p值:FDR<0.25,p<0.05且 |NES| >1则表示结果有统计学意义。

结果解读

以上就是我们GSEA分析的原理了,那么如何进行GSEA的结果解读呢?

GSEA保存文件路径中会生成非常多的文件:

如此多的文件使我们眼花缭乱无从下手,那么我们应该重点关注哪些,哪些又是常用结果呢?

点开gsea report for*的文件,可以进入GSEA的富集列表,GSEA最常见富集列表如下:

该表表头的具体含义为:

GS follow link to MSigDB :该基因集在GO、KEGG和Reactome等数据库中所对应的ID号

GS DETAILS:列举了前20个基因集的详细信息。

SIZE:基因集中包含的基因个数。

ES:Enrichment Score富集得分值。

NES:normalized enrichment score,考虑该基因集的大小,将每个基因集的ES值标准化,得到标准化的富集分数。

NOM p-val:nominal P value ,名义p值,富集分析统计学显著水平。

FDR q-val:false discovery rate q-val ,假阳性率P值,多重假设检验后得到的富集分析统计学显著水平。

FWER p-val:familywise-error rate p-val ,总体错误率P值。

RANK AT MAX:基因集在基因列表里的最大排名。

第一部分为基因ES的折线图,横轴为该基因下的每个基因,纵轴为对应的Running ES, 折线图中的峰值,即这个基因集的Enrichemnt score;第二部分为hit,用线条标记位于该基因集下的基因;第三部分为所有基因的rank值分布图, 一般默认采用Signal2Noise算法,对应了纵轴的标题。

对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。

除上述结果文件中可以一一查看每个图,也可点击GSEA reports查看网页报告:

该报告点击“enrichment results in html ”也会出现上述富集列表

点击“details ”也会出现该基因集详细信息。上述即GSEA相关结果说明。

今天的分享就到此结束啦,希望本次的分享可以帮助到大家更好地理解GSEA分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容