差异基因通路富集分析的统计学假设和关于p值的理解

单细胞转录谱可以根据基因表达水平进行差异分析,通过差异分析,我们可以知道不同分群之间是否存在差异,以及存在显著表达量差异的基因集(DEG,在单细胞Seurat分析流程中,通过Seurat::FindAllMarkers()方法计算得到簇间的过表达差异基因)。进一步,探究这些DEG是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。理解这些DEG所代表的生物学意义的最佳途径就是基因富集分析(Gene Set Enrichment Analysis, GSEA)

1、富集分析的原理

富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是,如果一个生物学过程在当前研究中发生异常,则共同发挥功能的基因被选择出来作为与这一过程相关的基因集是大概率事件。分析比较一种生物学状态的研究群体的【过表达差异基因集】在一通路的富集概率相比在总基因集中【随机抽取的同数目基因集】在该通路的富集概率是否有显著差异,如果有显著差异,则认为该通路对于在当前研究群体是具有意义的。

生物学过程(通路)是受基因表达调控的,一条通路中富集的差异表达基因数目越多,这条通路整体的表达紊乱的可能性就越大。通过富集分析可以用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。

2、富集分析的统计模型-超几何分布型

超几何分布是统计学中的一种离散分布,它描述了由有限总体中抽出n个样本,成功抽出指定种类的样本的个数。 是生物信息学中常用的一种统计分布模型。基因的富集分析就采用这个模型来检验一组基因出现在某个通路的显著性。

2.1超几何分布与二项分布

在概率论中,超几何分布是一个在产品检验和随机抽样中应用广泛的离散概率分布模型。超几何分布与二项分布均基于伯努利试验

二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个,所以二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立)。但在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率。在一般的教课书上都会要求,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样。至于n要小到什么程度,有的书上说n/N小于0.1就可以了,有的书上则要求小于0.05。

总结:二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立),而超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验结果发生的概率将发生变化(不放回抽样,每次实验相互影响)。

2.2离散分布中的两个重要函数:

概率质量函数(probability mass function,简称PMF):是离散随机变量X在各特定取值上的概率P(x),其总和为1。与概率密度函数f(x)不同,概率质量函数是对离散随机变量定义的,本身就代表该值的概率;而概率- - 密度函数是对连续随机变量定义的,本身不是概率,它在某区间内的积分才是概率。

  • R语言的概率质量函数求算方法dhyper(k,M,N-M,n):返回一次抽样的成功概率:

超几何分布的概率质量函数:

累积分布函数(cumulative distribution function, 简称CDF):定义为F(x)=P(X≤x),是单调递增的,且满足:F(-∞)=0和F(+∞)=1。对离散分布而言,它是所有小于等于x的值出现的概率之和。

  • R语言的累积概率函数求算方法phyper(k,M,N-M,n):求解"至多"问题,返回相应的累计概率(超几何分布左尾概率):

3、超几何分布型的假设检验-Fisher's 精确检验

3.1 关于 Fisher's test:

Fisher's test 用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

  • 在给定假设(如零假设:事件间无显著相关性)的前提下,对假设事件的出现可能性做统计学检验,p-value越小,越能拒绝原假设。
  • p-value是一种概率:是在原假设为真的前提下,出现该样本或比该样本更极端的结果的概率之和。

3.2 富集分析的一般假设

H0: 已知生物学状态下的研究样本的n个过表达差异基因中富集m个A通路基因的事件是随机事件,说明A通路在该生物学状态下的研究样本中未发生紊乱。
H1: A通路在该生物学状态下的研究样本中发生了紊乱。

3.3 统计学显著性的 p值 计算

统计检验的p值(p-value)是在原假设为真的前提下计算的比观察事件更极端事件的发生概率。对应离散分布型中的单尾概率或双尾概率。富集分析计算的是超几何分布型的右尾概率

关于p值计算的理解:既然我们需要通过在已知生物学状态下的研究样本的n个DEGs中富集了A通路相关基因的数目来检验A通路在该样本中是否发生紊乱。那么在假设H0为真的前提下,事件(随机在研究样本的基因集中抽取n个基因,其中富集有\geq m个通路A相关基因)应该是大概率事件,事件的发生概率p \geq 95\%。所以如果事件(随机在研究样本的基因集中抽取n个基因,其中富集有\geq m个通路A相关基因)的发生概率p \leq 5\%,就可以认为在统计假设为真的前提下发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。

事件(随机在研究样本的基因集中抽取n个基因,其中富集有\geq m个通路A相关基因) 的发生概率p可以由计算超几何分布型的右尾概率得到,p=1- F_X(m)

超几何分布右尾概率

参考材料
假设检验、P值、假设检验和置信区间的关系 - 知乎 (zhihu.com)
R-概率统计 | 概率分布与假设检验 - 知乎 (zhihu.com)
R统计学(03): 超几何分布 - 知乎 (zhihu.com)
浅探富集分析中的超几何分布 - 简书 (jianshu.com)

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容