经典单case假设检验基于对统计量(p值)尾部的解释。二战后,多重检验继续基于p值,并扩展到大规模假设检验,前面3和4章进行了介绍。然而即使控制了错误发现率,仍然与显著性检验和一类错误想去甚远。
对单例假设检验来说,基于尾部区域是必须的,因为z=1.96的概率是0。大规模检验中,允许进行局部值推断而不包含更极端值区域。这就是局部错误发现率。
5.1 估计局部错误发现率
由于每个case要么null要么non-null,可以用以下描述
局部错误发现率为
其中是混合概率密度函数
本章假设已知,而且基于上章中方法估计,则只剩需要估计,而且已知了观测值
基于泊松回归方法估计,假设null下z服从标准正态分布,并利用中心区域为50%估算,则可估算局部错误发现率
ps:这个估计值可能会超过1,这是因为对的估计离真实差太多,或者z并不服从。
对进行积分可以得到
如果我们取,则等同于,如果我们假设,则要求。这被称为对抗零假设的贝叶斯因子。
5.2 的泊松回归估计法
对的平滑估计,采用flexible exponential family models的MLE得到。
例如设属于J-parameter famlily
其中取决于,以使的积分为1。当J=2时,会使得为正态分布。
Lindsey’s method是一种基于离散的z值,使用标准泊松回归方法,估算的最大似然估计的算法:
- 将的取值区间,按照相等的范围划分为段:
- 定义为落入对应区间中的观测值数量
而是对应区间的中心值,则的期望值近似为:
- 假设是来自独立的泊松分布
然后拟合回归模型
以上是standard Poisson generalized linear model (GLM)。
以此得到的是其模型的最大似然估计值。
5.3 统计推断和局部错误发现率
视角从切换到更符合贝叶斯习惯:从贝叶斯角度来看相对于观测尾部概率更合适。
上图通过非参数估计得到
然而通过区间内的个数进行非参数估计非常不稳定,如果用平滑版本进行估计
-
更普通的结构
5.1节中的模型可以更一般化使1...N基因对应的结构不同:
如果定义
则我们又回到了5.1中的两个分组的模型。 -
使用先验知识
之前我们的推断都是基于我们不知道(第i个基因)的信息,所以只能勉强使用两个分组的模型。如果我们知道的先验信息,则
相比于是一个更好的模型。 -
可交换性
比如取,我们会报道大于等于3.2的36个基因有较大可能确实与研究内容相关。但是它们其实显著水平并不相同,对于数值更大的来说,它们的错误发现率低于0.108。
如果采用,则问题会小一些,比如我们会认为[3.2, 3.3)间的错误发现率为0.25,而[3.3,3.4)间的错误发现率为0.21。
Ps:当然如果知道单个基因的先验知识,可交换性就没有意义了,应采用前一部分的方法。 -
伸缩性
如果研究的假设增加会怎么样?比如前面N个基因扩大为2N个。
对来说影响并不大,基于前面的模型可知,增大为2N后只是让均值更趋向于期望值,会让结果更精确。
然后对于传统控制FWER的方法来说,会有特别大影响。比如对Bonferroni方法,会导致阈值从降低到。
那么对呢?如果是最小的值,而且其对应的p值为,则等于。如果,就会导致错误发现率小于控制目标q。
增大检验基因数,另一方面会有相关性上的影响。之前的研究可能选择的是人为认为最相关的基因集合,如果数量扩大一倍会导致集合与研究问题的相关性下降。 -
更多结构的模型
如果N个基因来自M个天然的分类,我们可以根据每种分类运用locfdr算法拟合,但是在小的分类中会引入评估问题。一种更好的做法是使用以下扩展模型:
其中m代表类别,且。它在保持了尾部特性同时,很好的兼容了不同均值和方差的类别。会在第10章讨论。 -
结合Fdr和fdr
其实没必要选择使用Fdr或fdr,它们可以合并使用。它们间是可以转换的。 -
贝叶斯的局限
经验贝叶斯推断的是即,不一定等同于
特别是z值有相关性的情况下。会在第9章讨论。 -
假阳性和真阳性的期望
局部错误发现率控制下,对应的假阳性为“EFP”,对应的真阳性为“ETP”。
如果我们按个体来看,如果对拒绝的阈值为,则
所以
其中是成为第i个的先验概率(可以取)。
我们期望的是:通过调整阈值,在给定EFP前提下,最大化ETP。
由于
同样的,应用标准拉格朗日乘子法,对最佳的,存在常数使得
由于知道先验知识时,则可推导出
因此在给定EFP前提下最大化ETP:给定fdr下,z值等于阈值时。
5.4 power诊断
之前的讨论都主要专注于控制一类错误(正如fdr其名字),本节主要讨论在局部错误发现率控制下的power诊断。
定义正确发现率:local true discovery rate, tdr(z):
则
其中
如果代表落在第k个区间的基因,当然我们不能直接区分开null和non-null,但是可以进行估算
由于来自区间统计,会有较大波动(histogram noise),一个更好的版本是结合之前的评估的概率密度函数:
称为:smoothed non-null counts
上图是前面例子的对比。
此处有一个重要的区别,中不再假设为,而是取empirical null
这会在第6章讨论。
在图中的105个smoothed non-null中,只有26.8个发生在的区域中,约占26%。也就是说这项研究的power很低。
上图中全部non-null的cdf是
图中还有一个模拟的高power示例(虚线)。
一个简单直接的关于power的统计量是
值低代表power高(non-null大部分发生在fdr低的区域),反之为power低。
上表展示了一个模拟,可以发现增加z的个数并不会明显影响,只是会让bias变小,真实,大部分bias会让评估偏大,从而降低,这是因为采用了4.44中的估计法导致的。
在这种场景下,研究员经常会发现自己实验前认为相关的基因常常不会fdr拒绝域内,这可能是因为低power导致的。如前面所讲的,结合先验知识可能会有助改善此类问题。
最后值得注意的,所有本节的power诊断都是基于不需要先验知识的前提下,这是大规模研究的优点之一。