通俗统计之——如何计算统计功效
(部分内容受教于网络,经个人理解阐述于此,不限版权,尽管转载)
1. 何为‘统计功效’?
统计功效,是用来描述,在你的实验研究中,你的统计检验正确的‘拒绝’你的“零假设”(Ho),的概率(这里概率的原英文是likelihood,译作可能性,但个人决定用概率更直观描述统计功效是个啥。)在这概念里又提出了些名词,比如“零假设”,‘统计检验’,会在下面逐一解释。
1.1 何为“零假设”?
“零假设”应该是个被验证过或被大多数人接受的,保守的,结论。它是个认为世间大多数操作都没啥卵用的假设。比如,新药并没有卵用;新流程并没有卵用。严肃地说,就是,假设:新药效果并不比已知旧药好;假设:新流程并不比当前流程更有效。简言之,一切“零假设”都是“然并卵”——也就那样,并没啥卵用。这多少也有些惯性定律的影子,如果你没有足够的影响力,你即便你以为自己用了力,改变了什么,但其实也影响不了大局。但如何证明你有没影响大局,就需要统计检验——认真地比较一下。
1.2 何谓‘统计检验’?
‘统计检验’简单说就是根据适用的统计理论,(比如要比较正态分布的数值得用t检验;比较百分比或者计数,得用卡方,等等。很多高深理论,真得是数学达人才能游刃有余地搞出花。普通人就根据文献和参考资料重复方法吧。),比较你的实验组和对照组,看你实验组出现不同于对照组结果的几率,是否大到足够被‘世人’承认——“嗯,这么多情况都出现了不同,那它俩确实是不一样!”。这里的‘世人’,是指领域里传统的、经典的共识。多大差异算‘足够大’?因研究尺度而异,有些领域认为p<0.05,有些只接受p<0.01。至于怎样算出p<0.05,请参考标准教科书。
回到怎么算统计功效上。
2. 两类无法避免的检验错误。
统计检验的结果,比较于“零假设”,会有四种情况:
2x2表 | “零假设”是对的 | “零假设”是错的 |
---|---|---|
接受“零假设” | 2.1 接受对的(这没毛病,1-Alpha) | 2.3 接受错的(Type II Error,Beta Error) |
拒绝“零假设” | 2.2 拒绝对的(Type I Error,Alpha Error) | 2.4 拒绝错的(这也没毛病,1-Beta) |
即:
2.1 “零假设”是对的,而你的检验结果也接受“零假设”的说法;(这没毛病)
2.2 “零假设”是对的,而你的检验结果却不接受“零假设”的说法;
(即所谓的Type I Error,一类错误,Alpha错误);
2.3 “零假设”是错的,而你的检验结果却接受“零假设”的说法;
(即所谓的Type II Error,二类错误,Beta错误);
2.4 “零假设”是错的,而你的检验结果也不接受“零假设”的说法;(这没毛病)
统计结论上一向保守的态度,让我们倾向于相信“零假设”,毕竟人家在被验证为错误之前,还是被广大人民群众所接受的。所以,即便“零假设”本质上是错的,在被推翻之前,我们也暂时相信“零假设”,不轻信新观点。所以我们在两类错误里,“宁可犯二,不争第一。”
其中要注意的是,虽然常用2x2表格表述,好像算sensitivity/specificity, ppv/npv的格式,但其中的 Beta Error概率(Beta Probability),是在零假设本身错误的前提下,你接受了它的概率。同样,Alpha Error概率(Alpha Probability),是在零假设本身正确的前提下,你的检验却拒绝接受它的概率。
在这里,Alpha + Beta 不一定等于 1(基本上除特殊情况外都不等于1,因为根本就是两码事) ,既可以大于1,也可以小于1。这个曾一度让我混乱,总觉得a+b<=1,如果你没有啥混乱的,就不用细究了。
有了以上概念,那么,统计功效的本质就是:1 - Beta !
就是当“零假设”本身错的时候,你正确地拒绝了它的概率;相当于,你的检验,在 1-Beta 的概率下,“正确”地拒绝了零假设,正确地得到“统计上有显著差异”的结论!就是这么简单粗暴!——说它粗暴,是因为你即便知道了以上全部概念,你还是不会在具体情况中算它。下面举个简单例子,如何算Power:
3. 实例:
(引自网络):已知常规血铜浓度平均值是:8.72 μmol/litre,标准差是:1.3825。现在,有4个病人血样,血铜浓度平均值是9.59,问:有多大可能性,这四个病人的血铜浓度,在统计意义上真的不同于常人。
这个问题中,“常规血铜浓度平均值”就相当于是你将要比较的零假设:假设全人类的正常人的血铜平均值就该如此,分布在相应的几个标准差范围内。虽然没谁能得到全人类的平均血铜浓度值。另外,计算这个问题还要涉及到:
3.1 Z-检验(请暂且当成这类问题就该用Z检验,原理上暂不在此解释);
3.2 单尾检验还是双尾检验(这涉及到在生物上,血铜浓度是对称分布呢(有时候只是双向开放即可),还是非对称分布(有时候指只是单向开放):对称的用双尾,不对称用单尾);
3.3 Alpha的选择:就是在整体分布中,出现某个跑偏的值,通常出现在尾端,零假设认为那个跑偏的值是合理的,并且零假设的这个判断是对的,而你在检验的时候,却认为这个跑偏值是不合理值,的概率。(绕么?)就比如,看到血铜浓度=1.0,零假设说这是正常的血铜浓度范围,而你说这不正常——零假设是对的,你却在检验中把血铜浓度=1.0归结为异常,这种情况的概率,就是Alpha,是一类错误,我们要避免的。所以我们常把Alpha设成很小,比如0.05,即5%概率下,允许我们犯这类错误。而且,如果是单尾分布,我们把这5%的概率都允许在一个尾巴端;如果是双尾分布,我们则把这5%平均分到两个尾巴端,即每边尾巴允许2.5%的概率出现这种错误。(常说的p<0.05,实际是说当p<Alpha(=0.05)时,统计结果有显著差异。)
所以,上面这个问题,在检验双尾的情况下,要这么算:
Power = P( Z > 1.96 − (9.59 − 8.72) / (1.3825/√4) ] + 1 − P[ Z > −1.96 − (9.59 − 8.72) / (1.3825/√4) ]
其中,P代表概率,即当查Z值表时,Z大于1.96 − (9.59 − 8.72) / (1.3825/√4)对应的概率,加上,1 减去 Z值小于 −1.96 − (9.59 − 8.72) / (1.3825/√4) 的概率——即是双尾分布下,该问题的Power。
其中,1.96,即在允许Alpha=0.05,数据标准正态分布时(每边2.5%),的Z值。(它相当于一个常数,在Alpha不同,单双尾分布不同时,它会不同,但基本就是那几个数,可以记住。)
所以,经过计算和查表,上面的 Power = 0.2415 + 1 − 0.999356 = 0.2421,即,有24.21%的概率,你用4个人的样本就可以“正确”地断定这4个人的血铜浓度是否异于常人。这个Power是很低的。所以,要增加样本数。增加至多少?如果你明白上面的原理,设定好Alpha,知道零假设的平均值,标准差,还有你目前样本的平均值,还有你期望的Power(比如80%),反过去推算样本数即可!
能力有限,时间不足(写这么个玩意儿用了我3小时!),暂且写这些,恳请各方大家指正纠错,这也是我自己学习长进的过程。叩谢!