愚蠢的显著性检验之平衡性检验

Silly significance tests: Balance tests

研究论文中包含太多的统计检验总是令人反感的。我们应该细致地报告研究和进行分析,但如果我们能过删除多于的、愚蠢的显著性检验,这会使得我们的论文更容易阅读。今天要谈的话题是:balance tests。

标题中“愚蠢的显著性检验”这一术语来自于Abelson’s Statistics as principled argument,指的是除了让一篇研究论文更难阅读,而未能提供任何其他有效信息的统计检验。我至少能够列出四种我们并不需要的愚蠢的统计检验,本文关注的是,随机实验中的平衡性检验。

什么是平衡性检验?

Balance tests也称randomisation checks,是一种普遍的显著性检验。例如,一位研究者希望将一种新的词汇学习方法和传统方法进行比较。他随机分配40名被试到控制组(传统方法)和实验组(新方法)中。4周后,他检查所有被试的词汇知识,让我们假定他发现了一个支持实验组的显著差异 (e.g. t(38) = 2.7, p = 0.01)。

为了有人避免批评,两组之间的差异是由于学习方法之外的其他因素导致的,周密的研究应该进行一次t检验和卡方检验以核查实验组与控制组成员在年龄上和性别比例上是否有显著差异。这些检验是为了确保研究者能够主张随机化分组使得在这些变量上,两组是平衡的,因此我们所观察到的组间差异并不能归因于这些可能的混淆变量。如果一个平衡性检验的结果是显著的,研究者可能试图将该混淆变量作为协变量再进行一次分析。

为什么这类显著性检验是多余的?

尽管该策略看上去非常合理,但是平衡性检验存在以下几个问题。


平衡性检验不能提供能多信息:统计检验是用来对总体而非特定样本进行推断的。诚然,实际中会出现实验组中有3名男性,而控制组有14名男性的情况;卡方检验将会产生一个显著结果。但是我们会真的认为男性更有可能出现在控制组吗?当然不会。因为我们已经随机将所有被试分配至各个条件中,我们知道关于这个变量的零假设(两组成员之间没有性别差异)是真的,因此我们明白男性进入实验组和控制组的机会是均等的。故每一次显著的平衡性检验都是由于完全随机所导致的错误警报。一次平衡性检验不能告诉我们任何我们还不知道的信息。

平衡性检验也是多余的:那些同意上述观点的研究者可能继续认为,他们使用平衡性检验不是为了推断总体,而是想了解组间不平衡程度。但是,组间的完美平衡并不是做出有效统计推断的先决条件。因此平衡性检验也是不必要的。


平衡性检验使得显著性检验失效:因为p值只有在未进行平衡性检验的条件下才有它确切含义。实际上p值是一个条件概率:如果零假设为真,那么观察到如此极端、甚至更极端的数据模式的概率。一旦进行了平衡性检验,我们为p值增加了一个前提条件:如果零假设为真并且平衡性检验产生一个特定结果,我们能观察到如此极端、甚至更极端的数据模式的概率。虽然看起来并未增加很多限制,实际上它是一种数据依赖性分析模式,这使得显著性检验失效。

通过R语言进行模拟实验:我们性检验一个处理效应,随机分配40名被试到实验组和控制组。被试的年龄分布在20-40之间。年龄变量并不是我们感兴趣的,但它与结果变量呈线性相关。假如处理效应为0,即零假设为真。我们的分析策略如下。我们对年龄变量进行一次显著性检验,以确定实验组和控制组在被试年龄方面是否平衡。如果检验结果不显著,可以断定我们拥有平衡的群组,并对结果变量进行一次t检验。我们模拟10000次该场景,并将来自于“有条件的”分析策略的p值分布与不管平衡性检验结果的t检验和协方差分析所提供的p值分布进行比较。下面的直方图显示,这三种检验策略的p值分布。

由于在本例中,零假设为真,因此p值的分布应该是均匀的,例如所有的bars应该一样高。左侧和中间的直方图正如如此,表明当分析不受平衡性检验影响时,p值是正确地分布。简言之,在此情况下p值有其预期的含义。右侧直方图表明,当分析受到平衡性检验影响时,低p值太罕见:对处理效应的检验太过于保守,即它的p值没有反映其预期含义。

最近有一些文章还是强调,data-dependent analysis会导致anti-conservative p-values,例如当不存在处理效应时,非常有可能观测到一个显著效应(e.g. Gelman & Loken 2013 and Simmons et al. 2011)。因此本文表明data-dependent analysis可能产生 overconservative results似乎有些奇怪。但我的主要观点是,平衡性检验会产生本可以轻松避免的不准确结果——不论错误方向。这就是说,overconservatism也有实践上的缺陷,即更低的统计功效:当处理效应真实存在时,它不太可能观察到一个在统计上显著的效应。下面的直方图显示了当存在一个相对较小的处理效应时,p值的分布情况。


很明显,只有ANCOVA策略的统计功效表现最好,反之使用平衡性检验策略甚至比不上单纯的使用t检验的方法。

解决办法

解决办法很简单:just don’t use balance tests。在分析随机试验的数据时,平衡性检验只会把研究报告弄得乱七八糟而不能提供任何明显的优势。当我们有理由假定存在一个影响结果变量的协变量时,最好的办法就是将它纳入到主要分析中,而不管实验组和控制组在该变量上是否平衡。实际上, Mutz and Pemantle (2013)发现,当组间是平衡时,加入一个协变量会更加有效。尽管本文只关注随机实验,但我认为在分析非随机的准实验时,该策略也是最明智的选择。

或者在实验设计时就考虑协变量也是非常有意义的,例如在随机分组之前 (see the part in my analysis paper on ‘blocking’, pp. 6-7)。

R code  见原文

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341