周末的瞎扯:关于p值

p<0.05的0.05是什么东西?

这个0.05是1类错误的概率。

1类和2类错误的定义倒是不难:

1类2类错误矩阵
正态分布曲线

比如说我已经知道数据X的总体符合N(\mu,\sigma) 的正态分布,那当我设置好两个临界值(x1和x2)的时候,如果我们认为,现在变量X的值落在x1到x2,我们就接受假设(相当于上面1,2类错误矩阵的第二行);而如果变量X的值落在x1左边,或者x2右边,我们就拒绝假设(相当于上面1,2类错误矩阵的第1行)。

那么接下来根据正态分布的概率分布曲线(pdf),我们可以求出来x1到x2之间pdf下方的面积有多少;以及x1和x2之外的pdf下面积有多少。这个x1和x2之外的面积代表的就是1类错误的概率,也就是我们说的p值。可能举一个瞎扯的例子能帮助说明一下。

比如说我已经知道成年男性的某个血生化指标(我们就叫它男性肾上腺素开,serum epinephrine chi,se\chi 吧)。我们已经知道普遍来说,成年男性的se\chi均值是10 ng/dl,标准差是2 ng/dl。现在我们在某个社区抽样了50位男性,测了一下他们的se\chi水平,这50位成年男性的se\chi平均值是7 ng/dl。所以说这组样本是否来自符合普遍情况的男性群体呢?或者说,这个样本的se\chi水平是不是有点不符合正常?能不能够在某个置信区间(95%)或者检测水平( \alpha=0.05 )下一个结论?

所以这个时候要做出判断的流程无非就是下面5步:

1. 确定H0和H1. 这里H0就是样本来源的总体,均值 \mu=\mu_0,\mu_0=10
这相当于给我们增加了一个条件。检验水平\alpha=0.05
2. 确定统计值。样本量50,而且没有明显证据说明se\chi是偏态分布,可以考虑样本均值\bar{x}符合N(\mu,\frac{\sigma}{\sqrt{n}}) ,用正态分布的z值作统计值z=\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}

3. 确定判断标准。作双侧检验,可以查出来z大概是正负1.96的时候两个z内侧pdf下面积是0.95,外侧是0.05,符合我们的要求。

4. 计算统计值, z是-10.6

5. -10.6比-1.96小,因此拒绝H0,接受H1,认为样本不来自正常总体,该社区男性se\chi值偏离正常。

所以当检测水平\alpha确认了以后,与之相对的,统计值的阈值就定下来了,之后就是计算统计值,拿算出来的统计值和阈值比较,决定是否拒绝零假设,接受备择假设。这一套流程里面,检测水平这个alpha肯定是要有的,而alpha所代表的就是两个阈值以外(这是指双侧检验的时候,为了图方便这个回答都会假定我们做的是双侧检验)的面积,也就是1类错误的概率。

所以简单来说,没有检验水平alpha 这个东西,假设检验的5步流程就走不动,也就是没得玩了。

p=0.0245就比p=0.0255好那么多么?

其实上面一段还是没有讲到什么是p值,回到刚才男性se\chi值那个例子,当我们算出来统计值z=-10.6的时候,我们除了可以知道-10.6<-1.96,我们还可以计算出实际的p值,比如在excel里面使用公式:=NORM.S.DIST(-10.6,1),计算出来的p值是1.38x10e-26。这个p值是什么东西呢?它指的是z<=-10.6这个区域里,标准正态分布曲线下面的面积是多少;或者说标准正态曲线从负无穷到-10.6的积分。顺带一提=NORM.S.DIST(-1.96,1)求出来的是0.025。

而回到“p=0.049就比p=0.051好那么多么?”这个问题,用excel算一下就知道,在双侧检验的时候,=NORM.S.INV(0.0245)可以求出 p值是0.0245的时候(0.49/2),z值是-1.968,而用=NORM.S.INV(0.0255)可以求出p值是0.0255的时候(0.51/2),z值是-1.951。也就是说,z值仅仅只是增加了0.017,统计结果就从可以拒绝零假设(因为这个时候p是0.0245,小于双侧检验时候的0.025), 变成了不能拒绝。如果我们把z往样本平均值换算一下的话,这个时候样本平均值仅仅只是增加了0.017 \times \frac{\sigma}{\sqrt{n}}

而已,在我们这个例子里,实际上只需要样本平均值增加个0.0048 ng/dl就能产生这样的差异了,这显然不是很ok。所以大家声讨二分法,主要应该还是在吐槽这个点。

其他一些自己的想法

实际上现在只是讲了1类错误,2类错误还完全没有涉及呢。2类错误从矩阵可以看到,指的就是原本有问题,但是我们发现不了这个问题的概率。举个例子说一下:

image

这个例子是从数理统计初级教程抄过来的:

一台机器,平均每袋装2kg材料,标准差是0.2kg。管理人员想检查一下机器有没有故障,所以随机抽取了64个袋子称取重量。并且事先决定,如果平均每个容器装材料质量在1.95kg或者2.05kg之间则接受假设。
假定机器实际上需要修理,并且每个袋子平均装入的是1.94 kg材料,标准差是0.14 kg,在现在的判定标准下,管理人员犯第二类错误的概率是多少?这个检验的功效是多少?

在这个问题里面,如果机器是正常的话,那么64袋材料的重量平均值是符合蓝色直方图这种分布的。于是可以根据中值极限定理算出来设定好1.95和2.05两个阈值以后I类错误概率是多少。但是对于2类错误的计算,显然还需要知道什么是错误的。在这个例子里面我们认为出故障的机器具有平均值是1.94,标准差是0.14的特性。根据这两个参数我们可以画出来橙色的直方图,然后再算一下1.95到2.05之间橙色直方图的面积有多少,就可以算出来2类错误的概率了。

如果说1类错误的概率是假阳性的话,2类错误的概率就是假阴性了。但是感觉上,至少在临床研究里面,2类错误是很少被提到的。1类错误的下游,是大名鼎鼎的检测水平alpha以及与之对应的p值;与之相比2类错误显得有些默默无闻。当然我不是统计专业的,所以难免孤陋寡闻。

从原因上来说,可能贝叶斯条件概率理论会有一些提示作用吧。

比如说一个雷达,在天空有飞机飞过(天空有飞机飞过的概率是0.05)的时候,检测到的概率是P(B|A)

95%(检验功效,也就是1减去2类错误概率);而没有飞机飞过的时候(天空没有飞机飞过的概率是1-0.05=0.95),发出“有飞机飞过!!”信号的概率是 P(B|A^c) 10%(1类错误概率)。那么,当这个雷达提示天空有飞机飞过的时候,实际上真的有飞机飞过的概率是多少?

用贝叶斯条件概率理论一顿乱算,最后可以得出来雷达提示天空有飞机飞过,实际上真的有飞机飞过的概率 P(A|B) 只有33%!

但是如果用常规的0.05作为检测水平,现在的P(A|B)好一些了,到了0.5……所以这就是我们用的这么多的0.05,在面对一个5%的罕见情况,而检验功效是(1-2类错误概率)95%时候能达到的水平,一半一半而已

如果用更好的0.01,现在的P(A|B)是83.3%,而使用0.001做检测水平的时候,可以增加到98%。

至于为什么2类错误去评价的比较少呢……我觉得如果你对一个仪器的检出水平(给一个阳性样本,出不了阳性结果)都没法有信心的话,那还是买进口大厂仪器比较好吧。

综上

所以二分法看待p值肯定是不好的,0.05这个检验水平也要小心。但是p值是真的很重要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,440评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,814评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,427评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,710评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,625评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,014评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,511评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,162评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,311评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,262评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,278评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,989评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,583评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,664评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,904评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,274评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,856评论 2 339

推荐阅读更多精彩内容

  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,476评论 0 6
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,856评论 0 3
  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,900评论 0 5
  • 微醺的女人原文请戳 A3牛皮纸。 粉条儿,色粉铅笔,纸笔,棉签儿,抽纸。 1小时40分 有点儿困了明天再继续编辑。...
    陈狂阅读 897评论 30 42
  • 一直都想把我家的小黑画下来,可是一直不敢画,总怕把狗子画丑了。前两天给小黑拍照,她一副高傲的样子,根本不看镜头,难...
    H小姐爱画画阅读 307评论 7 9