由于原文所在平台广告太多,特此搬运,用以学习。侵删。
原文链接:医咖会
--------------------------------------------------------------------------------------------
据说,每个人天生都是贝叶斯统计学家。
贝叶斯定理,听起来很遥不可及,其实贝叶斯定理应用在我们生活的方方面面,也包括医学研究当中。今天,我们就来认识一下贝叶斯定理,以及它在诊断试验中的应用。
一、贝叶斯定理
贝叶斯到底是指什么呢?举一个简单的例子。今天乌云密布,我要不要带雨伞出门?
为什么我们看到天上乌云密布,就觉得要下雨了呢?那是因为,根据经验,下雨之前往往乌云密布。
但是,“乌云密布” 一定会 “下雨” 吗?未必。
有的时候,尽管天上有乌云,可是风一吹就吹散了。也有时候,天上下雨并没有乌云,而是隔壁老王她媳妇儿在倒洗脚水。那么我们如何知道,在乌云密布的时候,下雨的概率有多高呢?
以小咖所在的帝都为例,我们可以统计 1 年内乌云密布时下雨的次数,和乌云密布的次数。
在等式的右边,分子分母同时除以 365,则得到:
当然,有时候下雨也不一定就会乌云密布,有可能是隔壁老王她媳妇儿在倒洗脚水。帝都下雨的概率是:
假设帝都每年平均有 60 天下雨,则 P(下雨)=60/365=16%。
显然,后者要小于前者。为什么都是下雨,两个概率不一样呢?
这是因为,前者在计算时,限定了 “乌云密布” 这个条件,我们把这种概率,称为 条件概率。所谓条件概率,是指事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为:P(A|B)。上面的例子中,P(乌云密布时,下雨)可记为 P(下雨 | 乌云密布)。
文章一开始,我们就断定 “每个人天生都是贝叶斯统计学家” 呢。为什么呢?
这是因为,我们每天出门时,判断要不要带伞,是先要看一下天气的。如果今天乌云密布,那么我们就判断今天下雨的概率 —— 即 P(下雨 | 乌云密布)比较大,需要带伞。如果今天没有云,我们可能也会带伞,但可能性不大,因为我们判断帝都下雨的平均概率只有 16%。
在贝叶斯理论中,把 P(下雨)称为先验概率,把 P(下雨 | 乌云密布)称为后验概率。后验概率是观察到某事件后,在先验概率的基础上,修正后的概率。
那么后验概率和先验概率是什么关系呢?
我们暂且表示为:
在之前,我们曾有:
即
可以转变为:
实际上,我们还可以得到:
因此,会得到:
转变一下,可以得到:
至此,我们就把链接先验概率和后验概率的 “未知变量” 找到了。这就是大名鼎鼎的贝叶斯定理。
再来看看日常生活中,我们的思考过程:
1、P(乌云密布)是指帝都发生 “乌云密布” 这件事的概率,我们不展开讨论。这里仅讨论,当小咖观察到 “乌云密布” 这个事件后的情况,此时 P(乌云密布)=1。
2、P(下雨)是指先验概率,即根据既往经验,小咖所在的帝都下雨的概率。如果小咖所在的帝都几乎从来不下雨,即先验概率 P(下雨)≈0,那么当小咖观察到 “乌云密布” 这个事件后,她不用带伞,因为根据上面的公式,后验概率 P(下雨 | 乌云密布)也约等于 0。
3、分子 P(乌云密布 | 下雨),小咖认为,下雨时乌云密布的可能性有多大。P(乌云密布 | 下雨)又称为似然(Likelihood)。如果小咖所在的帝都不会下太阳雨,那么小咖就会认为,只要下雨几乎一定是乌云密布,即 P(乌云密布 | 下雨)≈1。那么当小咖观察到 “乌云密布” 这个事件后 [P(乌云密布)=1],
P(下雨 | 乌云密布)≈P(下雨)
4、如果小咖所在的帝都天天下太阳雨,或者隔壁老王媳妇儿天天倒洗脚水,小咖几乎从来没见过乌云密布时下雨,则小咖就会认为,下雨时不可能有乌云密布,即 P(乌云密布 | 下雨)≈0。那么当小咖观察到 “乌云密布” 这个事件后 [P(乌云密布)=1],
P(下雨 | 乌云密布)≈0
这时候,小咖也不用带伞。
因此,我们可以看出,当小咖观察到 “乌云密布” 这个事件后,她虽然理所当然的带上了伞,但在潜意识中,她已经做了两个判断,即帝都下雨的概率 P(下雨)≠0;她认为下雨时乌云密布的概率很高,P(乌云密布 | 下雨)≈ 1。只要上述任何两个条件不满足一个,她是不会带伞的。
从这个角度讲,其实我们日常生活中常常使用贝叶斯的逻辑。也有人说,我们每个人天生都是贝叶斯统计家。
值得注意的是,P(下雨 | 乌云密布)≠P(乌云密布 | 下雨)(后验概率≠似然)。
尽管从这个例子里看很清楚,但实际生活中,是经常被人们忽视的。从后面的例子,我们可以更深入得理解它们的不同。
二、诊断试验中的贝叶斯逻辑
贝叶斯逻辑在诊断试验是如何体现的呢?我们来看一个例子(纯虚构)。
小王同志参加单位常规的体检,查出 HIV 为阳性,把小王吓了一大跳,赶紧上网查资料。
在一篇研究血液检查是否能够正确诊断 HIV 的学术论文中,研究者发现,血液检查的灵敏度为 81%(假阴性率为 19%),特异度为 74%(假阳性率为 26%)。
这篇文章仿佛给小王浇了一头冷水,难道收到了阳性的检验结果就意味着有 81% 的可能性得 HIV 吗?
一个星期后,小王哭丧着脸到医院复检,把这个担心告诉医生。医生说 “81%?哪有那么高概率?!81% 是这个诊断方法的灵敏度,不是你患病的概率。”
一番话说得小王一脸懵逼。
原来医生的计算方法是这样的:根据既往研究,在确实感染 HIV 的人群中,血液检查诊断阳性的概率 P (检验阳性 | 患病)=81%,在未患病的人群中,错误诊断为阳性的概率 P (检验阳性 | 未患病)=26%。根据全国范围的流行病学调查,HIV 的感染率为 5%[P (患病)=5%,P (未患病 = 95%)]。
所以,根据贝叶斯定理,在血液检查诊断阳性的人群中,确实感染 HIV 的概率:
这就是贝叶斯定理在诊断试验中的应用场景。因为小王是否感染 HIV 这个结论不能仅仅基于血液检查结果(P (患病 | 检验阳性)≠ P (检验阳性 | 患病)),而应该结合疾病的发病率(先验概率),获得一个综合诊断。
看到这个公式是不是很熟悉?哈哈,这个就是阳性预测值。阳性预测值不仅和诊断方法的准确性相关,也跟疾病的发病率相关。我们往期曾经推文里,也曾讨论过这三者之间的关系(详见:为了深入分析诊断结果,你应该了解下阳性预测值!)。
三、贝叶斯其人
最后,让我们认识一下今天的主人公,英国牧师,业余数学家、统计师,Thomas Bayes (1701-1761)。
贝叶斯出身于牧师之家,其父 Joshua Bayes 是伦敦长老会牧师。1971 年,18 岁的贝叶斯继承家族传统,进入爱丁堡大学修读逻辑学和神学,毕业后顺理成章得成为了一位牧师。
在牧师的工作之余,贝叶斯对数学和逻辑推断抱有强烈的兴趣,有传言说,贝叶斯希望通过统计概率,证明上帝的存在。然而,终其一生,他没有实现这个愿望。被冠以 “Bayes” 之名的贝叶斯定理,则是在贝叶斯过世之后,又另一位牧师 Richard Price 从他的笔记中整理发表的。
贝叶斯定理之所以很贴近生活,可能是因为它本身就是用来解释生活的。而恰恰是因为现实生活非常复杂,所以我们对于贝叶斯的理解和解读,有时看起来比较迂回和困难。
其实,只要深入思考一下,我们观测到的现象发生的概率,到底是它本身的概率,还是某种条件概率?如果是后者,那我们在解读它的时候,考虑到它本身的客观概率了吗?回答了这几个问题,你就知道是否需要用贝叶斯的方法来解决了。
参考文献:
https://en.wikipedia.org/wiki/Thomas_Bayes