StatQuest学习笔记08——比数与比数比

前言——主要内容

这篇笔记的主要内容是StatQuest视频教程的第29与30，第29的内容是比值比（Odds）与比值比的log转换（LogOdds）。第30的内容是oddo ratio。

ratio与rate的区别

原视频中有几个术语比较容易混淆，下面是几个英文的注释。

ratio：译为“相对比”，通常简称为“比”，是指一个数字与另外一个数字的比值，它可以是两个有关的同类指标之比，也可以是不同性质的指标之比，常以倍数或百分数来表示，如下所示：

image

这里的甲、乙指标值可以是绝对数、相对数或平均数等。我们看下面的一个表：

	某地区某年居民钩虫感染人数
年龄组/岁	检查人数	感染人数
0-14	453	48
15-49	824	78
50及以上	206	18
合计	1483	144

这个表示中，0-14岁组与15-49岁组钩虫感染人数相对比为48/78X100%=61.54%，0-14岁组与15-49岁组钩虫感染率的相对比为10.60%/9.47%=1.12（倍）。

rate：对应的中文翻译是“率”，率是一个具有时间概率的比，用于说明在某一时期内某个现象发生的频率或旨度。某事件在某时间的发生率为表示为：

image

率常以百分率（%）、千分率、万分率（1/万）、十万分率（1/10万）等表示，在用率的指标时，应说明观察时时期的时间单位。常用的率有生存率、发病率。例如2000年初，在某地区调查了1000名60岁以上的老人，经检查发现，有80人患糖尿病。在2001年初随访这1000名60岁以上的老人，并进行体验，发生其中有95名老人患有糖尿病，那么糖尿病的发病率为：

image

也就是说，这个地区60岁以上的老人在2000年的糖尿病发病率为1.63%。

——上述内容引用自《医学统计学及SAS应用》（王炳顺.2014）

odds与odds ratio翻译的区别

odds与odds ratio这两个词容易弄混，后来找了一本书（颜虹. 医学统计学.第2版[M]. 人民卫生出版社, 2010.），根据书里的翻译如下：

odds：翻译为优势比或比数或比值，在不同的情况下，可以译成不同的名称，例如在比赛时，可以译为“胜算”，在赌博时，也可以译为“胜率”，在疾病方面，也可以译为“风险”。为了方便理解与描述，后文中我会在括号中注明。

odds ratio：翻译为比数比或比值比。

后文会详细讲这两个术语的区别，为了避免搞混淆，此篇笔记都会使用中英文来描述比数和比数比。

odds

关于比数（odds），我们先举一个例子。

你或许这么说过，“我支持的球队踢赢的概率可能是1:4”。这里暗含的意思就是有5场比赛，其中我的支持的球队会赢1场（下图蓝点所示），会输4场（下图红点所示），如下所示：

image

那么此时我们使用比数（odds）来表示1:4，我们也可以说是1/4，如下所示：

image

计算一下，就是0.25。也就是说我支持的球队赢的胜算是0.25（注：odds在这里译为了胜算，因为我觉得在球赛这种场合使用比数比较不太合适，这里可以理解为“胜算”）。

再把这个案例修改一下，如果我支持的球队赢得比赛的胜算（odds）是5:3，那么实际上暗示会有8场比赛，在这8场比赛中，我支持的球队会赢5场（蓝点所示），如下所示：

image

因此球队赢的胜算（odds）就是5/3，如下所示：

image

计算结果就是1.7。我们可以说我支持的球队赢的胜算（odds）是1.7。

需要注意的是，比数（odds，这里又切换到了统计学术语）与概率（probability）不同，比数（odds）指的是某些发生的事情与不发生的事情的比值，那么在这个案例中，比数（odds）的计算就是赢的事件数目（蓝色点）除以输的事件数目（红色点）如下所示：

image

而概率（probability）则指的发生的事情数目（蓝色点）除以所有的事件数目（赢的（蓝色点）和输的（红色点）），如下所示：

image

因此，在前文中介绍的案例里，赢的比数就是5比3，也就是1.7，如下所示：

image

而赢的概率则是5/8，也就是0.625，如下所示：

image

此时我们就理解了比数（odds）与概率（probability）的区别。

此时我们看一下如何从概率（probability）中计算比值比（odds）。在上个案例中，我们看到了，赢的比数（odds）为1.7，概率为0.625，我们还可以计算一下输入的概率，也就是3/8=0.375。其实也就是1-赢的概率=1-5/8=3/8=0.375，如下所示：

image

此时我们用赢的概率除以输的概率，如下所示：

image

计算后，如下所示：

image

上述讲了两种计算比数（odds）的方式，一种是根据事件数目计算，一种是根据概率计算。但经常使用的是则是第二种，如下所示：

image

log odds

再回到最初的案例，也就是我支持的球队在5场比赛中，可能赢1场的那个案例，它的比数（odds）计算如下所示：

image

如果我支持的球队表现更差，胜算（odds，就是比数，我是为了方便描述比赛）为1:8，那么就是下面的情况：

image

如果我支持的球队表现再差，假设胜算（odds）为1:16，那么就是下面的情况：

image

或者还差呢，比如1:32，这基本上就接近0了，如下所示：

image

我们再假设一下，我支持的球队很好，有可能踢个4:3，或1.3，也就是下面的样子：

image

如果还好，比如8:3（或2.7），如下所示：

image

如果非常好，例如32:3（或者说是10.7），如下所示：

image

在这个案例中，我们知道，最初球队的胜算（odds，比数）是1，然后上下波动，差的时候，是从很小的值（基本上接近于0了）到1，如果很好的时候，则是从1到很大。此时，我们把这个比数（odds）放到一个数轴上表示，如下所示：

image

红色的箭头表示的就是球队比较差的时候，输的胜算（odds，比数），如下所示：

image

蓝色的则相反，表示的是球队赢的胜算（odds，比数），如下所示：

image

但是，这个数轴不太直观，因为红色与蓝色不对称，比较起来不方便，如下所示：

image

例如，如果胜算（odds）是1比6的话，也就是说1/6=0.17，它就在下面的这个位置：

image

如果胜算（odds，比数）是6比1的话，也就是6/1=6，它就在很远处，如下所示：

image

但是这些比数（odds）的程度都比较类似（一个是1比6，一个是6比1），但是区别很大，如下所示：

image

为了方便观察，我们可以把比数（odds）进行一个log转换来解决这个问题，转换后的数轴如下所示：

image

例如，如果比数是1:6，那么经过log转换（log(1/6)=log(0.17)=-1.79）则是下面这个样子：

image

如果比数（odds）是6比1，经过log转换，则是下面的这个样子：

image

我们通过使用log转换，这两个相似的值就很对称了，如下所示：

image

注：在学习统计学的时候，有时候我们可能看到一个指标，觉得很奇怪，但是只要深入其中最根本的原理部分，就会发现，这有一定的合理性。

odds深入

在我们刚涉及比数（odds）时，是按事件数目计算的，接着我们又按概率进行了计算，这两种方法在本质上是相同的，如下所示：

image

最后我们又涉及了比数（odds）的log转换，此时我们需要注意的是，概率的比值（ratio of probabilities）的log转换称为logit函数（logit function），它是logistic回归（logistic regression)的基础，如下所示：

image

此时我们明白了比数（odds）和比数的log转换，那么它有什么用处呢，看下面的一个案例。在下面的这个案例里，如果随机选择一对加起来的值为100的两个数字，然后利用这对数字计算log(odds)，并且绘制出直方图，这个直方图就比较类似于正态分布了，如下所示：

image

添加上正态分布曲线，就是下面的这个样子：

image

使用log(odds)在解决某些统计学问题方面很有用，尤其是在我们计算赢/输概率方面，或者是yes/no，或者是true/false这些情况时（我觉得这与二项分布有些类似，以后补一下）。

image

最后，我们需要注意的是比数（odds）虽然是一个比率（ratio），但它与比数比（odds ratio）是不同的，至于有哪些不同，后文会提到。

image

odds ratio

当我们说比数（odds）的时候，我们仅指两个事件发生的比（ratio）的比值，还以前面的案例为例说明，例如比数（odds）我们指的是我支持的球队获胜的比（ratio）除以我支持的球队失败的比例，如下所示：

image

我们用图型表示就是下面的这个样子，蓝色圆形表示赢，如下所示：

image

红色圆形表示输，如下所示：

image

那么我支持的球队赢的比数（odds）就是蓝色的圆形除以红色的圆形，如下所示：

image

此时，我们计算一下圆形的数目，就可以计算出比数（odds），如下所示：

image

此时需要注意的是，即使比数（odds）是一个比（ratio），它也不是人们所谓的比数比（odds ratio），如下所示：

image

当人们说比数比（odds ratio）的时候，事实上他们是在说比数的比（ratio of odds）（这几个术语很拗口，为了避免混淆，我都会在括号时注明英文），分子与分母都是一个比数（odds），如下所示：

image

计算可得0.17，如下所示：

image

就像我们计算某件事情的比数（odds）时，如果分母比分子大很多，那么比数比（odds ratio）就位于0到1这个区间上，如下所示：

image

相反，如果分子很大，分母很小，那么比数比（odds ratio）就位于1到极大这个区间上，如下所示：

image

与比数（odds）类似，我们也可以把比数比（odds ratio）进行log转换，让它们看起来比较对称，如下所示：

image

例如，比数比（odds ratio）为(2/4)/(3/1)，进行log转换，即log(odds ratio)=-1.79，比数比（odds ratio）为(3/1)/(2/4)，进行log转换，即log(odds ratio)=1.79，如下所示：

image

此时我们就得到了转换后的比数比（odds ratio），如下所示：

image

odds ratio案例

此时，我们看一个案例，Has cancer表示得癌症的情况，Yes是得，No是不得，Has the mutated gene表示含有突变基因的情况，Yes是含有突变基因，No是不含突变基因，如下所示：

image

方框中的数据是356个（356=23+117+6+210），其中，我们从是否得癌症的角度来看，29个人得癌症（29=23+3），327人不得癌症（327=117+210），我们从是否含有突变基因的角度来看，含有突变基因的人数是140（140=23+117），不含突变基因的人数是216（216=6+210）。

此时，我们可以使用比数比（odds ratio）来研究突变基因与癌症之间的关系，如果一个人含有突变基因，那么它得病症的风险（odds，比数）有多高？如下所示：

image

如果一个人含有突变基因，那么他得癌症的的风险（odds）为23/117，如果一个人不含突变基因，那么他得癌症的风险就是6/210，此时我们把23/117放在分子上，把6/210放在分母上，如下所示：

image

它们整体上被称为比数比（odds ratio），如下所示：

image

经计算，可得比数比（odds ratio）为6.88，这个数字告诉我们，含有突变基因的人得癌症的风险要比不含突变基因的人风险高出6.88倍，如下所示：

image

把6.88进行log转换，就得到了1.93，这个转换的意义类似于线性回归中的 ${R}^2$ ，它表示的是两个事件（在这个案例中是突变基因与癌症的关系）的关联程度，它们的值反映了事件的效应程度（effect size），如下所示：

image

当这个值很大的时候，表示突变基因是癌症的一个很好的指标，如果这个值比较小，那么突变基因就不是癌症的一个很好指标，如下所示：

image

此时还有一个问题，还是与线性回归中的 ${R}^2$ 一样，我们要知道，这个值是否有统计学上的意义，一共有3种方式来计算比数比（odds ratio），如下所示：

Fisher's 精确检验
Chi-Square检验
The Wald检验（有人喜欢用这种方法来计算p值与置信区间）

至于哪种方法好，目前还没有一个统计的认识，如下所示：

image

Fisher精确检验

我们先用Fisher精确检验来计算。

第一步，我们先把这几个数字当作是某个袋子中的不同颜色的巧克力豆（注：原视频说把这些豆子是M&M豆，后来查了一下，这是美国的一个巧克力豆品牌，简称为MM豆，它有各种颜色），得癌症的用红色表示，不得的用蓝色表示，如下所示：

image

第二步，在得癌症的人中，数字是29，也就是29=26+3，如下所示：

image

第三步：不得癌症的人的数字是327，也就是327=117+210，如下所示：

image

第四步：计算我们抓到23个红豆和117个蓝豆的p值，如下所示：

image

经计算，这个p值为0.00001，如下所示：

image

Chi-square检验

我们再用Chi-square来检验一下p值，它的原理就是通过比较理论值与真实值之间的差异来计算p值的。

第一步，我们先假设突变基因与癌症没有关系，如下所示：

image

第二步：计算整体中得癌症的概率，在这个数据集中，得癌症的人是29个，即29=23+6，那么它除以总的人数356（356=23+117+6+210）就是得癌症的概率，如下所示：

image

第三步：计算不同组中得得癌症的理论人数，以含有这个突变基因的组为例（这个组的人数是140，即140=23+117），那么这个组中得癌症的理论人数应该为140 x 0.08 = 11.2，如下所示：

image

按照同样的方法，把所有组的理论得癌症人数都计算出来，如下所示：

image

第四步：比较理论值与观察值，如下所示：

image

至于有2个p值，这主要是因为卡方检验通常是不连续数据，但样本量足够大的话，可以视为连续数据。因此在进行卡方检验时，可以使用连续性校正，也可以不使用。

Wald检验

这种检验常常用于计算logistic回归中的比数比（odds ratios）的显示性与置信区间，如下所示：

image

Wald检验会充分利用log(odds ratios)，它通常是服从正态分布的，如下所示：

image

这个直方图是由10000个随机的log(odds ratio)生成的，它告诉我们如果突变基因与癌症没有关系的话，可能的p值大小，如下所示：

image

如果要在自己的计算机上绘制这个直方图，那么随机选择的人的数目就是300到400。在这个案例中我们计算的步骤如下（Wald检验不懂，我只能照着字面翻译）：

第一，我们选择的是325（数字位于300到400之间）；

第二，针对每个样本选择一个0到1之间的随机数，例如0.01，0.73，0.95；

第三，小于0.08的那些随机数就是得样本得癌症的概率，例如，17除以325就是0.05，小于0.08；

第四，为每个样本再挑选1个位于0到1之间的随机数字；

第五，小于0.05的那些随机数字就是含有突变基因的人数。

至少，我们会得到一个矩阵，这个矩阵中的值和基因与癌症之间的关系无关，下面主是这个矩阵，如下所示：

image

𦘀，计算log(odds ratio)，做10000万次，然后绘制出直方图，如下所示：

image

这个直方图的正态分布曲线如下所示：

image

在x=0处，log(odds ratio)=0，它表示不同组之间的比数（odds）没有差异，这个正态分布的标准差为0.43，如下所示：

image

通常使用观测值来估计标准差，如下所示：

image

计算过程如下所示：

image

最终结果是0.47，如下所示：

image

我们可以发现，这个0.47与0.43还是比较接近的。

Wald检验所做的就是观测值的log(odds ratio)距离0有多少个标准差，如下所示：

image

由于Wald检验通常使用估计的标准差（这里就是0.47），那么我们使用一个中心为0，标准差为0.47的正态分布区曲线来替换原来的直方图，如下所示：

image

此时计算一下观测值的log(odds ratio)，如下所示：

image

计算可得log(odds ratio)=1.93，它位于曲线的右侧部分，如下所示：

image

此时我们计算一个这个值距离0有几个标准差，我们只用它除以标准差即可，如下所示：

image

经计算可得，观测值的log(odds ratio)距离0有4.11个标准差，如下所示：

image

按照我们平时的计算规则，通常偏离2个标准差的p值会小于0.05，那么此时我们就可以知道log(odds ratio)在统计学上的显著的，如下所示：

image

不过，为了得到一个精确的双尾检验的p值，我们可以求出大于1.93以及小于-的.93的曲线下面积，如下所示：

image

不过上述是传统的，利用标准正态曲线计算的方式，如下所示：

image

利用这种方法就意味着，大于4.11以及小于-4.11的曲线下面积的点都加在了一起，其中4.11是log(odds ratio)离均值标准差的数目，如下所示：

image

最终我们计算的结果就是，突变基因与癌症之间没有关系的p值是0.00005，如下所示：

image

三种方法总结

前面我们使用了3种方法来计算p值，当我们生成10000个随机的log(odds ratios)时，我们分别使用这3种方法来检验，如果检验符合预期，那么有5%的可能性p值是小于0.05的，如下所示：

image

从这三种方法的计算结果来看，它们在限制p值方面都表现得很好，因此你所做的就是找出你自己专业领域中最常用的方法。就作者个人的看法，如果都能通过所有的检验，那么他会选择一个在边界上的p值。

总结

比数比（odds ratio）就是比数（odds）的比，如下所示：

image

log(odds ratio)就是odds ratio进行log转换，如下所示：

image

比数比（odds ratio）会告诉我们两件事情之间的联系，例如有某种突变基因的人是否会增加其得癌症的风险（odds），如下所示：

image

有三种方法来计算两个事件之间的p值，分别为Fisher精确检验，Chi-Square检验，Wald检验，在前面的案例中，这3个检验得到的p值如下所示：

image

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

StatQuest学习笔记08——比数与比数比

前言——主要内容

ratio与rate的区别

odds与odds ratio翻译的区别

odds

log odds

odds深入

odds ratio

odds ratio案例

Fisher精确检验

Chi-square检验

Wald检验

三种方法总结

总结

推荐阅读更多精彩内容