StatQuest学习笔记08——比数与比数比

前言——主要内容

这篇笔记的主要内容是StatQuest视频教程的第29与30,第29的内容是比值比(Odds)与比值比的log转换(LogOdds)。第30的内容是oddo ratio。

ratio与rate的区别

原视频中有几个术语比较容易混淆,下面是几个英文的注释。

ratio:译为“相对比”,通常简称为“比”,是指一个数字与另外一个数字的比值,它可以是两个有关的同类指标之比,也可以是不同性质的指标之比,常以倍数或百分数来表示,如下所示:

image

这里的甲、乙指标值可以是绝对数、相对数或平均数等。我们看下面的一个表:

某地区某年居民钩虫感染人数
年龄组/岁 检查人数 感染人数
0-14 453 48
15-49 824 78
50及以上 206 18
合计 1483 144

这个表示中,0-14岁组与15-49岁组钩虫感染人数相对比为48/78X100%=61.54%,0-14岁组与15-49岁组钩虫感染率的相对比为10.60%/9.47%=1.12(倍)。

rate:对应的中文翻译是“率”,率是一个具有时间概率的比,用于说明在某一时期内某个现象发生的频率或旨度。某事件在某时间的发生率为表示为:

image

率常以百分率(%)、千分率、万分率(1/万)、十万分率(1/10万)等表示,在用率的指标时,应说明观察时时期的时间单位。常用的率有生存率、发病率。例如2000年初,在某地区调查了1000名60岁以上的老人,经检查发现,有80人患糖尿病。在2001年初随访这1000名60岁以上的老人,并进行体验,发生其中有95名老人患有糖尿病,那么糖尿病的发病率为:

image

也就是说,这个地区60岁以上的老人在2000年的糖尿病发病率为1.63%。

——上述内容引用自《医学统计学及SAS应用》(王炳顺.2014)

odds与odds ratio翻译的区别

odds与odds ratio这两个词容易弄混,后来找了一本书(颜虹. 医学统计学.第2版[M]. 人民卫生出版社, 2010.),根据书里的翻译如下:

odds:翻译为优势比比数比值,在不同的情况下,可以译成不同的名称,例如在比赛时,可以译为“胜算”,在赌博时,也可以译为“胜率”,在疾病方面,也可以译为“风险”。为了方便理解与描述,后文中我会在括号中注明。

odds ratio:翻译为比数比比值比

后文会详细讲这两个术语的区别,为了避免搞混淆,此篇笔记都会使用中英文来描述比数和比数比。

odds

关于比数(odds),我们先举一个例子。

你或许这么说过,“我支持的球队踢赢的概率可能是1:4”。这里暗含的意思就是有5场比赛,其中我的支持的球队会赢1场(下图蓝点所示),会输4场(下图红点所示),如下所示:

image

那么此时我们使用比数(odds)来表示1:4,我们也可以说是1/4,如下所示:

image

计算一下,就是0.25。也就是说我支持的球队赢的胜算是0.25(注:odds在这里译为了胜算,因为我觉得在球赛这种场合使用比数比较不太合适,这里可以理解为“胜算”)。

再把这个案例修改一下,如果我支持的球队赢得比赛的胜算(odds)是5:3,那么实际上暗示会有8场比赛,在这8场比赛中,我支持的球队会赢5场(蓝点所示),如下所示:

image

因此球队赢的胜算(odds)就是5/3,如下所示:

image

计算结果就是1.7。我们可以说我支持的球队赢的胜算(odds)是1.7。

需要注意的是,比数(odds,这里又切换到了统计学术语)与概率(probability)不同,比数(odds)指的是某些发生的事情与不发生的事情的比值,那么在这个案例中,比数(odds)的计算就是赢的事件数目(蓝色点)除以输的事件数目(红色点)如下所示:

image

而概率(probability)则指的发生的事情数目(蓝色点)除以所有的事件数目(赢的(蓝色点)和输的(红色点)),如下所示:

image

因此,在前文中介绍的案例里,赢的比数就是5比3,也就是1.7,如下所示:

image

而赢的概率则是5/8,也就是0.625,如下所示:

image

此时我们就理解了比数(odds)与概率(probability)的区别。

此时我们看一下如何从概率(probability)中计算比值比(odds)。在上个案例中,我们看到了,赢的比数(odds)为1.7,概率为0.625,我们还可以计算一下输入的概率,也就是3/8=0.375。其实也就是1-赢的概率=1-5/8=3/8=0.375,如下所示:

image

此时我们用赢的概率除以输的概率,如下所示:

image

计算后,如下所示:

image

上述讲了两种计算比数(odds)的方式,一种是根据事件数目计算,一种是根据概率计算。但经常使用的是则是第二种,如下所示:

image

log odds

再回到最初的案例,也就是我支持的球队在5场比赛中,可能赢1场的那个案例,它的比数(odds)计算如下所示:

image

如果我支持的球队表现更差,胜算(odds,就是比数,我是为了方便描述比赛)为1:8,那么就是下面的情况:

image

如果我支持的球队表现再差,假设胜算(odds)为1:16,那么就是下面的情况:

image

或者还差呢,比如1:32,这基本上就接近0了,如下所示:

image

我们再假设一下,我支持的球队很好,有可能踢个4:3,或1.3,也就是下面的样子:

image

如果还好,比如8:3(或2.7),如下所示:

image

如果非常好,例如32:3(或者说是10.7),如下所示:

image

在这个案例中,我们知道,最初球队的胜算(odds,比数)是1,然后上下波动,差的时候,是从很小的值(基本上接近于0了)到1,如果很好的时候,则是从1到很大。此时,我们把这个比数(odds)放到一个数轴上表示,如下所示:

image

红色的箭头表示的就是球队比较差的时候,输的胜算(odds,比数),如下所示:

image

蓝色的则相反,表示的是球队赢的胜算(odds,比数),如下所示:

image

但是,这个数轴不太直观,因为红色与蓝色不对称,比较起来不方便,如下所示:

image

例如,如果胜算(odds)是1比6的话,也就是说1/6=0.17,它就在下面的这个位置:

image

如果胜算(odds,比数)是6比1的话,也就是6/1=6,它就在很远处,如下所示:

image

但是这些比数(odds)的程度都比较类似(一个是1比6,一个是6比1),但是区别很大,如下所示:

image

为了方便观察,我们可以把比数(odds)进行一个log转换来解决这个问题,转换后的数轴如下所示:

image

例如,如果比数是1:6,那么经过log转换(log(1/6)=log(0.17)=-1.79)则是下面这个样子:

image

如果比数(odds)是6比1,经过log转换,则是下面的这个样子:

image

我们通过使用log转换,这两个相似的值就很对称了,如下所示:

image

注:在学习统计学的时候,有时候我们可能看到一个指标,觉得很奇怪,但是只要深入其中最根本的原理部分,就会发现,这有一定的合理性。

odds深入

在我们刚涉及比数(odds)时,是按事件数目计算的,接着我们又按概率进行了计算,这两种方法在本质上是相同的,如下所示:

image

最后我们又涉及了比数(odds)的log转换,此时我们需要注意的是,概率的比值(ratio of probabilities)的log转换称为logit函数(logit function),它是logistic回归(logistic regression)的基础,如下所示:

image

此时我们明白了比数(odds)和比数的log转换,那么它有什么用处呢,看下面的一个案例。在下面的这个案例里,如果随机选择一对加起来的值为100的两个数字,然后利用这对数字计算log(odds),并且绘制出直方图,这个直方图就比较类似于正态分布了,如下所示:

image

添加上正态分布曲线,就是下面的这个样子:

image

使用log(odds)在解决某些统计学问题方面很有用,尤其是在我们计算赢/输概率方面,或者是yes/no,或者是true/false这些情况时(我觉得这与二项分布有些类似,以后补一下)。

image

最后,我们需要注意的是比数(odds)虽然是一个比率(ratio),但它与比数比(odds ratio)是不同的,至于有哪些不同,后文会提到。

image

odds ratio

当我们说比数(odds)的时候,我们仅指两个事件发生的比(ratio)比值,还以前面的案例为例说明,例如比数(odds)我们指的是我支持的球队获胜的比(ratio)除以我支持的球队失败的比例,如下所示:

image

我们用图型表示就是下面的这个样子,蓝色圆形表示赢,如下所示:

image

红色圆形表示输,如下所示:

image

那么我支持的球队赢的比数(odds)就是蓝色的圆形除以红色的圆形,如下所示:

image

此时,我们计算一下圆形的数目,就可以计算出比数(odds),如下所示:

image

此时需要注意的是,即使比数(odds)是一个比(ratio),它也不是人们所谓的比数比(odds ratio),如下所示:

image

当人们说比数比(odds ratio)的时候,事实上他们是在说比数的比(ratio of odds)(这几个术语很拗口,为了避免混淆,我都会在括号时注明英文),分子与分母都是一个比数(odds),如下所示:

image

计算可得0.17,如下所示:

image

就像我们计算某件事情的比数(odds)时,如果分母比分子大很多,那么比数比(odds ratio)就位于0到1这个区间上,如下所示:

image

相反,如果分子很大,分母很小,那么比数比(odds ratio)就位于1到极大这个区间上,如下所示:

image

与比数(odds)类似,我们也可以把比数比(odds ratio)进行log转换,让它们看起来比较对称,如下所示:

image

例如,比数比(odds ratio)为(2/4)/(3/1),进行log转换,即log(odds ratio)=-1.79,比数比(odds ratio)为(3/1)/(2/4),进行log转换,即log(odds ratio)=1.79,如下所示:

image

此时我们就得到了转换后的比数比(odds ratio),如下所示:

image

odds ratio案例

此时,我们看一个案例,Has cancer表示得癌症的情况,Yes是得,No是不得,Has the mutated gene表示含有突变基因的情况,Yes是含有突变基因,No是不含突变基因,如下所示:

image

方框中的数据是356个(356=23+117+6+210),其中,我们从是否得癌症的角度来看,29个人得癌症(29=23+3),327人不得癌症(327=117+210),我们从是否含有突变基因的角度来看,含有突变基因的人数是140(140=23+117),不含突变基因的人数是216(216=6+210)。

此时,我们可以使用比数比(odds ratio)来研究突变基因与癌症之间的关系,如果一个人含有突变基因,那么它得病症的风险(odds,比数)有多高?如下所示:

image

如果一个人含有突变基因,那么他得癌症的的风险(odds)为23/117,如果一个人不含突变基因,那么他得癌症的风险就是6/210,此时我们把23/117放在分子上,把6/210放在分母上,如下所示:

image

它们整体上被称为比数比(odds ratio),如下所示:

image

经计算,可得比数比(odds ratio)为6.88,这个数字告诉我们,含有突变基因的人得癌症的风险要比不含突变基因的人风险高出6.88倍,如下所示:

image

把6.88进行log转换,就得到了1.93,这个转换的意义类似于线性回归中的{R}^2,它表示的是两个事件(在这个案例中是突变基因与癌症的关系)的关联程度,它们的值反映了事件的效应程度(effect size),如下所示:

image

当这个值很大的时候,表示突变基因是癌症的一个很好的指标,如果这个值比较小,那么突变基因就不是癌症的一个很好指标,如下所示:

image

此时还有一个问题,还是与线性回归中的{R}^2一样,我们要知道,这个值是否有统计学上的意义,一共有3种方式来计算比数比(odds ratio),如下所示:

  1. Fisher's 精确检验
  2. Chi-Square检验
  3. The Wald检验(有人喜欢用这种方法来计算p值与置信区间)

至于哪种方法好,目前还没有一个统计的认识,如下所示:

image

Fisher精确检验

我们先用Fisher精确检验来计算。

第一步,我们先把这几个数字当作是某个袋子中的不同颜色的巧克力豆(注:原视频说把这些豆子是M&M豆,后来查了一下,这是美国的一个巧克力豆品牌,简称为MM豆,它有各种颜色),得癌症的用红色表示,不得的用蓝色表示,如下所示:

image

第二步,在得癌症的人中,数字是29,也就是29=26+3,如下所示:

image

第三步:不得癌症的人的数字是327,也就是327=117+210,如下所示:

image

第四步:计算我们抓到23个红豆和117个蓝豆的p值,如下所示:

image

经计算,这个p值为0.00001,如下所示:

image

Chi-square检验

我们再用Chi-square来检验一下p值,它的原理就是通过比较理论值与真实值之间的差异来计算p值的。

第一步,我们先假设突变基因与癌症没有关系,如下所示:

image

第二步:计算整体中得癌症的概率,在这个数据集中,得癌症的人是29个,即29=23+6,那么它除以总的人数356(356=23+117+6+210)就是得癌症的概率,如下所示:

image

第三步:计算不同组中得得癌症的理论人数,以含有这个突变基因的组为例(这个组的人数是140,即140=23+117),那么这个组中得癌症的理论人数应该为140 x 0.08 = 11.2,如下所示:

image

按照同样的方法,把所有组的理论得癌症人数都计算出来,如下所示:

image

第四步:比较理论值与观察值,如下所示:

image

至于有2个p值,这主要是因为卡方检验通常是不连续数据,但样本量足够大的话,可以视为连续数据。因此在进行卡方检验时,可以使用连续性校正,也可以不使用。

Wald检验

这种检验常常用于计算logistic回归中的比数比(odds ratios)的显示性与置信区间,如下所示:

image

Wald检验会充分利用log(odds ratios),它通常是服从正态分布的,如下所示:

image

这个直方图是由10000个随机的log(odds ratio)生成的,它告诉我们如果突变基因与癌症没有关系的话,可能的p值大小,如下所示:

image

如果要在自己的计算机上绘制这个直方图,那么随机选择的人的数目就是300到400。在这个案例中我们计算的步骤如下(Wald检验不懂,我只能照着字面翻译):

第一,我们选择的是325(数字位于300到400之间);

第二,针对每个样本选择一个0到1之间的随机数,例如0.01,0.73,0.95;

第三,小于0.08的那些随机数就是得样本得癌症的概率,例如,17除以325就是0.05,小于0.08;

第四,为每个样本再挑选1个位于0到1之间的随机数字;

第五,小于0.05的那些随机数字就是含有突变基因的人数。

至少,我们会得到一个矩阵,这个矩阵中的值和基因与癌症之间的关系无关,下面主是这个矩阵,如下所示:

image

𦘀,计算log(odds ratio),做10000万次,然后绘制出直方图,如下所示:

image

这个直方图的正态分布曲线如下所示:

image

在x=0处,log(odds ratio)=0,它表示不同组之间的比数(odds)没有差异,这个正态分布的标准差为0.43,如下所示:

image

通常使用观测值来估计标准差,如下所示:

image

计算过程如下所示:

image

最终结果是0.47,如下所示:

image

我们可以发现,这个0.47与0.43还是比较接近的。

Wald检验所做的就是观测值的log(odds ratio)距离0有多少个标准差,如下所示:

image

由于Wald检验通常使用估计的标准差(这里就是0.47),那么我们使用一个中心为0,标准差为0.47的正态分布区曲线来替换原来的直方图,如下所示:

image

此时计算一下观测值的log(odds ratio),如下所示:

image

计算可得log(odds ratio)=1.93,它位于曲线的右侧部分,如下所示:

image

此时我们计算一个这个值距离0有几个标准差,我们只用它除以标准差即可,如下所示:

image

经计算可得,观测值的log(odds ratio)距离0有4.11个标准差,如下所示:

image

按照我们平时的计算规则,通常偏离2个标准差的p值会小于0.05,那么此时我们就可以知道log(odds ratio)在统计学上的显著的,如下所示:

image

不过,为了得到一个精确的双尾检验的p值,我们可以求出大于1.93以及小于-的.93的曲线下面积,如下所示:

image

不过上述是传统的,利用标准正态曲线计算的方式,如下所示:

image

利用这种方法就意味着,大于4.11以及小于-4.11的曲线下面积的点都加在了一起,其中4.11是log(odds ratio)离均值标准差的数目,如下所示:

image

最终我们计算的结果就是,突变基因与癌症之间没有关系的p值是0.00005,如下所示:

image

三种方法总结

前面我们使用了3种方法来计算p值,当我们生成10000个随机的log(odds ratios)时,我们分别使用这3种方法来检验,如果检验符合预期,那么有5%的可能性p值是小于0.05的,如下所示:

image

从这三种方法的计算结果来看,它们在限制p值方面都表现得很好,因此你所做的就是找出你自己专业领域中最常用的方法。就作者个人的看法,如果都能通过所有的检验,那么他会选择一个在边界上的p值。

总结

比数比(odds ratio)就是比数(odds)的比,如下所示:

image

log(odds ratio)就是odds ratio进行log转换,如下所示:

image

比数比(odds ratio)会告诉我们两件事情之间的联系,例如有某种突变基因的人是否会增加其得癌症的风险(odds),如下所示:

image

有三种方法来计算两个事件之间的p值,分别为Fisher精确检验,Chi-Square检验,Wald检验,在前面的案例中,这3个检验得到的p值如下所示:

image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容