原文链接:概率阅读总结1:生活中的概率现象
忘了在哪本书看到一句话,看书有三个目的,一是认识自己,二是认识他人(包括和我们的关系),三是认识世界的运行方式。 这个分类对我很受用,之前阅读心理学和认知类图书,价值就是‘认识自己“,从大脑运行的角度了解我们常犯的错误,并学习解决办法,之前写过一个总结:思维阅读心得小结,内容比较很简陋。这半年阅读的概率/统计主题,则是典型的“认识世界的运行方式”。为了加深理解和实践,我准备总结几个重要统计学概念写成独立的文章,按照自己的理解和记忆引用所读图书中的例子(只说大概不展开重复细节,有兴趣请读原书),然后补充我在现实中的观察和思考,促进“学以致用”,这也是今年阅读的“融会贯通”方法。
“概率阅读总结”系列博文,目前缺氧的几个细分主题是:生活中的概率现象(描述性语言),期望值(已经最先发表),小概率事件(黑天鹅),贝叶斯推理,幸存者偏见,随机性,统计推断。
我目前读完的几本统计相关的图书,该系列总结的例子可以从以下读书笔记中寻找:
本博文应该是我的“概率阅读总结”系列的第一篇,介绍生活中的概率现象,进而说明概率思维的必要性和重要性。 书中与本博文最相近的内容是:
- 《赤裸裸的统计学》 读书笔记 1-7 第二章描述性语言 第三章统计学会撒谎 ,这两部分都举了不少例子
- 《魔鬼数学》第一部分 线性 读书笔记强调了“百分比的滥用”等,是生活中比较常见的错误
- 《漫步华尔街》 P166,介绍了好几种描述性数字背后的概率错误。
统计数字背后的陷阱和空白
马克•吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。从这儿就能看到统计学错误的普遍性和严重性。
为什么统计数是一种重要的说谎方法?因为统计数字是一种描述性语言,这种简化的描述有利于快速理解但必然遗漏了其他信息,所以要格外注意简化被滥用的情况,有意或无意引导我们误解信息。
下面举两个例子(我坐公司班车时听到的广播广告):
例子:君乐宝奶粉,通过397项严苛检测,进入香港销售,在抽检中获得*最高安全认证。
例子:飞鹤奶粉,2017年高端销量增长200%。
作为“经典广告”(广告有意或无意的利用大众的理解偏见),上面的广告词都显得推荐的品牌高端大气上档次,但是从理性的角度,其实禁不起推敲,因为缺少对照组和基数,单纯用397项和增长200%,完全没有说服力。这个问题和下面这个是一样的。
如果我告诉你,某品牌麦片中A配方的钠含量要比B配方高31毫克,除非你恰好懂得很多关于钠的知识(以及该品牌麦片的食用分量),否则上面这句话并不能给你带来特别具体的信息。——《赤裸裸的统计学》举例
再比如在 年终PPT做不好?心得分享+精品模板+送月会员助你过最后一关 这篇教大家如何写年终总结PPT的文章,居然教人如何“活用”统计图表来掩盖真实的数据意图,真是悲哀。下属怎么利用统计学”化腐朽为神奇“,领导就要睁大眼睛发现统计中的陷阱了。
下面这个例子就是上面文章的推荐方法,这就是赤裸裸的欺骗啊。真是bullshit。
同样的数据,换个角度看世界
造假可耻,切忌夸大事实,绝不伪造业绩。同样的数据,我们换个角度来看,给人的信息感觉是可以不同的。
下面是见证奇迹的时刻。
如何避免常见的概率陷阱?
统计学知识其实就是我们的生活中,只是大多数人没有学统计学知识,很难如此思考。
统计学的一个关键方法是统计推断,这儿先说一个更简单的分析方法——“比较”。“分析的本质是比较”,这是《麦肯锡教给我的思考武器》读书笔记中的一个结论。在《factfulness》一书中举了不少例子,比如比较国家之间的平均寿命,比较学校之间的男女平均学习成绩等,这种平均值之间的比较,就是一种典型的统计学比较。这里面就要注意以下两个方面:
- 确定对照组/实验组——谁和谁比较。
- 分析统计数字时,先要看平均值,
- 分析统计数字时,还要看波动性。
这几个方面都是非常非常重要又容易被忽略的地方,从而导致人们作出错误的决策。
“分析的本质是比较”,不通过比较就不能得出“好坏美丑”,比如上面说的“通过397项严苛检测”,397这个绝对性数字其实不能说明什么。万一行业好奶粉都通过500项严苛检验呢。很多时候我们看到一个绝对数字就知道好坏,是因为我们心中有默认的比较对象或者相应的背景知识,就像有人说在北京三环以内买了一套200万的房子,听者不觉得是豪宅一样。
平均值和波动一样重要! 比如工作中有些图表为了更清晰的展现结果,放大纵坐标到想要的范围,从而让两组结果的差异显得更大,但是这不是一种错误的数据分析,准确的办法是同时比较平均值和误差。 比如说村庄A的平均村民体重是81kg,村庄B的平均村民体重是85kg,我们可以说B村村民比A村村民更重吗,当然不能!万一B村村名都是留守老人和儿童,数据点呈两端分散,那这种平均值的波动太大,比较就失去了意义。
学习概率思维的价值
生活和工作中,有太多的的决策需要从概率的角度去分析更准确的选择,提高概率思维又能避免很多的陷阱(我愈发感到悲观,生活中有很多陷阱都是根据人的潜意识思维设定的,引导消费者作出有利于企业却损害消费者的事情)。
概率思维的缺失,是很多人不理性和容易被误导的根源。
比如去医院看病取药,选择手术类型,比如贝叶斯推理的疾病假阳性概率很多所以不能只听信一家医院的检测结果。 关于疾病方面,推荐菠萝的一篇文章: <a href="https://mp.weixin.qq.com/s/9ALCGWO3WVwRvmwA-grBIQ“>知识分子——菠萝:中国患者浪费很多钱 。
懂点统计学可以避免广告的误导而保持独立思考。
懂点统计学,也有很多更现实的用处。 比如去医院看病,是否手术,是否吃药,要做出合适的判断不能只靠直觉。比如书中提到一个例子,一位学者去医生看病,医生的结论是“半数预期寿命只有区区8个月“,只从平均值来推断真的是“命不久矣”,但该病人调查了这个“8个月”背后的完整数据,发现得这种疾病的幸存时间不是正态分布的,而该病人最终也活了20年。 我之前有一次去医院,大夫给出两个选择,一是手术马上解决问题,但是有百分之几的概率会失效,也可以单纯吃药慢慢治疗疾病,是否应该选择手术?我就直接选择吃药,完全没有必要去冒险踩百分之几的陷阱。
2018.12.01 publish,之后再更新
2018.12.06 update
2018-12-22 补充一个数据图表的例子,补充分析的介绍。