拿到此书时,我的内心是澎湃的——听说它是一本有着女士品茶典故的统计学书本;
读到此书时,我的内心是纠结的——原来它是一本是摆脱了晦涩数学符号的统计学发展史;
读完此书时,我的内心是平静的——在大数据时代,我作为数据样本的提供者和获益者,依旧不具备统计学头脑。
《女士品茶》译自《Lady Tasting Tea》,由戴维·萨尔斯伯格(David Salsburg)著。从每一章标题和内容的分节,我们可以感受到David有很努力地尝试将统计学先驱们的故事讲述得通俗易懂,使它成为一本摆脱了晦涩数学符号的书籍。
1、现实生活中,概率意味着什么
概率,简单地说,就是一件事发生的可能性的大小。而概率作为数学的一个重要部分,同样也发挥着重要的作用,如果能够掌握一些统计学知识,懂得概率的性质,在生活中也会受益匪浅。
举一个十分具体的例子:某公司推出如下促销活动:本公司为答谢广大顾客长期以来对本公司产品的支持和厚爱,特推出免费抽奖活动。
抽奖方式 :箱中有20个球,10个10分和10个5分,从箱子中摸出10个球,把各球的分数相加,按总分设置奖项如下:
一等奖:100 分,电脑一台
二等奖:50 分,电视一台
三等奖:95 分,MP3一个
四等奖:55 分,电饭煲一个
五等奖:90 分,XX 洗发水两瓶
六等奖:60 分,XX 洗发水一瓶
七等奖:85 分,毛巾 两条
八等奖:65 分,高级香皂一块
九等奖:80 分,牙膏一盒十等奖 : 70 分 , 牙刷一把
十一等奖 : 75 分 , 以成本价购买 XX 洗发水一瓶 。
大多数人都会认为抽奖结果共11个, 其中10个结果可免费获得奖品,中奖率为10/ 11≈90. 9% , 因而很容易受到诱惑。但如果你站在一旁观察就会发现中十一等奖的人较多,而且就算中其他免费奖项,也大都是一些价值较低的奖品。
那么问题究竟出在哪?
用概率的知识来分析 :
设随机摸出的10个球中10分的球有x个,则5分球的个数为10-x, 易知服从超几何分布, 即:
从这一结果可以看出,问题的关键在于每个奖项出现的概率不同,摸奖者中十一等奖的概率超过了1/ 3,而且价值越高的奖项被抽中的概率越低,特别是中两个大奖的概率只有十万分之一。因此,看似免费抽奖,实为商家推销产品,获取利润的手段(张芳. 日常生活中概率的应用[J]. 山西财经大学学报: 高等教育版, 2007 (S1).)。
对于个人而言,每个人都会凭借自觉判断各种结果出现的概率。概率作为一个普通又普遍的概念,除了抽奖,彩票、保险、巧合事件、股票、抽签等各种独立事件中,都涉及到概率。统计学方法也常被应用于天文学、生物学、社会学、流行病学、法律或者天气预报等观测性研究,只是不同的数学模型不会得出不同的结论,因此也常常引起争议。故,理解并掌握统计学方面的知识,能够帮助我们深入窥得在科学变革及生活应用中的基础内涵。
2、做大数据时代的明白人
那么,在21世纪的大数据时代,统计学以一种十分不明显的方式,紧密联系到我们日常生活的方方面面。在这个数据信息大爆炸的当下,乱花渐欲迷人眼,数据的手机已然不成问题,但如何把数据的效用最大化便成为当务之急。
热门美剧《纸牌屋》,相信大家都有所耳闻,它之所以如此走红,是背后团队(Netfilx)利用统计学方法深入分析,精准把握观众喜好。
在TED演讲集中,2015年有一集《如何利用大数据做出正确的判断》,介绍了这个事件的过程。原来罗伊·普莱斯(Roy·Pirce)和他的亚马逊的团队,通过竞赛的方式集合了各类题材的视频,免费放映评估人们看测试电视时候的反应,记录他们喜欢的历史、任务、情节等等,他们发现了观众喜欢参议员,喜欢喜剧,于是设计了一个四位参议员的情景喜剧——《阿尔法屋》,反响平平。
而泰德·萨兰德斯(Ted Sarandos)及他的Netfilx团队用了类似的方法,他们也发现了观众喜欢参议员,但是他们走了不同的风格路线,他们集合了更多的元素,做出了《纸牌屋》。
两家公司用了类似的方法,都用了几百万个数据点,结果到最后一个的效果很好,一个却不是很好。作为21世纪人,我们有200年的统计经验,有强大的数据和电脑,我们常常认为有了这些就可以得到正确的结论和决策。但更多时候,还需要专业的头脑和思考:
从这里我们可以看出,Netfilx不仅懂得利用大数据和统计学,而且懂得运用头脑。毕竟20分钟的电视,它不论好坏,都不会太影响到国计民生,但当我们将大数据和统计学运用到医疗、制药、法制建设等影响力更广大的方面,就不能太依赖和信任数据,还需要用更多的巧思和对概率本质的理解。
3、女士品茶
到此,我们再次回归到这本书的引子上,作为大家读此书前的热身预读。
20世纪20年代末一个夏日的午后,在英国剑桥,一群大学教员,他们的妻子及一些客人围坐在室外的一张桌子周围喝下午茶。剑桥的统计学家Ronald Fisher也在其中。
喝茶中,一位女士坚持称,将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。
Fisher开始设计实验来检验这个命题。如果给这位女士一杯茶,即使她无法判断出区别,她也有50%的机会猜对茶的种类。于是他们做了个实验,冲多杯配方一致的奶茶,只是先倒奶和先倒茶的顺序不同。当我们一直继续给她递茶,样品量达到24杯的时候:
①24杯茶的说服力有多少?我们是否应该相信她有分辨力呢?
假设24杯茶她凭靠猜对的概率是x,那么她有(1-x)的概率是凭借能力分辨而不是靠猜的。而这个概率(1-x)就是传说中的置信度。如果置信度有95%,则代表我们有95%的把握相信她真的能分辨一杯奶茶。
②如果在24杯中全答对了,我们可以说她具有判别能力,如果24杯中错了2杯呢?如果错了6杯呢?错多少杯为分界点的时候,才能说她具有判别能力?
假设这位女士不具有判别能力,Fisher可以通过显著性检验(概率P值)进行统计,如果P<0.01,说明是较强的判定结果,拒绝假设,说明这位女士具有判别能力;如果0.010.05,说明结果更倾向于接受假定的参数,说明这位女士不具有判别能力。
这个故事最早出现在Fisher发表于1935年的著作《the design of experiment》中被用来描述原假设(null hypothesis)。后来,Fisher大哥在1956年针对女士品茶又发表了《6 Mathematics of a Lady Tasting Tea》,继续讨论了随机试验的重要性,增加样本数量和重复实验会带来的益处,以及实验设计中为什么“茶”和“奶”的数量应该相等……
时隔半个世纪,遥望先驱者的思想,以及他们探索性的发现、认真的实验、严谨的探讨,让生活在统计学普遍日常世界的我,再看当前大小公司各种平台对“大数据”的“大”的盲目追捧,感触颇深。
不知,五十年后,现在大家干个啥都要拿来吹捧情怀的“大数据”,又会演变发展成什么状态?