做大数据时代的明白人

拿到此书时,我的内心是澎湃的——听说它是一本有着女士品茶典故的统计学书本;

读到此书时,我的内心是纠结的——原来它是一本是摆脱了晦涩数学符号的统计学发展史;

读完此书时,我的内心是平静的——在大数据时代,我作为数据样本的提供者和获益者,依旧不具备统计学头脑。

《女士品茶》译自《Lady Tasting Tea》,由戴维·萨尔斯伯格(David Salsburg)著。从每一章标题和内容的分节,我们可以感受到David有很努力地尝试将统计学先驱们的故事讲述得通俗易懂,使它成为一本摆脱了晦涩数学符号的书籍。


1、现实生活中,概率意味着什么

概率,简单地说,就是一件事发生的可能性的大小。而概率作为数学的一个重要部分,同样也发挥着重要的作用,如果能够掌握一些统计学知识,懂得概率的性质,在生活中也会受益匪浅。

举一个十分具体的例子:某公司推出如下促销活动:本公司为答谢广大顾客长期以来对本公司产品的支持和厚爱,特推出免费抽奖活动。

抽奖方式 :箱中有20个球,10个10分和10个5分,从箱子中摸出10个球,把各球的分数相加,按总分设置奖项如下:

一等奖:100 分,电脑一台

二等奖:50 分,电视一台

三等奖:95 分,MP3一个

四等奖:55 分,电饭煲一个

五等奖:90 分,XX 洗发水两瓶

六等奖:60 分,XX 洗发水一瓶

七等奖:85 分,毛巾 两条

八等奖:65 分,高级香皂一块

九等奖:80 分,牙膏一盒十等奖 : 70 分 , 牙刷一把

十一等奖 : 75 分 , 以成本价购买 XX 洗发水一瓶 。

大多数人都会认为抽奖结果共11个, 其中10个结果可免费获得奖品,中奖率为10/ 11≈90. 9% , 因而很容易受到诱惑。但如果你站在一旁观察就会发现中十一等奖的人较多,而且就算中其他免费奖项,也大都是一些价值较低的奖品。

那么问题究竟出在哪?

用概率的知识来分析 :

设随机摸出的10个球中10分的球有x个,则5分球的个数为10-x, 易知服从超几何分布, 即:



从这一结果可以看出,问题的关键在于每个奖项出现的概率不同,摸奖者中十一等奖的概率超过了1/ 3,而且价值越高的奖项被抽中的概率越低,特别是中两个大奖的概率只有十万分之一。因此,看似免费抽奖,实为商家推销产品,获取利润的手段(张芳. 日常生活中概率的应用[J]. 山西财经大学学报: 高等教育版, 2007 (S1).)。

对于个人而言,每个人都会凭借自觉判断各种结果出现的概率。概率作为一个普通又普遍的概念,除了抽奖,彩票、保险、巧合事件、股票、抽签等各种独立事件中,都涉及到概率。统计学方法也常被应用于天文学、生物学、社会学、流行病学、法律或者天气预报等观测性研究,只是不同的数学模型不会得出不同的结论,因此也常常引起争议。故,理解并掌握统计学方面的知识,能够帮助我们深入窥得在科学变革及生活应用中的基础内涵。

2、做大数据时代的明白人

那么,在21世纪的大数据时代,统计学以一种十分不明显的方式,紧密联系到我们日常生活的方方面面。在这个数据信息大爆炸的当下,乱花渐欲迷人眼,数据的手机已然不成问题,但如何把数据的效用最大化便成为当务之急。

热门美剧《纸牌屋》,相信大家都有所耳闻,它之所以如此走红,是背后团队(Netfilx)利用统计学方法深入分析,精准把握观众喜好。

在TED演讲集中,2015年有一集《如何利用大数据做出正确的判断》,介绍了这个事件的过程。原来罗伊·普莱斯(Roy·Pirce)和他的亚马逊的团队,通过竞赛的方式集合了各类题材的视频,免费放映评估人们看测试电视时候的反应,记录他们喜欢的历史、任务、情节等等,他们发现了观众喜欢参议员,喜欢喜剧,于是设计了一个四位参议员的情景喜剧——《阿尔法屋》,反响平平。

而泰德·萨兰德斯(Ted Sarandos)及他的Netfilx团队用了类似的方法,他们也发现了观众喜欢参议员,但是他们走了不同的风格路线,他们集合了更多的元素,做出了《纸牌屋》。

两家公司用了类似的方法,都用了几百万个数据点,结果到最后一个的效果很好,一个却不是很好。作为21世纪人,我们有200年的统计经验,有强大的数据和电脑,我们常常认为有了这些就可以得到正确的结论和决策。但更多时候,还需要专业的头脑和思考:


从这里我们可以看出,Netfilx不仅懂得利用大数据和统计学,而且懂得运用头脑。毕竟20分钟的电视,它不论好坏,都不会太影响到国计民生,但当我们将大数据和统计学运用到医疗、制药、法制建设等影响力更广大的方面,就不能太依赖和信任数据,还需要用更多的巧思和对概率本质的理解。

3、女士品茶

到此,我们再次回归到这本书的引子上,作为大家读此书前的热身预读。

20世纪20年代末一个夏日的午后,在英国剑桥,一群大学教员,他们的妻子及一些客人围坐在室外的一张桌子周围喝下午茶。剑桥的统计学家Ronald Fisher也在其中。

喝茶中,一位女士坚持称,将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。

Fisher开始设计实验来检验这个命题。如果给这位女士一杯茶,即使她无法判断出区别,她也有50%的机会猜对茶的种类。于是他们做了个实验,冲多杯配方一致的奶茶,只是先倒奶和先倒茶的顺序不同。当我们一直继续给她递茶,样品量达到24杯的时候:

①24杯茶的说服力有多少?我们是否应该相信她有分辨力呢?

假设24杯茶她凭靠猜对的概率是x,那么她有(1-x)的概率是凭借能力分辨而不是靠猜的。而这个概率(1-x)就是传说中的置信度。如果置信度有95%,则代表我们有95%的把握相信她真的能分辨一杯奶茶。

②如果在24杯中全答对了,我们可以说她具有判别能力,如果24杯中错了2杯呢?如果错了6杯呢?错多少杯为分界点的时候,才能说她具有判别能力?

假设这位女士不具有判别能力,Fisher可以通过显著性检验(概率P值)进行统计,如果P<0.01,说明是较强的判定结果,拒绝假设,说明这位女士具有判别能力;如果0.010.05,说明结果更倾向于接受假定的参数,说明这位女士不具有判别能力。

这个故事最早出现在Fisher发表于1935年的著作《the design of experiment》中被用来描述原假设(null hypothesis)。后来,Fisher大哥在1956年针对女士品茶又发表了《6 Mathematics of a Lady Tasting Tea》,继续讨论了随机试验的重要性,增加样本数量和重复实验会带来的益处,以及实验设计中为什么“茶”和“奶”的数量应该相等……


时隔半个世纪,遥望先驱者的思想,以及他们探索性的发现、认真的实验、严谨的探讨,让生活在统计学普遍日常世界的我,再看当前大小公司各种平台对“大数据”的“大”的盲目追捧,感触颇深。

不知,五十年后,现在大家干个啥都要拿来吹捧情怀的“大数据”,又会演变发展成什么状态?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容