初看这本书的标题《女士品茶》,不会想到是一本关于统计学的书,再看副标题——“20世纪统计怎样变革了科学”,就瞬间明白了,这实际上是一本介绍统计学发展史的入门书籍。
作者说:这本书的读者定位,是一些不懂或者略懂数学的人,所以选择了一些能用文字而不是用数学符号来解释的例子。
但从我个人阅读的感受来说,这本书不适合作为一本入门书,供不掌握基本统计学知识的人来读,而适合于对统计学面貌有了一个大致了解的人去读。
从这个意义上讲,我与一部分读者的观点一致,这本书的定位是失败的,可这本书本身是成功的。
如果将这本书比作“数理统计八卦史”,我觉得也是很贴切的,因为它是以现代统计学发展史上重要学者们的生平故事为主线,由一个个看似独立的人物小传构成的。
通过这些人物故事的串联,本书介绍了一系列重要的统计学思想,以及这些思想在人类社会中的各种应用。
为什么叫“女士品茶”呢?
书作者美国统计学家萨尔斯伯格妙用了一个统计史上著名的统计实验。
在英国的 Rothamsted 实验站,Fisher给一位名叫 Muriel Bristol 的女士倒了一杯茶,但是 Bristol 表示,自己更喜欢先将牛奶倒入杯中,再倒入茶。
这位女士号称能够分辨先倒茶和先倒牛奶的区别。作为实验设计的鼻祖,Fisher 当然想用实验检验一下:这位女士的味觉是否有这么敏锐?
Fisher 倒了 8 杯奶茶:其中 4 杯“先奶后茶”,其余 4 杯“先茶后奶”。随机打乱次序后,Fisher 请 Bristol 品尝,并选出“先奶后茶”的 4 杯,看她是否能分辨奶和茶的顺序。
在这本书中,Fisher讨论了这个试验的各种可能结果,他叙述了如何确定这样一些问题:
应该为那位女士奉上多少杯茶?
这些茶应该按什么样的顺序奉上?
对所奉各杯茶的顺序应该告诉那位女士多少信息?
这一系列问题也正是统计学中所要考虑的,貌似不相关的因素也可能会对实验产生很大影响。
依据那位女士判断的对错与否,Fisher搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
这就让人忍不住思考,如果最后的结果是Bristol女士成功分辨出了两种奶茶,那么这究竟是Bristol女士的高明还是小概率事件呢?
本书给我最大的震撼,就是用概率的观点来看待这个问题——“科学研究的对象不是观察到的事物,而是描述观测值概率的数学分布函数”。
曾经就听到这样一个关于概率的小故事:
20世纪初,法国数学家Emile Borel提出了一个让人觉得些许心寒的理论:猴子与打字机。即如果无数多的猴子在无数多的打字机上随机地打字,并持续无限久的时间,那么在某个时候,它们必然会打出莎士比亚的全部著作。
猴子与打字机的理论一出,立刻引发了强烈的反对风潮,当时的一位著名知识分子甚至给Emile Borel写信,用粗鄙的语言攻击他这一理论是对人类智慧的公开侮辱,要求他公开发表申明,说明猴子远逊于人类,而Emile Borel的回应只有短短的一句话:
“先生,你说的是规律,而我说的是概率,这是两码事。”
我认为Fisher对于“规律”和“概率”的认识就极具有远见。他用概率的观点去看待问题,这样就不会轻易给科学研究结论下因果判断,也不会轻易用因果关系去解读科学研究成果。
最后,戴维·萨尔斯伯格在《女士品茶》中指出,统计革命会被取代,他认为会有另外一种新发展起来的学科取代统计学,更好地为人类发展服务。
我不敢完全赞同这一观点。随着人们认知水平的提升和知识积累的增加,肯定会发展起来更优秀的学科,也许会取代统计学。
但是,我认为,这一天远未到来。原因如下:
第一,直到今天,现代统计学的发展历史也不过一百多年,这是一个非常年轻的学科,统计学中的很多问题尚未得到解决,现有的统计学理论框架远称不上“成熟”,统计学家们仍然是一个充满活力的群体。
第二,随着计算机的发展,统计学的应用范围大大扩展,统计学家的效率大大提高,统计学正在进入另一个高速发展时期。
第三,随着大数据时代的到来,对统计学的需求大幅增加,一则为把现有的统计学理论和方法加以应用提供了机会,二则为统计学家探索新理论、开发新方法提出了要求。
最后我们再回到“女士品茶”上来。
据说当时那位女士还真的判断对了所有给她品尝的奶茶。
如果我当时身在其中,我是否会因为有个人说了这样的话而感兴趣,还是会一笑了之?我能像Fisher一样通过这个小事反而构思出了随机和假设检验的思想吗?如果我要安排这样一个实验,我会怎么来安排呢,会考虑到随机给她品尝吗?会考虑到冲泡时间、混合时间等因素吗?
我想,“女士品茶”这个事让我明白了,统计学不是说会掌握一个软件,会计算一些结果,更重要的,是要有一个良好的统计学思维。