前几年曾在面试时遇到一个统计学的毕业生。据他说,每一场面试中他都需要向面试官们解释统计学是什么,可即便如此还是有很多面试官认定他学的是数学,提出一堆高等数学的问题来考他。当他打不出来的时候自然就会被扣上个“学渣”的帽子。
说起来很多人分不清统计学和数学的区别也算是情有可原的,统计学本身也就是20世纪才发展起来的新学科,而且统计学中使用的很多计算涉及高等数学。对于没有接受过专业学习的普通人来说要分辨其中的不同还是有难度的。
戴维·萨尔斯伯格的这本《女士品茶》通过对统计学界大师们的介绍串起了统计学的发展历程,书里虽然没有高深莫测的数学公式,但真读起来也不是那么轻松的。
与其他任何一门科学一样,统计学起源于生活。下午茶时一名女士提出将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。听到这话的人们大多认为是这位女士的偏见,只有费希尔教授认真思索了这个问题,并尝试通过实验进行验证。
听起来只要做实验是件挺简单的事儿,可难就难在实验如何设计。这应该是每一个统计学家面临的难题。统计学的研究是建立在对数据的搜索、整理和分析之上的,使用哪些数据舍弃哪些数据,这些数据如何采集,需要考虑哪些变量和因素。对这些问题的不同回答都将引导出不同甚至完全相反的结果。
做过实验的人都会知道,每一次实验得到的结果并不必然相同。因为每一次实验涉及的不可控变量有很多。而统计学家们只能对实验得到的数据进行分析进而制造出统计模型。而当我们将统计模型用于剖析现实预测未来时则迎来了统计学中最重要的一个难题——统计模型可以用于制定决策吗?
戴维选择了“吸烟会致癌吗”这个大众很熟悉的论断来解释统计学面对的难题。医学界实验研究表明吸烟会导致癌症,这激怒了大烟民费希尔。不巧的是,费希尔是统计学界的天才,他不仅怀疑研究人员删减或改动了实验数据,而且还质疑实验使用的实质蕴涵不足以描述大多数科学结论。
医学研究人员使用的实质蕴涵是由哲学家罗素提出的。罗素早在20世纪30年代就已经证明常见的“原因与结果”观念是一种不自洽的思想。这个世界上并不存在什么原因与结果。原因与结果是大众的幻想,它是一种模糊的观念,经不起严格的理论推敲。罗素提出我们可以使用符号逻辑中一种明确定义的概念代替因果关系,这就是“实质蕴涵”。
费希尔认为吸烟与癌症的因果证明过程中需要使用的并不是实质蕴涵,而应该使用对实验对象进行随机处理的实验方法。而另一位统计学大家康菲尔德则认为,有些事情不允许你进行随机实验的设计,证据的积累也可以用于证明结论。
费希尔与罗素的分歧在于,统计学是概率体系,有些命题很可能为真,或者几乎为真。而在逻辑世界中,一个命题要么为真要么为假,两者之间存在清晰的界限。科恩提出的“彩票悖论”更能直接显示出,根据概率观点制定的决策并不是符合逻辑的决策。
20世纪统计学几乎在所有学科中击败了决定论。在21世纪,统计学会不会步决定论的后尘呢?让我们拭目以待!