内容简介:
《20世纪统计怎样变革了科学:女士品茶》以某位喝茶的英国女士的假设学说为起点,引出了近代数理统计的开创者——费歇尔,以及费歇尔为解决类似问题而发明的实验设计法。书中细数了二十世纪参与这场科学变革的代表性人物与事迹。
作者简介:
萨尔斯伯格(David Salsburg)为辉瑞大药厂(Pfizer, Inc.)前资深统计研究员,目前担任私人顾问,且為美国统计学会(ASA)会员,并获「药品研究暨製造学会」颁赠终生成就奖。萨尔斯伯格是康乃狄克大学统计学博士,先后任教於哈佛公共卫生学院、康乃狄克学院、康乃狄克大学、宾州大学、罗德岛学院及三一学院(Trinity College);著有《The Use of Restricted Significance Tests in Clinical Trials》等专门书籍,及超过50篇科学论文。
精彩书评:
壹:
有一天我要给客户介绍微博的各个推广位,右边及底部的广告位一直跳出我昨晚搜索过的蕾丝内衣。性感的肉体不停的闪现。给客户介绍的那几分钟是我为数不多的人生尴尬之一。
后来我知道这是网页的抓取功能,有专业的名称——“爬虫”。只要你在淘宝或者别的网页搜索过特定名词,不管你打开什么网页,广告位总是你刚搜索完的物种。这是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,搜索引擎优化很大程度上就是针对爬虫而做出的优化。
以上,可以俗称大数据统计。
我曾经服务过的一家公司是“海关数据”的整合公司,用海关编码可以查询到这款产品的进出口数据,包括中国的每年的出口数据,美国、俄罗斯、加拿大等各国的进口数据。通过中国的海关出口单据、海外的到港数据及各种提单进行完美整合的一款产品。这有什么用呢?举个例子,你是生产毛绒玩具的生产商,通过毛绒玩具的HS编码,你会在平台上找到这款产品在之前的5-10年每年的出口数量是多少,进口国最大的国家是哪一国。进口这些产品的商家是什么公司,运气好的可以找到这些进口商的联系方式。进出口知识丰富的可以通过一张提单的数据反推出一款产品的成交价格是多少,这家企业一年的进口数量是多少。接下来,针对这个企业的报价单就可以完美呈现自己生产的毛绒玩具有多符合这个客户的需求。《货币战争》早就告诉我们提前知道一些数据对自己有多管用。通过数据统计分析得出自己想要的信息,这就是大数据的魅力。
我可以再举个例子,购买过这款产品的有一个客户,他们是几个开外贸公司的年轻人,购买了一款产品的海关数据,涵盖该产品的各国概况、准入标准、各国政策、以及10年内产品的进出口数据。经过一段时间的潜心研究后,他们发现了在某洲的一个地区led灯的进出口数量都为零。但是这个地方的周边地区都已经在大量采购led灯泡了。他们直接买了机票飞到该国,实地考察当地市场,一家一家商超及经销商的去洽谈led灯泡的销售。一年后,他们收获了这个地区的2000万订单。
有些人可能觉得统计没有这么强大的能力。那么说个最简单的,一家餐厅刚开始营业,并不能确定自己每天的销售数量,但是第二天,店主可以通过第一天的销售大致预估准备第二天的食材,第三天可以通过前几天的销售准备当天的食材,一个月之后是不是可以通过数据统计分析得出餐厅下个月的备货数量了?这就是统计学啊!
一家超市卖薯片。他想知道哪个口味的薯片卖得最好,那么最好的办法就是整理自己的出库小票。用一个月、一年、三年的数据来得到最接近事实的数据。同理也可用于薯片生产商。
现在做电商,各大平台都会提供相应的数据分析,可以让你看到你想销售的产品在该平台一年有多少销量、你设定的关键词有多少搜索量、这款产品主要分布在哪些区域、价格区间是多少,购买对象集中在哪个区域,什么年龄段。这似乎已经成为了做好电商的必备工具。这就是大数据分析。
虽然我们现在把大数据、统计、分析说的很神奇,但是这其实始于20世纪20年代的一位女士,她提出将茶倒进牛奶与将牛奶倒进茶中所产生的味道不一样。罗纳德.艾尔默.费希尔听到了这个说法,他决定用一组实验来验证这位女士的这句话。第一次统计分析便是记录在册的这次:提出论点——提出假设——进行实验验证。
数据统计、实验统计是怎样改变我们这个世界的运作和生活的呢?我还有很多例子可以举,但是要知道这段历史和其中的故事大家可以来阅读这本《女士品茶》,书本会告诉你统计学是如何变革来科学和生活。书中介绍一个新的概念时,穿插了大量的背景介绍,再辅以相关奇闻异事。就算你对概念一窍不通,但读完一个章节,你就能明白其中的特定概念。书里讲的故事,可比我前面讲的内容有趣多了。天天生活在大数据里,总得知道点什么吧!
比如:大家都知道“概率”的意思吧,但是在这本书里非常细致了讲了概率的出现,各种大拿提出的理论,以及最后“概率”的各种野史。
最后我想说句,我一直觉得能写这种书的人特别牛,不仅要博览群书、逻辑清晰,还要是个特别有耐性的人,唯有将读者都当成“弱智儿童”才可以将这些概念介绍得如此细致,如此不让你接着提问为什么。
贰:
这本书是我完整意义上读完的第一本英文著作。出国快一年了,之前也尝试过阅读一些英文小说,可是都很难完整的读完。因为都还是所谓的名著,于是我自然的将没有读完的原因归结为自己没有耐心,或者是英文还不够好。直到我那天在一个订阅的博客上看到这本书的书评,那段时间正好在频繁的使用统计方法来分析手头的数据,于是自然而然的对这本所谓的和统计有关的小说产生了兴趣,于是便借来一读。
实话实说,我大学时候统计学的很烂,于是造成今日不得不狂补各种统计学基础知识,实在是悔不该当初。诚然,阅读这本写给没有数学基础的读者的小说并不会对提高我的统计学能力,书中所讲的各种统计学理论和方法我虽大多都有耳闻,但是大多也只是耳闻罢了。书中的那些统计学家在作者的笔下像一个个武林高手,Pearson的固执,Gosset的低调,Fisher的天才,还有那许多我记不住名字的高手们,共同演绎了二十世纪这场绚丽多彩,又跌宕起伏的统计学革命。
书中我认为比较精彩的一段是写如何证明吸烟和肺癌之间的关系。许多统计学家和医学家经过研究,发现吸烟和肺癌的发生率之间存在关系,于是进而想要推导出吸烟会增加患肺癌的风险。听起来很合理,但是有人不同意,有个大烟民不同意,这个大烟民就是Fisher。Fisher对这些学者的研究进行了有力的反驳,相关关系并不等于就是因果关系,我自个儿吸烟几十年了,身体还是倍儿棒。这边厢各路医学家和统计学家人多势众,那边厢Fisher同志赤膊上阵,力敌穷雄,好不精彩!虽然最终无论是医学界还是公众都接受了吸烟会导致患肺癌风险增加这一事实,不过Fisher依然坚持自己的观点,照吸不误。
我认为这本书的最大的优点在于生动,将平常我们所接触的那些统计学方法生动写成了一个个有趣的故事。好处很明显,以后我再用到Student's T-test的时候,会自然而然的想起那个夹在Pearson和Fisher两位巨人之间,位置有些尴尬的Gosset,而对于所谓的显著性检验,我也会想起Fisher的观点,那就是如果没有随机化的实验设计,你无法从实验结果中证明任何事情。
很显然,我凌乱的记忆并不能保证我能写出一篇清晰流畅的书评,因此这本书有时间我还会再读一遍甚至买一本收藏的。很高兴这本书也有中文译本。我想说的是,别被什么“统计学如何革命了二十世纪的科学”这种名号给唬住了,其实这本书里一个数学符号,一个数学公式都没有,尽可以把它当做一本科普小说。
叁:
借来这本书半年了还只读了前两章,昨天和老师碰面说小论文他提起才在睡不着的半夜起来读。
书的第一章就是女士品茶试验,Fisher的实验启示:科学是从审慎的观察、思考和实验发展而来,从潜在实验结果的数据模型开始工作,从实验数据开始,计算与所考虑科学问题相应的结果。
观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
不管原始测量是否服从正态分布,“学生”的 t检验都有相同的分布。没有这一发现,统计分析注定要使用无限次的回归,这样继续下去,没有机会得到最终的结果。
前三章后没有细读,但都是我们目前使用的基本方法的基础,自由度;每本统计数都会出现的一致、无偏和有效三准则;至今仍在各种机器学习算法中出现的EM法;第八章致死的剂量没看懂,有兴趣的童鞋自己读下吧,据书中说是毒理学的主要基础;拟合优度检验和chaos结合在一起让我脑袋也混沌了;
P值、假设检验这是生物医学中最常用的统计方法,应该值得每个人尊敬。但我常常听到有些废物这么说:我现在文章也会写了,P也能弄到小于0.05了。研究来研究去,就为了个P,这对于我们国家来说应该是悲哀吧。
置信区间、贝叶斯估计、非参方法,再说下去就像shelton所说的:警告,严重剧透了。但仍忍不住说句intension to treatment,aka ITT,这种随机对照试验中的方法竟然也和前文那些伟大的名字列在一起,让我觉得自豪。(也不知道为啥自豪,又不是我发明的)。
这本书的好处是告诉你统计方法不是spss里面的冰冷按钮,他们是活生生的发现,你也许能从泛黄的可能是用羽毛笔写的收稿中获得你的灵感。统计也许不是工具,也许就是科学也许不是,谁知道呢?真正的发现就在分布函数中,你要做的就是找到他,可能大部分的人所能做的工作就是这样吧。当你不再是使用工具,而是发明工具,你就是下一个Fisher,可能你现在就在世界上某个角落努力呢。
需要这本电子书的朋友加 微Q同号:2802031363
公众号:pengdiary