What are the most important statistical ideas of the past 50 years?

paper

1. The most important statistical ideas of the past 50 years

在过去的半个世纪里发生了很多事情!下面回顾的八种观点代表了基于我们的经验和阅读文献的分类,并没有按时间顺序或重要性排序。它们是不同的概念,反映了统计学中不同的有用和一般的发展。目前的审查旨在涵盖这一领域,它不仅受到我们自身经验的影响,而且受到与他人讨论的影响;尽管如此,我们承认任何简短的概述都是不完整的,我们欢迎从其他角度进行进一步的讨论。
这些观点在1970年前都有先例,无论是在理论统计文献中还是在各种应用领域的实践中。但在过去的50年里,每一个国家都有了足够的发展,足以成为一种新的东西。

1.1. Counterfactual causal inference

我们开始和一群不同的想法出现在统计,计量经济学,psychomet——皇家特许测量师学会、流行病学、和计算机科学,所有围绕因果推论的挑战,和所有在某种程度上弥合差距,一方面,天真observa一对推论因果关系解释,另一方面,认识到相关性并不意味着因果关系。关键思想是,在假设条件下,因果识别是可能的,人们可以严格地陈述这些假设,并通过设计和分析,以各种方式解决它们。关于如何将因果模型应用于真实数据的细节仍有争论,但在过去50年里,这一领域的工作使得因果推理所需的假设更加精确,这反过来又促进了这些问题的统计方法的工作。
不同的领域发展了不同的因果推理方法。计量经济学关注的是结构模型及其对平均治疗效果的影响(Im- bens和Angrist, 1994),流行病学关注的是观察数据的推断
(格陵兰和罗宾斯,1986年),心理学家已经意识到相互作用和不同的治疗效果的重要性(Cronbach, 1975年),在统计中,已经有配对和其他方法的工作,以调整和衡量治疗组和对照组之间的差异(罗森鲍姆和鲁宾,1983)。在所有这些工作中,都有一个共同的线索,即根据反事实或潜在的结果来建模因果问题,这比先前的标准方法迈出了一大步,后者没有明确区分描述性推理和因果推理。关键的发展包括Neyman (1923), Welch (1937), Rubin(1974)和Haavelmo (1943);参考Heckman and Pinto(2015)和VanderWeele(2015)的最新评论。
上述方法的目的是定义和估计某些特定治疗或暴露的影响,并对失衡、选择和测量误差引起的偏差进行调整。另一个重要的研究领域是因果发现,其目标不是估计特定的治疗效果,而是了解几个变量之间的因果关系。使用通径分析方法的这种想法由来已久,从遗传学(Wright, 1923)、经济学(Wold, 1954)和社会学(Duncan, 1975)等各个应用领域的研究人员;正如Wermouth(1980)所讨论的,这些可以用联立方程模型来表示。最近在这一领域有影响力的工作与图形模型的概率思想有关(Spirtes, Glymour, and Scheines, 1993, Heckerman, Geiger, and Chickering, 1995, Peters, Janzing, and Schölkopf, 2017)。因果识别是认知的中心任务,因此应该是一个可以用数学形式表示的可计算问题,这一观点与心理学和计算机科学产生了重要的联系(Pearl, 2009)。路径分析和因果发现可以根据潜在的结果来构建,反之亦然(Morgan and Winship, 2014)。然而,反事实推理和因果结构的思想和方法已经在统计和计算机科学以及应用研究和政策分析中产生了影响。

1.2. Bootstrapping and simulation-based inference

过去50年的一个统计趋势是用计算取代数学分析,这一趋势甚至在“大数据”分析出现之前就开始了。也许计算定义的统计方法的最纯粹的例子是bootstrap,在bootstrap中,一些估计器被定义并应用于一组随机重采样数据集(Efron, 1979, Efron和Tibshirani, 1993)。其思想是将估计视为数据的近似充分统计量,并将bootstrap分布视为数据的抽样分布的近似。在概念层面上,有一种呼吁,认为预测和重新采样作为基本原则,从中可以得出偏差修正和收缩等统计操作
(盖斯,1975)。
前件包括折刀验证和交叉验证(quouille, 1949, Tukey, 1958, Stone,
1974, Geisser, 1975),但bootstrap的想法有一些特别有影响力的东西,因为它的通用性和简单的计算实现允许它立即应用于传统解析近似失败的各种应用;例如Felsenstein(1985)。充足的计算资源的可用性也有帮助,因为对许多重新采样的数据集重复推断变得很简单。
计算资源的增加使得其他相关的重采样和基于仿真的方法也很流行。在排列测试中,通过随机变换目标值,打破预测器和目标之间的(可能的)依赖关系,生成重采样数据集。参数引导、先验和后验预测检查(Box, 1980, Rubin, 1984)和基于模拟的校准都可以从模型中创建复制数据集,而不是直接从数据中重新采样。在分析复杂的模型或算法时,从已知的数据生成机制中采样通常用于创建仿真实验,以补充或取代数学理论。

1.3. Overparameterized models and regularization
自20世纪70年代以来,统计学的一个主要变化,来自于许多不同的方向,是用大量的参数(有时参数比数据点更多)拟合一个模型的想法,使用一些正则化程序来得到稳定的估计和良好的预测。其思想是获得非参数或高度参数化方法的灵活性,同时避免过拟合问题。正则化可以作为参数或预测曲线上的惩罚函数来实现(Good和Gaskins, 1971)。
早期参数化模型的例子包括马尔可夫随机场(Besag, 1974)、样条曲线(Wahba和Wold, 1975, Wahba, 1978)和高斯过程(O’hagan, 1978),然后是分类和回归树(Breiman等人,1984)、神经网络(Werbos, 1981, Rumel- hart, Hinton,和Williams, 1987, Buntine和Weigend, 1991,MacKay, 1992, Neal, 1996),小波收缩(Donoho和Johnstone, 1994),套索,马蹄铁,和其他替代最小二乘
(Dempster, Schatzoff, and Wermuth, 1977, Tibshirani, 1996, Carvalho, Polson, and Scott, 2010),支持向量机(Cortes and Vapnik, 1995)和相关理论(Vapnik, 1998)。
20世纪70年代也见证了无限维概率模型族贝叶斯非参数先验的发展(Müller和Mitra, 2013),如Dirichlet过程(Ferguson, 1973),中国餐馆过程(Aldous, 1985), Polya树(Lavine, 1992, Mauldin等,1992)和Pitman和Yor(1997)过程,所有这些模型的特点是随着样本量的增加而扩大,其参数并不总是有一个直接的解释,而是一个更大的预测系统的一部分。在贝叶斯方法中,先验可以首先考虑在一个函数空间,与相应的先验
然后间接地导出模型参数。
在足够的计算资源变得容易之前,这些模型的使用是有限的
可用。过度参数化模型在图像识别(Wu et al., 2004)和深度神经网络(Bengio, LeCun, and Hinton, 2015, Schmidhuber, 2015)中不断发展。Hastie, Tibshirani和Wainwright(2015)已经将这些工作的大部分框架化为稀疏结构的估计,但我们认为正则化更为普遍,因为它也允许稠密模型在数据支持的范围内进行拟合。
随着统计方法的普及及其在更大数据集上的应用,研究人员开发了用于调整、调整和结合多种拟合推断的方法,包括叠加(Wolpert, 1992)、贝叶斯模型平均(Hoeting等人,1999)、推进
(Freund and Schapire, 1997)和梯度推进(Friedman, 2001)。这些进步伴随着另一种观点,即统计学的基础是基于预测而不是建模(Breiman, 2001)。

1.4. Bayesian multilevel models

多层或分层模型的参数因组而异,允许模型适应于整群抽样、纵向研究、时间序列横断面数据、元分析和其他结构化设置。在回归上下文中,一个多层模型可以被看作是一个特殊的参数化协方差结构或作为一个概率分布,其中参数的数量与数据成比例地增加。
多层模型可以看作是贝叶斯模型,因为它们包含未知潜在特征或变化参数的概率分布。相反,贝叶斯模型具有多层结构,对于给定参数的数据和给定超参数的参数具有分布。
局部和一般信息的部分池化的想法是固有的,从噪声数据的预测数学,因此,可以追溯到拉普拉斯和高斯,并隐含在

高尔顿的想法。部分汇集被用于特定的应用领域,如动物育种(Henderson et al., 1959), Stein(1955)和James and Stein(1960)的工作最终从理论上推动了它对统计估计问题中多样性的一般相关性
从心理学(Novick et al., 1972)到药理学(Sheiner, Rosenberg, and Melmon, 1972),再到抽样调查(Fay and Herriot, 1979)等领域的鼓舞人心的工作。Lindley和Smith(1972)和Lindley和Novick(1981)提供了一个基于多元正态分布超参数估计的数学结构,Efron和Morris(1971, 1972)提供了相应的决策理论证明,然后这些想法被合并到回归建模中,并应用于结构化数据的广泛问题(例如,Liang和Zeger, 1986年,Lax和Phillips, 2012年)。从一个不同的方向,多变量参数的收缩已经给出了一个信息论的证明(Donoho, 1995)。比起将多层建模视为一个特定的统计模型或计算过程,我们更愿意将其视为一个框架,用于组合不同的信息来源,因此,每当我们希望从数据子集(小面积估计)作出推论或将数据概括为新问题(元分析)时,它就会出现。类似地,贝叶斯推理不仅是一种将先验信息与数据结合的方法,也是一种解释不确定性的方法推理和决策。

1.5. Generic computation algorithms

我们所讨论的建模方面的进展,只是由于现代计算机的发展才成为可能。但这不仅仅是更大的内存、更快的cpu、高效的矩阵计算、用户友好的语言和其他计算创新。一个关键因素是高效计算的统计算法的进步。
过去五十年中创新的统计算法在统计问题结构的背景下被激发和发展的意义上是统计的。EM算法(Dempster, Laird, and Rubin, 1977,孟and van Dyk, 1997), Gibbs sampler (german and german,
1984, Gelfand and Smith, 1990)、粒子滤波器(Kitagawa, 1993, Gordon等人,1993,Del Moral, 1996)、变分推断(Jordan等人,1999)和期望传播(Minka, 2001, Heskes等人,2005)以不同的方式利用了统计模型的条件独立结构。Metropolis算法(Hastings, 1970)和混合或hamilton蒙特卡罗(Duane et al.,这些方法最初是为了计算物理中的高维概率分布而开发的,但它们已经适应于统计计算,就像最优化算法在早期被用于计算最小二乘和最大值一样可能性的估计。调用的方法近似贝叶斯算法,后推断得到的模拟生成模型评估似然函数,而是可以有用的分析形式可能是棘手的或者非常昂贵的计算(1984年鲁宾,Tavaŕe et al ., 1997年,马林et al ., 2012)。Martin, Frazier和Robert(2020)回顾了贝叶斯统计中计算方法的历史。
纵观统计的历史,数据分析、概率建模和计算方面的进步一直相伴而生,新的模型激发了创新的计算算法,新的计算技术为更复杂的模型和新的推理思想打开了大门,正如我们在高维正则化、多级建模和bootstrap中已经提到的那样。通用自动推理算法允许解耦模型的开发,以便更改模型不需要更改算法实现。

1.6. Adaptive decision analysis

从20世纪40年代到60年代,通过效用最大化(Wald, 1949年,Savage, 1954年)、错误率控制(Tukey, 1953年,Scheff́e, 1959年)和实证贝叶斯分析(Robbins, 1959年,1964年),决策理论经常被视为统计学的基础,最近几十年,随着这项工作的开展,有了新的发展。在贝叶斯决策理论(Berger, 1985)和错误发现率分析(Benjamini和Hochberg, 1995)。决策理论也受到外部心理学研究对人类决策中的启发式和偏差的影响(Kahneman, Slovic, and Tversky, 1982, Gigerenzer and Todd, 1999)。
人们也可以把决策看作是统计应用的一个领域。统计决策分析的一些重要发展包括贝叶斯优化(Mockus, 1974, 2012, Shariari等人,2015)和强化学习(Sutton和Barto, 2018),这与工业中a /B测试的实验设计复兴和许多工程应用中的在线学习有关。近年来,随着计算技术的发展,人们可以使用高斯过程和神经网络等参数化模型作为自适应决策分析的先验函数,并可以执行大规模的强化学习,例如创建人工智能来控制机器人、生成文本、玩像围棋这样的游戏(Silver等,2017)。
这些工作大多是在统计之外完成的,采用了非负矩阵分解(Paatero和Tapper, 1994)、非线性降维(Lee和Verleysen, 2007)、生成对抗网络(Goodfellow等人,2014)和自动编码器(Goodfellow, Bengio和Courville, 2016)等方法:这些都是寻找结构和分解的无监督学习方法。

1.7. Robust inference

健壮性的概念是现代统计学的核心,它是关于我们可以使用模型即使它们有不正确的假设。统计理论的一个重要组成部分是,在违反这些假设的现实情况下,开发出运行良好的模型。Tukey(1960)合成了这方面的早期工作;参见Stigler(2010)的历史回顾。在Huber(1972)和其他人的理论工作之后,研究人员发展出了在实践中有影响的稳健方法,特别是在经济学中,人们敏锐地意识到统计模型的缺陷。在经济理论中,有“似”分析和简化模型的概念,因此,计量经济学家对在一系列假设下运行良好的统计程序感兴趣是有道理的。例如,经济学和其他社会科学领域的应用研究人员广泛使用鲁棒标准误差(White, 1980)和部分识别(Manski, 1990)。
一般来说,鲁棒性的主要影响在统计研究发展的不是特定的方法,如此评价的统计程序在伯纳德和史密斯(1994)称之为M-open数据生成过程的世界不属于类的概率模型。格陵兰(2005)认为,研究人员应该明确地解释传统上不包括在统计模型中的错误来源。对于健壮性的关注与密集参数化模型相关,这是许多现代统计的特征,这对模型评估有更广泛的影响(Navarro, 2018)。模型错误说明的统计方法的鲁棒性与涉及模型检查和模型改进的工作流之间存在联系(Box, 1980)。

1.8. Exploratory data analysis

Looking forward

接下来会发生什么?我们同意Popper(1957)的观点,即人们不能预测所有未来的科学发展,但我们可能对当前的趋势将如何继续有一些想法,除了重要的工作将由应用驱动的一般观察。
最安全的打赌是,现有方法的组合将继续取得进展:因果推理与潜在结果的丰富模型,使用正则化进行估计;结构化数据的复杂模型,如随着时间发展的网络,多级模型的鲁棒推理;过度参数化模型的探索性数据分析(Mimno, Blei, and Engelhardt, 2015);针对不同计算问题的子集和机器学习元算法等等。此外,我们期望在结构化数据的实验设计和抽样方面取得进展。
我们也可以肯定地看到计算方面的进步。从一个方向看,大型和复杂的应用问题正在更快的计算机上得到解决,而我们似乎还没有达到计算算法的效率的理论极限。从另一个方向来看,快速计算的可用性允许应用研究人员进行常规的大型计算,这对统计学研究有直接影响。我们已经通过层次回归、主题模型、随机森林和深网看到了这一点,它们通过其普遍可用性改变了许多应用领域。
另一个成熟的开发领域是模型理解,有时被称为可解释机器学习(Murdoch等人,2019,Molnar, 2020)。这里的矛盾在于,理解一个复杂模型的最好方法往往是用一个更简单的模型来近似它,但接下来的问题是,这里真正传达的是什么?一个潜在有用的方法是计算推断对数据和模型参数扰动的敏感性(Giordano, Broderick, and Jordan, 2018),将鲁棒性和正则化的思想与在许多不同统计算法中使用的基于梯度的计算方法相结合。
统计学家面临的最大挑战和机遇是什么?应用中的三个相关趋势是大数据、混乱数据和复杂问题。在某种程度上,这些趋势是一致的:当使用来自更多来源的数据时,应该可以在从个性化医疗到推荐系统到机器人汽车等问题上做出更细粒度的推断和决策。
这是否意味着,随着样本量越来越大,统计推理将变得越来越不重要,以至于除了在一些专门的“小数据”应用中,纯预测推理的机器学习方法将取代统计的作用?我们预计,不,总是会有一个“最后一英里问题”,研究人员和决策者将始终关注不确定性和变化的统计问题。例如,机器学习方法可用于药物发现,和分层的微分方程模型可用于计量模型,但估计人群中功效时,我们认为没有办法避免人口统计样本的泛化问题,generaliz——荷兰国际集团(ing)治疗对照组,从观察到的数据归纳到潜在的兴趣结构。这向我们表明,未来50年一些最重要的统计研究将一方面在高维和非参数建模和计算的界面上,另一方面在因果推理和决策。
一个相关的问题是什么统计思想将发展到统计领域之外。在过去的20年里,深度学习与传统的统计理论一起取得了巨大的成功
似乎要努力赶上别人。我们能预测哪些新领域会出现,哪些统计学家应该了解?统计的大部分历史可以看作是外来思想的结合。事实上,作为一个领域,我们可以认为自己很幸运,过去50年的许多新观点,如因果推理、稳健性和探索性数据分析等,都是由统计研究人员开发的。我们这个领域的一个优势是它与应用的联系,应用统计学或数据科学现在经常是在科学和工程的应用领域中进行的,我们可以期待很多新的发展也来自于此,同样,统计学的早期发展来自于心理学和遗传学等应用领域。统计应该继续对来自其他领域的思想——一般的理论框架以及具体的模型和方法——持开放态度。
最后,考虑到几乎所有新的统计和数据科学的想法在计算上都很昂贵,我们展望了未来关于验证推理的研究

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容