Trustworthy Online Controlled Experiments Part 1 Chap 4
过程
一个企业在经历从“爬” 到 “飞” 的过程中, 培训和企业文化的建立对最终的结果非常重要。 培训使得每个原员工都能了解如何设计,执行和解读对照实验。 基于对照实验的企业文化可以激励人们创新, 为惊喜的失败而庆祝以及让人们保持持续学习。注意,这是一项持续的挑战,在2019年举行的一个由13家企业参加的一个峰会上,参会企业表示建立一个鼓励实验和创新的流程和文化是一个持续性的挑战。
对于教育而言,在实验设计和实验分析过程中建立即时流程可以真正提升组织的水平。让我们考虑一个来自Google的示例:当从事搜索工作的实验人员想要进行实验时,他们必须填写一份经过专家审查的清单。该清单包括一些基本问题,例如“假设是什么?”和“关心的变化有多大?”并一直进行到功率分析问题。因为试图教大家进行正确的功率分析(Power Analysis)是不现实的,所以清单上可以放一个功率计算器的链接, 从而保证相关实验有足够的功率。一旦组织达到了一定的级别,那么就不再需要这样一个明确的清单。
通常,实验人员只需要在前几次实验时,严格按照清单来执行。在以后的每个实验中,它们都变得更快,更独立。实验人员越有经验,他们就越能向队友解释概念,并随着时间的推移成为专家审阅者。也就是说,即使是经验丰富的实验人员,通常也需要帮助来进行需要独特设计或新指标的实验。 LinkedIn和Microsoft(Google,虽然不是定期的)都开设课程,以使员工了解实验性的概念(Kohavi,Crook和Longbotham,2009年)。随着文化的发展,随着时间的推移,人们越来越接受实验,因此课程变得越来越受欢迎。
类似于实验设计时的清单,定期进行分析结果的实验审查会议可提供类似的即时教育收益。在这些会议中,专家首先检查结果,以确保可信赖性(通常会发现实验工具的问题,尤其是对于初次实验的人),然后再进行有益的讨论,以提出实验者可以向其领导提出的启动/不启动的建议。这些讨论拓宽了对目标,护栏,质量和调试指标的理解(请参见第6章),并且开发人员更有可能在开发生命周期中预料到这些问题。这些讨论还建立了度量权衡,可以在OEC中进行编码和捕获(请参阅第7章)。这些实验评论也是讨论失败的实验并从中学习的地方:许多高风险/高回报的想法在第一次迭代中就不会成功,从失败中学习,以及决定何时继续前进(请参阅第1章),对于将这些想法成功培育所需的改进也至关重要。
随着时间的流逝,专家们会看到变化的模式,例如查看实验的影响如何与类似的先前实验相关联,以及如何在荟萃分析(请参见第8章)中进一步检查这种变化,从而可以改善用户体验,并更新关键指标定义。我们在这个实验分析评论论坛上注意到的另一个意外但积极的结果是,它在一次会议中将不同的团队召集在一起,以便他们可以互相学习。请注意,我们已经注意到,团队确实需要使用相同的产品并共享相同的度量标准和OEC,以便有足够的共享学习环境。如果团队过于多样化,或者工具的成熟度不足,那么这次会议可能会徒劳无功。我们猜测这种类型的审查在Walk后期或Run的成熟阶段开始有效。
通过平台或过程,我们可以广泛地分享实验的学习成果,无论是观察许多实验的专家的元学习还是从单个实验中获得的知识。这可以通过定期的新闻通讯,Twitter提要,精选的主页,与实验平台相连的“社交网络”来鼓励讨论(在Booking.com上进行)或其他渠道来实现。机构记忆(请参阅第8章)在Fly阶段变得越来越有用。
把许多指标都计算出来,同时确保重要指标(例如OEC,护栏和其他相关指标)在实验仪表板上高度可见,以便团队在共享结果时不会隐藏不好的指标。
发送有关令人惊讶的结果(失败和成功)的新闻通讯或电子邮件,内容可以包括:对许多先前的实验进行元分析以建立直觉,团队如何结合实验等等(请参阅第8章)。目的是强调学习,建立持续从实验中学习的文化。
如果一些改动可能会有严重的负面影响, 那么针对它们的实验就需要设立严格的标准。警告从到实验者,到通知那些关心那些指标的人,甚至可能潜在地阻止启动(最后一个选项有些极端,可能引发争议, 因此企业需要有基于实验的文化,有争议的决定可以公开讨论)。
拥抱从失败的想法中学习。大多数想法都会失败,因此关键是要从失败中吸取教训,以改进后续的实验。