SQR——LinkedIn平衡实验速度、质量和风险的框架

背景

为了加速实验迭代,需要兼顾:速度、质量、风险,Linkin提出了SQR框架:SQR: Balancing Speed, Qality and Risk in Online Experiments。

1. SQR FRAMEWORK

1.1. 关于实验放量的三个误区

误区#1:让实验一直跑直到显著

  • 多重检验导致的假阳性问题;
  • 样本量随时间增加速度越来越慢。


误区#2: 小流量实验的消耗很低

长期的小流量实验消耗很大:

  • 机会消耗
    让创新变少变慢
  • 平台消耗
    运行实验数更多
  • 商业消耗
    命中用户长期处于较差体验导致流失

误区#3:10%流量就够了

许多实验都是面向用户子集,而且付费相关的指标需要更大量的用户

2.2. SQR原则

做实验的原因:定量测量、减少风险、学习用户

Maximun Power Ramp(MPR):最大power的放量

原则#1:风险可接受,尽快放量到MPR

风险影响因素:

  1. 先验信念
  2. 采样数据结果
  3. 转换率:实验影响的用户比率

原则#2:MPR阶段等待足够的时间

至少一周,存在burn-in效果时更久

原则#3:post-MPR阶段尽快结束

原则#4:仅在研究目标明确下才进行长期观察实验

2.放量推荐器

负责两项任务:1.指引ramps进入MPR阶段;2.发出加速MPR的信号。

2.1. MPR前放量

在风险可承受之内,尽快放量到MPR阶段。

2.1.1. 风险和可承受风险

将流量放至q的风险为(其实就是treatment对大盘影响的估计):
R(q) = |\delta| * g(r) * h(q)
其中:
\delta = \frac{treatment mean - control mean}{control mean}
是影响效果,
g(r) = \begin{cases} & r, r >= r_0 \\ & r_0, r < r_0 \end{cases}
是左截断的触发率,
h(r) = \begin{cases} & q, q >= q_0 \\ & q_0, q < q_0 \end{cases}
是左截断的放量比。

如果满足:
R(q) <= \tau
就认为风险是可承受的。
关于\tau的选择,不同指标选择不同(todo

2.1.2. 假设检验

Q = \{q_1, q_2, ...\}为可能的放量比,在linkedIn一般{1%, 5%, 10%, 25%, 50%}。

假设模板:
H_0^q : R(q) <= \tau \\ H_0^q : R(q) > \tau

2.1.3. 贯序检验

使用Generalized Sequential Probability Ratio Test (GSPRT),任意时刻t的检验统计量:
L_t(H_k^q) = \frac{\sup_{H^q_k}\pi_kf_{k}^{t}(X^t)}{\sum_{j=0}^1\sup_{H^q_j}\pi_jf_{j}^{t}(X^t)}, k=0,1
其中f_{k}^{t}是似然函数,X^t = (X^t_1,X^t_2,...)是t时刻用户级别的指标值,\pi_kH_k的先验概率。

在GSPRT下,H^q_k被接受的条件为:
L_t(H^q_k) > \frac{1}{1 + A_k}
由于后验概率L_t(H^q_0) + L_t(H^q_1) = 1,所以要选择0 < A_k < 1以保证最多有一个假设被接受。

基于大数定理和终极极限定理,组间均值差\Delta的分布近似正态,方程转化为(此处方法用的是贝叶斯):
L_t(H_k^q) = \frac{\sup_{H^q_k}\pi_kexp(-\frac{(\Delta - \delta)^2}{2s^2})}{\sum_{j=0}^1\sup_{H^q_j}\pi_jexp(-\frac{(\Delta - \delta)^2}{2s^2})}
其中s^2\Delta的方差,\delta来自假设模板。

H_0对应的A_0越高,越容易接受原假设,产生二类错误;
H_1对应的A_1越高,越容易拒绝原假设,产生一类错误。

linkedIn的选择:A_0 = 0.2, A_1 = 0.1

最终流程:
1). 如果任意环节q,L_t(H^q_1) > \frac{1}{1 + A_1},拒绝原假设,不能继续放量;
2). 如果某些环节,L_t(H^q_0) > \frac{1}{1 + A_0},接受原假设,放量到其中最大q阶段;
3). 其他情况,继续观察到t+1,根据L_(t+1)进行决策;
4). 如果直到t = 7都没满足条件,建议放量。

2.1.4. 多个指标情况

通过控制FDR来矫正多重检验问题,通过类似Benjamini-Hochberg方差来处理L_t(H_1^q)
1). 将M个指标结果L_t^{(1)}(H_1^q),\ L_t^{(2)}(H_1^q),\ L_t^{(3)}(H_1^q)...进行降序排列;
2). 按顺序进行比较:
L_t^{(m)}(H_1^q) > \frac{1}{1 + \frac{mA_1}{M}}
至少一个指标满足条件时,接受H_1^q

所以放量条件为:
1). H_1^q未被接受;
2). 主要指标都接受H_0^q

2.2. MPR阶段的放量

MPR之前主要关注规避风险,MPR阶段关注速度和决策质量。

2.2.1. MPR时长

至少一周的时间

2.2.2. 指标的影响

重要的指标:任意指标p小于0.05,就需要仔细研究;
其他指标:显著性为0.1,并控制错误发现率,如果负向显著就不建议放量到100%。

2.2.3. 其他发现的警告

如果有其他发现,比如burn-in效应、inconsistent results、heterogeneous treatment效应等。这些应该被自动计算,并给出更好、更全面的推荐方案。

2.3. 评估

分两方面评估:

  • 一致性
    理想情况下,t阶段放量结论,在t+1阶段依然符合;
  • 速度
    理想情况下,用更少的阶段、合计更短的时间,到达MPR。

LinkedIn收集了484个去年在MPR阶段满一周的实验。由于他们的放量各异,采用了50%流量阶段进行模拟,pre-MPR前取q\in \{1\%,5\%,10\%,25\%\}

5% ramp Day=1 vs Day-7

全阶段的模拟:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容