巧用A/B测试轻松五杀超神?瞬间让转化率提升200%

每一个运营大牛都是隐藏的五杀超神达人,可是你见过用A/B测试方法来实现转化率的五杀超神吗?标题开路,段子先行。切入正题前,先来一波A/B测试必备段子:

并非面试官机车,而是抓住了问题的本质:任何实验都要遵循一个基本原则即控制变量,A/B测试亦是如此。开发新功能与业绩提升之间会遇到各种外部因素影响(季节性、活动、广告流量等)。其实,大多数人没有真正弄懂 A/B测试究竟是什么。今天我们就以亚洲民俗共享平台 AsiaYo 为例来剖析 A/B 测试试验该怎么做,助你在转化率提升方面五杀超神!

一杀:试验假设

试验假设是 A/B测试方法的灵魂精神,降低外部因素干扰最有效的方法就是再A/B测试试验加上假设检验。不过,千万不要天真以为,改按钮颜色变成红橙黄绿蓝靛紫色,就是试验假设。实际上,好的试验假设,都是基于使用者行为与心理脉络发展而成;而不太理想的试验假设,往往是基于功能性的假设。

好的行为心理,通常是从观察真实使用者行为反应所诞生。

而行为心理假设,最主要好处有:

➤  行为心理假设通常可在各种平台或场景中重现并被不断重复利用,但功能性假设通常较难重制于各种情境;

➤  行为心理假设通常有故事性,能增强团队成员的认同感,但功能性会引起一堆论战;

➤  行为心理假设会让你有不断试错的勇气 (i.e., 失败也许是 UI 设计/流程的问题,而不是假设错了),而功能性假设你一失败可能再也不会尝试;

➤  行为心理假设在 UI/UI Flow 设计思考范围更宽广、影响力更大,但功能性假设只能就事论事,受限较多。

二杀:统计假设检验

谈完试验假设,接下来简单聊一下 A/B 测试与统计假设检验的渊源。从统计学来说,假设检验会设立虚无假设(H0) 与 对立假设(H1)

,而对立假设通常是你想要的结果,虚无假设则是相反结果。简单来说,统计假设检验简单来说是想办法”拒绝” 虚无假设来证实对立假设。

在无法普查所有使用者的状况下,需要透过统计与抽样来计算对立假设成立与否。但抽样的风险是,有可能发生弃真错误与取伪错误。

举个例子,以小明检测艾滋病来说,小明希望证明的当然是没有艾滋病(对立假设 H1)、而虚无假设(H0)则为有艾滋病。

➤  弃真错误:小明实际有艾滋病,但检测结果错误说他没艾滋病。

➤  取伪错误:小明实际没艾滋病,但检测结果错误说他有艾滋病。

弃真错误发生的机率( α )与取伪错误(β)发生机率是相对的,想缩小弃真错误机率,就会增加取伪错误机率;反之亦然。所以,决策时需要明确想要避免哪种错误风险,而唯一降低两种错误风险就是把样本数扩大(越接近普查越准确)。

ps.弃真错误发生的机率 = α , 1- α 即是常见的信心水平 (Confident Level),通常至少会抓 95% 为显著。

再回到主题 A/B 测试来说,基本上目标都是提升转化率(CVR)。所以我们想证明的对立假设应该是转化率有提升。在这种状况下,应该要降低哪种错误风险?

弃真错误:实际上转化率没优化,但错误解读为有优化。

取伪错误:实际上转化率有优化,但错误解读为无优化。

从 AsiaYo 用户产品团队角度来说,由于目标是优化转化率,我们想尽量避免型一错误(转化率没优化甚至变差,却推出给使用者)。也就是型一错误发生机率 (α) 越低越好(confindent level 越高越好)。

三杀:试验设计与资源分配

试验设计不外乎要注意:如何选择正确受试群、降低其他变因影响、设立明确目标等,但对大多数初创公司来说,更重要的是资源如何配置。除非你是工具型

App、或是往 10 -> 100 迈进的路途,绝大多数 1 -> 10 之类的初创公司(尤其是 transaction

model),样本数往往非常不够用。所以初创公司 A/B 测试常碰到最大的问题以及有限资源会是样本数,我们希望 Fail Early and

Often (越快失败 = 越快成功), 但受限于使用者人数大小,怎么估算样本数、试验要跑多久,是一件非常重要的事。

有效运用你超有限的资源,却又能快速试错验证假设是一门高深艺术,那如何决定每个试验所需样本数呢?计算所需样本数需要三个要素:

➤  原始转化率 (Baseline Conversion Rate)

➤  最小改善程度 (Minimum Detectable Effect, MDE)

➤  置信区间 (Confident Level, 1-α)

这时候问题来了,除了原始转化率外,要如何决定 MDE 以及 Confident Level?这时还需要考虑另外两个要素限制:

➤  平均试验失败机率:以 AsiaYo 过往经验来说,平均四次试验成功一次算中规中矩,也就是试验成功机率大约 25%。

➤  期望的平均试验运行周期:试验运行周期如能越短,失败就越快(成功也越快)

有了上述五种要素,我们可以得出下表(所有数字都被随机数调过,仅供参考)。透过以下表格可以决定在 「不同情境 + 有限资源」 下,应该设立多高的 confident level 以及 MDE,以利样本数、试验运行周期的估算。

四杀:试验分析

试验结果分析最常见的第一大雷不外乎是…

什么是连续性脉络?通常使用者的各种行为都有相关性,而A/B测试方法最忌只看单一步骤指标。

举例来说,如果是更改测试 订房 Call to Action

按钮文字,指针只看「按钮点击率」是否有显著提高,但没有同时观察「成交率」是否有提升。最常见的是第一步点击率提高,但最终成交率却是不变甚至降低了(原因是用巧妙手法去诱使使用者点击,但并没有真正满足使用者需求)。除了前面步骤的转化率,更要同步观测最终步骤的转化率变化

第二常见的大忌是…

没跑统计置信区间请别说过你做过 A/B 测试,请使用网络上提供的工具 A/B测试calculator (大多状况应该都是跑单尾置信区间)。

五杀:行动方案

最后一阶段就是试验结果揭晓!但后续行动要做什么?以下分享一些 AsiaYo 碰到的实际案例:

❶ 试验结果显著与不显著

试验假设:旅宿页面加强急迫感,会提醒使用者有订不到房的可能性与压力,进而提升转化率;

试验设计:挑选 Web user 做试验,试验组的 UI 设计新增:如房间只剩 < N 间房,我们会加上最后一/几间房的提醒;

试验结果:试验组 比 控制组 申请订房点击率没有显著差异- 下单转化率试验组好上 20% (confident level: 99%)

PC 版急迫感 UI

如果我们只单看订房按钮点击率,很有可能就会停止此试验,但在同步观察最终指标(下单转转化率)状况下,我们发现试验其实是成功的。

而在 Web 取得成功案例后,我们认为同样的心理行为脉络一样可以在 Mobile Web 重制,于是在 Mobile Web 设计了类似的第二个试验。

急迫感试验 on Mobile Web

出乎意料的,在 Mobile Web 试验结果并不显著。经过一番讨论,我们认为应该是在手机上此版试验 UI 并不够明显吸引使用者注意。于是我们再尝试了第二版 Mobile Web 试验,并设计了许多不同 UI 呈现方式。

4 种不同 UI 设计

这次的试验结果则是有两个试验组分别达到 95%、99% confident level,下单转化率相比控制组优化了 24%。(右上角的 UI 获胜!)

会有上述讨论,很重要的是原先假设是根据使用者的心理行为脉络、而非功能性假设。如果是功能性假设我们很有可能就会停止试验。

❷ 反向显著

并不是每一次A/B测试试验最终都导向预期假设,往往会证明原版本效果更加。在这里举一个极端的例子,我们曾设计了新版 Mobile Web

搜寻结果的 UI ,控制组是列表版、而试验组是大图版(我们认为房间图片增大,能看得更清楚会更吸引使用者并能辅助订房决策)。

结果试验结果大出我们意料之外,呈现反向显著(控制组显著地比试验组好)。后续成员们在探讨原因认为是使用者在手机上想要一次能浏览多间民宿,而大图版反而造成浏览困难。反向显著有时会是让你找到其他

insight 的好帮手!它能够帮助你洞见真实存在的用户需求,排除一些主观臆断的伪需求。

❸ 不显著但依旧 100% Release

试验结果,是一种决策依据,并不是决策本身。即使试验结果不显著,也存在最后决议 release 功能的情况。这个案例是原本单一旅宿的

Search Bar 在页面上方,而不是房间上方,我们认为这样造成日期搜索使用动很不方便,所以试验组设计将 Search Bar

下移至房间上方。

试验组 Search Bar 位置下移

验结果转化率并没有显著提升(目前我们的 MDE 最低为 15%),团队成员讨论后,找了约十多位内部受访者访谈、测试易用性,发现高达 9成受访者都觉得 Search Bar在房间上方使用上比较顺手,虽然没有显著提升转化率,但我们认为易用性是有提高的,于是最终我们决议依旧上线此版本。

以上都是初创公司在有限资源(样本数与时间)状况下的情境。如果你的使用者非常多,恭喜你不用受样本所苦,但也有其他注意要点:

☑  你选择的受试族群是否有偏误吗, 建议可以做 A/A 测试;

☑  如想要大幅降低 Type I Error ,除了降低样本数也可多重制几次相同试验、并小幅度增大受试族群;

☑  有些脉络可能是影响长期行为,要注意 lagging metrics;

☑  可以保留一些 holdback groups ,供未来检视;

☑  推荐阅读书籍 Designing with data;

任何方法都存在边界问题,A/B 测试也存在边界。虽然A/B测试有可能是目前人类所能掌握的最高级的科学工具,但是并不是所有场景都是做 A/B 测试,比如:

⚑  0 -> 1 阶段,还在求生存寻找 PMF 时,不用浪费时间 A/B测试,怎么活下去才是重点;

⚑  与既有 funnel 脱钩的新功能 / Flow ;

⚑  策略、战略方向必须要做的功能;

⚑  人家不依……就是要做这个功能

A/B 测试只是一个科学工具,但是如何用好A/B测试工具优化产品决策,却是一项需要不断精进的艺术,是一项需要不断尝试的科学探索。

(本文由吆喝科技 独家编译、整理,部分内容有删改)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容