关注小聚,数据分析不迷路
前段时间,某同学去字节面试产品运营,被问到:
你从后台数据发现抖音的手机号绑定率突然下降,你可以从哪些方面去分析原因?
问题本质上是问:
工作中,碰到产品xx数据指标异常波动,该如何着手分析呢?
每天打开数据监控看板,观察当日业务KPI的情况,已经是互联网人的日常工作内容之一,数据指标波动对于一个非稳定期的业务是常态。
波动分析的本质是通过统计和比较来表达波动背后的规律和问题。
业务的数据指标都具有固定的波动周期,而且每个周期内数据的变化应该趋于稳定,但在数据监控体系里的日报、周报、月报中某数据指标突然不再符合预期的稳定变化,这就是我们所说的数据出现异常波动。
关于数据异常波动应如何分析?小聚将围绕以下思路向大家介绍:
1.界定问题
作为数据分析师来说,接到问题,首先要做的事情便是对数据波动进行界定,如果问题没有界定清楚,后续的数据分析也就失去了价值。
需要解决以下疑问:
判断数据波动是否为异常(对比前后一段时间内的变化情况)
确定异常的范围(异常发生的维度,主要从时间维度看)
波动的程度(理论上有【3个西格玛】,实际中一般通过观察趋势图)
是否需要深入分析
注意:如果数据有明显的周期性和季节性,需去除相关因素之后再利用以上办法计算阈值。
一般排查步骤
波动特征分析:是否具有周期性,如果是周期性数据波动,那么需要检查:
——波动的幅度是否和先前差不多;
——波动发生的“人货场”是否和先前整体一致;
波动是突发性还是持续性:
——如果是业务操作变化或者外部事件,数据通常是突发波动,微博的舆论事件对应的转发量等;
——如果是持续的,说明有个暗坑(很早就有),也可能是业务本身有问题或者生命周期特殊阶段;
严重程度判断
波动幅度的大小,可以是百分比或者绝对量,△的阈值要依赖业务来决定,e.g.成功率波动0.2%以上可能就是比较严重的问题;
波动对比参照值,同比、环比、近N天等
2.归因分析
在界定问题之后,进行归因分析和影响度衡量,最终运用分析结果驱动业务决策。对于大部分已经产生的数据波动,大概可以从两个维度来分类:
•范围维度:包括自己的产品、竞对方面以及产品业务的大环境,这样分类的原因是因为相互竞争的产品都处于大的产品业务环境之中,任何一方的变动都会造成自家产品的数据变化;
•内容维度:包括产品、技术、用户和运营,这几个维度基本囊括了互联网产品的重要构成。日常波动大多数都是自己模块的原因所致。具体归因时,又可以从人货场的角度进行下钻:技术维度通常是数据准确性的问题,产品和运营维度影响场,用户因素拆解成买家、卖家和供给。
引发指标波动的外部因素:
外部原因通常是难以验证的,因为我们难以获取到竞手的数据,所谓的第三方报告也并不准确,如果竞对是上市公司,那可以查看披露的财报数据,但针对某一时刻或者时间段的波动,洞察竞对财报往往有些迟延。
引发指标波动的内部因素:
用户结构变化
建议做同期群分析,区分用户属性以及用户质量相关的指标下的分布情况来看用户结构的变化。
用户结构的动态变化通常可能由如下原因导致:
商品或服务调整
用户交易决策中的商品因素变化:价格、促销、便利性等;
商品供应:宽度(品类数)、深度(SKU数量是否充足);
商品结构或者服务发生变化,引入新品类、VIP服务涨价、权益变更等;
产品运营活动
毕竟产品运营活动的目的就是让数据指标发生变化,不过有时可能出现非期望的改变。
3.影响度衡量
在确定了影响因素之后,就是影响程度的衡量。如果影响指标单一,影响度就显而易见,但当多个因素同时作用,且业务没有进行ab实验时,各因素的影响程度就无法统一了。在具体业务中,通常会有行业、大促、节日、拉新、促活等各种因素交叉影响,且没有完全进行ab实验,这时候影响度口径的统一便比较困难。常用方法如下:
•控制变量法
此计算方法是选择多个时间维度,分别和某一个固定的日期进行对比,然后进行影响因素的叠加。以人均ipv为例,影响因素为活动pop、运营坑位和外投,假设日常的影响为0,以上因素皆是影响增量,然后求解方程组,得出各因素影响权重。
•坑位分析法
坑位分析法主要用于分析feeds上各坑位运营活动的影响。运用排除的原理,聚焦到运营坑的影响度,然后其他因素为1-影响度。以人均ipv为例:坑位人均ipv=坑位的曝光PV ×PCTR➗当日曝光UV=坑位的点击pv/当日曝光uv,坑位贡献率=坑位变化值/总变化值*100%。
•先验判断法
先验判断是依据之前活动的投放效果来评估的,将之前的影响效果作为此次活动的影响度。
•边际效果归因
如果策略对kpi有影响,加大或减小策略的力度能够看到观测指标发生相应变化。此方法的成本就是时间,通常长时间的加大或者减小力度来判断指标的增减,但注意要同期对比,避免周期性影响。
•双重差分法
采用构造一个“对照组”的思路,需要两个人群满足“共同趋势假设”的条件,即当受到外接影响时,策略人群和对照组有同样的变化趋势。策略人群受策略和其他因素影响:策略效果 = a1 – b1,对照组受其他因素影响:变化值=a2-b2,则策略效果=(a1 – b1)-(a2-b2),但缺点是要求“对照组”和实验组样本尽可能相似。
4.实际运用
那在这次面试具体案例中,该同学主要分以下几步回答了这个问题。
1
找外部客观原因
最近升级了版本,导致部分老版本用户数据没统计上来?
检查服务器异常情况。确定数据真实性。
2
确定是否正常波动
是否周期性波动?可通过时间对比,和1周前、1月前、1年前的数据对比。看1周前的数据,确定是否是周末/周间的数据影响。看1年前的数据,看是否是节假日的正常波动。
看最近是否一个舆论热点刚过去,导致数据恢复性下跌。若是周期性或节假活动结束后下跌一般不需特殊处理。
最近是否平台的活动刚结束,导致用户恢复性下跌。
3
分析数据,找到是哪部分用户的数据下降
是否渠道冻结问题。看渠道数据,是否是某部分的渠道数据下降,如果这样可能是渠道投放或运营侧出现问题。
对用户进行细分。对地域维度、年龄维度、性别维度等对比分析。找到是哪部分用户数据出现问题,再针对性地找原因。
4
看竞品、看行业找原因
看行业数据和竞品数据,看是否行业整体大盘下跌。看是否短视频app整体数据下滑,流量流到了微信读书/长视频/淘宝?
5
从功能迭代找产品侧问题
最近app是否有其他方面的产品功能迭代,导致短视频整体吸引力下降。可对比看app整体数据,是app整体数据都下降还是只有手机号绑定率下降,来分析问题。
看最近是否有登录相关的产品功能迭代。如登录侧不需新用户绑定手机可以微信直接登录?如增加了游客用户的使用权限等。找是否产品功能策略有问题。
最后完美通关~
5.小结
当发现数据异常时或者接到数据异常分析任务时,我们可以联系产品相关的信息,在范围维度(自身、竞对、大环境)和内容维度(产品、技术、用户、运营)结合给出合理的猜测,然后通过查看一些大环境变化数据或者细分的产品数据来验证我们的猜测。
遵照这个流程,一般能够找到数据异常的深层原因,当然,着需要花费大量的时间和足够的耐心,但它能够让我们更深更全面的了解自己负责的产品的相关信息,并为未来的产品决策提供指导。对我们自己,这也能加强数据敏感度,让我们能够发现更多机会和问题,形成一个良性循环,成为一个能玩转数据的产品经理。