今天参加了数据科学大会的会议。觉得有几个方向后面需要进一步关注研究一下。
1)腾讯竟然有一个ab实验科学部门,如果ab这件事事情在点评ba这边不是他们工作范畴的一个工作,我们可否成立一个实验探索分析,归因分析方向的专题。做积累,以后也可以为以后进一步做产品化做沉淀。
2)实验分析不仅仅是ab实验,还有在没有ab实验的情况下也可以做实验分析。另外ab实验还是有很多分析的小细节需要进一步梳理的。
比如一个实验策略,既要考虑短期收益,也要考虑长期收益,还要考虑在哪些用户群里中效果最显著;
比如,实验单元与分析单元要保持一致。在退出1分钟后触发热启动闪屏,实验5分钟触发热启动善平的实验中,哪些5分钟后或者1分钟内触发热启动的分析样本其实是没什么意义的,实验对他们也没有什么影响,这部分数据需要刨除后才能做统计。实验下发人群不等于真正策略有效人群。
比如,策略溢出问题,在红包提现活动是否增加用户后续时长收益的实验中,因为红包活动本身具有分享机制,所有即使没在实验组的用户,也可能被分享发送了红包,这些用户的数据也需要刨除才能分析,或者在一开始就通过社区关系,做用户切分。;
比如,需要做整体指标链路的拆解做分析,一个直接作用于热点内容提权的实验,虽然实验的结果是大盘人均总消费金额涨了,但是与你直接有关系的热点内容ctr没有涨,那根本不能说明你的实验有效果,因为是其他因素带来的。
比如人群异质性效果探查,找到策略未触达的人群
3)归因分析是一个已经开始流行的科学分析方向,里面用到的方法论非常多。
整体的分析框架下需要进一步了解力量知识:uplift模型,双重差分模型。
4)重新理解了不同层级对数据的要求,其实决策层对数据的依赖度是比较少的,因为数据代表的是过去的情况,而决策者需要依据未来的可能性来决策。数据更多的是被管理层,执行层使用,而数据产品更多是被执行层使用。这个要调整自己以前的错误认知。
管理层拆解战略目标,需要ba给出更多的路径拆解思路。而执行层是基于拆解思路做执行,每个动作都要可量化,可分析原因。最依赖数据。
5)关于数据团队的工作,从四象限做了切分。
6)分析方面:
采用生存分析来刻画用户的活跃度,替代原有的统计量,更考虑是时间维度因素;
基于用户使用路径的聚类方法(n-gram,acttion to vector)