2018/1/3
数据分析引言
确定问题
问CEO的问题:
- 对这款产品的定位
- CEO对目标客户的了解有多少
- 公司目前相关产品的销售情况
- 打算投入多少(应该问的更加具体,比如在各种营销手段上的预算)
- 公司长远规划
分解问题
- 大问题分解为小问题
- 数据分解为小组块(高效的对比)
客户观点:
- 销量回到目标
- 消费者是十岁出头的少女(11-15)
- 消费者有消费能力
- 竞争对手的保湿霜总收入高50%-100%
- 总预算是第一个月的20%,用在广告和社交网络两部分
我对数据的想法:
- 总销量9到10月有上升
- 总销量10-11月下降,之后上升缓慢,与目标销量相差巨大
- 广告费所占比重不断减少
- 社交网络费用不但增加
- 后面3个月单价下降有一定销量提升,但很少(降价无助于销量达标)
- 评估组块
- 通过比较评估分解组块
决策
提交给客户的报告要以得到客户理解,鼓励客户以数据为基础做出明智的决策为重点**
建议Acme如何提高销量?
- 产品是否需要改进?通过与竞争对手进行对比找出完善点
- 调整营销策略。因为消费者群体已经确定,关键是如何触达她们。先将广告费调整到9月的水平,看下有何变化
- 寻求公司支持,加大预算投入
如评估结果不太理想随时要回到第一步审视问题和假设
统计模型取决于心智模型
心智模型应当包括你不了解的因素
问CEO他不确定的事情:
- 目标客户是如何确定的,是否准确
- 直接问他自己哪里不清楚
一定要保存好原始数据
实验
星巴仕案例
起点:
- CEO商务运营:公司内部运营层面找问题
- 客户调查:消费者层面找问题
- 目标销量如何计算:目标定位方面
- 董事长:公司战略方面
- 泡咖啡:自己休整
知识点
- 观察研究法:被研究人自行决定自己属于哪个群体的一种研究方法
- 混杂因素:研究对象的个人差异,它不是你试图进行比较的因素,最终会导致分析的敏感度变差
- 解决办法:拆分数据块
只有通过实验才能证明问题
- 控制组(对照组):一组体现现状的处理对象,未经过任何新的处理
- 历史控制法比不上同期控制法
数据分析师要懂得如何妥当报告有可能令人沮丧的消息
如何选择控制组
随机选择相似组:从 对象池中随机选择对象是避免混杂因素的极好方法。在将对象随机分配到各个组里以后,最终的结果是:可能成为混杂因素的那些因素最终在控制组和实验组中具有同票同权。
通过随机选择组成各个组的成员,组与组之间将非常相似,因而具有可比性。
最优化
产品组合分析
需要哪些数据:价格、成本(具体需要材料和时间)
数据放大:
将需要的数据分为两类:无法控制的因素(约束条件)/可以控制的因素(决策变量)
目的:最大化或最小化
路径:目标函数
公式:C1X1+C2X2=P(C是约束条件,X是决策变量,P是目标)
产品组合所在的由约束线围成的空间被称为可行区域
有一个问题:产品组合是建立在产品都能卖出去的假设上的,若卖不出去,组合也没用
可以考虑实际情况再继续添加约束条件
假设立足于不断变化的实际情况,随时准备好修改模型
数据图形化
数据庞杂的情况下,记住:集中精力在你的目标上就行
重点还是通过数据体现情况,而不是本末倒置地追求美感
好的图形:
- 展示了数据
- 做了高明的比较
- 展示了多个变量
散点图是探索性数据分析的奇妙工具,用来探索因果关系
最优秀的图形都是多元图形
假设检验
现实世界中的各种原因呈网络关系,而非线性关系
假设检验的核心是证伪
请勿试图选出最合理的假设(满意法,容易固执己见),只需剔除无法证实的假设(证伪,对各种假设感觉更敏锐)。
证伪法可以综合大量异质数据
诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。
贝叶斯统计
直接概率问题,利用基础概率和波动数据进行统计分析概率
条件概率即以一件事的发生为前提的另一件事发生的概率。
重点是基础概率,
P(L|+) = \frac{P(L)P(+|L)}{(P(L)P(+|L)+P(-L)P(+|-L))}