帕累托图(Pareto chart)以意大利经济学家V.Pareto的名字而命名的。又叫排列图、主次图,是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。
帕累托图是依照帕累托法则,也就是“二八法则”的原理设计的,也就是认为80%的问题是由于20%的原因造成的,那帕累托图在数据分析中的实际意义是怎么样的呢?
在销售行业中,我们的管理和销售资源往往是有限的,如何在众多的业务中进行权衡分配,就可以利用帕累托图来判断;
在质量管理中,利用帕累托图可以确定产生质量问题的主要因素,指导如何采取纠正措施。
所以帕累托图可以用在各种数据分析场景下,在BDP中如何能实现呢?小草莓带大家一起学习一下~
以下图为例,通过帕累托图,可以看到销售额占比前80%的产品是哪些,从而对他们进行合理的资源分配~
操作步骤
01
上传数据
以销售数据为例,有产品名称和对应的订单金额2个字段
02
添加计算字段
帕累托图的制作需要销售金额、累计销售额和累计销售额占比
1、其中累计销售额的计算要按照销售金额从大到小的顺序进行累计,所以首先我们要添加一个排序字段:
字段的窗口函数:
row_number() over(partition by 1 order by [订单金额] desc)
2、然后根据排序字段,进行累计销售额字段的添加:
SUM([订单金额]) OVER(PARTITION BY 1 ORDER BY [排序])
3、最后,需要计算累计销售额的占比,这里我们需要先计算下订单金额的总和字段:
SUM([订单金额]) OVER(PARTITION BY 1)
4、累计销售额占比:
[累计销售额]/[订单金额总和]
一共需要添加4个计算字段,小伙伴们不要记错了哦~
03
制作图表
维度:产品名称
数值:订单金额、累计销售金额占比
图表类型:双轴图
帕累托图,可以用在质量管理、问卷分析、销售管理等多种数据分析需求中,帮助我们判断影响结果的关键因素是什么,由于使用了较多窗口函数,数据量较大的小伙伴慎用此方法哦~