数据分析项目-电商销售活动复盘

数据分析项目-电商销售活动复盘总结
使用工具：Anaconda-jupyter、mysql
老师指路->https://www.jianshu.com/u/1f32f227da5f

分析流程：

1、总体运营指标
2、从价格区间找出表现不好的产品，优化商品结构
3、从折扣区间来找出表现不好的产品，优化商品结构

此次分析的目标：
评估促销活动的结果，并根据情况优化商品结构，以便让自己的商品卖的更好。

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')
#不显示警告

读取各部分数据集、合并

import sqlalchemy

engine = sqlalchemy.create_engine('mysql+pymysql://username:password@localhost:3306/froghd')

# 读取数据
# 商品信息表
sql_cmd = "select * from sales_info1"

# 执行sql语句，获取数据
dt1 = pd.read_sql(sql=sql_cmd, con=engine)

dt1.rename(columns={"sale_name":"商品名",
                    "sale_price":"售卖价",
                    "tag_price":"吊牌价",
                    "discout":"折扣率",
                    "stocks":"库存量",
                    "stocks_value":"货值",
                    "cost_price":"成本价",
                    "profit_rate":"利润率",
                    "skus":"SKU"},
          inplace=True)

dt1.head()
#engine = create_engine('dialect+driver://username:password@host:port/database')

#dialect -- 数据库类型
#driver -- 数据库驱动选择
#username -- 数据库用户名
#password -- 用户密码
#host 服务器地址
#port 端口
#database 数据库

商品信息表

# 读取数据
# 商品热度表
sql_cmd = "select * from sales_info2"

# 执行sql语句，获取数据
dt2 = pd.read_sql(sql=sql_cmd, con=engine)

dt2.rename(columns={"sale_name":"商品名",
                    "uvs":"UV数",
                    "collections":"收藏数",
                    "carts":"加购物车数"},
          inplace=True)

dt2.head()

商品热度表

# 读取数据
# 商品销售明细表
sql_cmd = "select * from sales_info3"

# 执行sql语句，获取数据
dt3 = pd.read_sql(sql=sql_cmd, con=engine)

dt3.rename(columns={"user_id":"用户id",
                    "buy_date":"购买日期",
                    "sale_name":"商品名",
                    "buy_cons":"购买数量",
                    "buy_price":"购买单价",
                    "cost_price":"购买金额",
                    "is_tui":"是否退货",
                    "tui_cons":"退货件数",
                    "tui_price":"退货金额"},
          inplace=True)

dt3['是否退货']=dt3["是否退货"].map({"是":1,"否":0})
#是否退货用数字表示，便于统计
dt3.head()

商品销售数据

合并商品信息表和商品热度表数据

# 把商品信息加上该商品的热度信息
# 得到基础的商品信息，以及商品的一些热度信息：加购物车数量，收藏数量、uv数
dt_product = dt1.merge(dt2,how="left",on="商品名")
#左连接，显示全部信息
dt_product.head()

商品信息+商品热度

合并商品信息表和商品热度表和用户销售明细表

# 统计每个商品的一个销售情况

product_sales = dt3.groupby("商品名").agg({"购买数量":"sum",
                                                 "购买金额":"sum",
                                                 "退货件数":"sum",
                                                 "退货金额":"sum",
                                                 "购买单价":"mean",
                                                 "用户id":pd.Series.nunique}).reset_index()
product_sales.rename(columns={"购买数量":"商品销售数量",
                              "购买金额":"商品销售金额",
                              "是否退货":"商品退货数量",
                              "退货金额":"商品退货金额",
                              "购买单价":"商品销售单价",
                              "用户id":"购买用户数量"},inplace=True)
product_sales.head()

每件商品销售情况

# 合并商品信息(三个表格数据)
dt_product_sales = dt_product.merge(product_sales,how="left",on="商品名")
dt_product_sales.head()

合并表

一、总体运营情况评价

总体运营部分，主要关注销售额、售卖比、UV、转化率等指标，其他指标作为辅助指标。销售额用来和预期目标做对比，售卖比用来看商品流转情况。

GMV：销售额，在平台里称为到手价。
实销：GMV – 拒退金额。
销量：累计销售量（含拒退）。
客单价：GMV / 客户数，客单价与毛利率息息相关，一般客单价越高，毛利率越高。
UV：商品所在页面的独立访问数。
转化率：客户数 / UV。
折扣率：GMV / 吊牌总额（吊牌总额 = 吊牌价 * 销量），在日常工作中，吊牌额是必不可少的。
备货值：吊牌价 * 库存数。
售卖比：又称售罄率，GMV / 备货值。
收藏数：收藏某款商品的用户数量。
加购数：加购物车人数。
SKU数：促销活动中的SKU计数（一般指货号）。
SPU数：促销活动中的SPU计数（一般指款号）。
拒退量：拒收和退货的总数量。
拒退额：拒收和退货的总金额。

#1、GMV：销售额，包含退货的金额
gmv = dt_product_sales["商品销售金额"].sum()

#2、实际销售额=GMV - 退货金额
return_sales = dt_product_sales["商品退货金额"].sum()
return_money = gmv - return_sales

#3、销量：累计销售量（含拒退）
all_sales = dt_product_sales["商品销售数量"].sum()

#4、客单价：GMV / 客户数，客单价与毛利率息息相关，一般客单价越高，毛利率越高。
# dt3.user_id.unique().count()
custom_price = gmv / dt_product_sales["购买用户数量"].sum()

# 5、UV：商品所在页面的独立访问数
uv_cons = dt_product_sales["UV数"].sum()

# 6、转化率：客户数 / UV。
uv_rate = dt_product_sales["购买用户数量"].sum() / dt_product_sales["UV数"].sum()

# 7、折扣率：GMV / 吊牌总额（吊牌总额 = 吊牌价 * 销量），在日常工作中，吊牌额是必不可少的。
tags_sales = np.sum(dt_product_sales["吊牌价"] * dt_product_sales["商品销售数量"])
discount_rate= gmv / tags_sales 

# 8、备货值：吊牌价 * 库存数。
goods_value = dt_product_sales["货值"].sum()

# 9、售卖比：又称售罄率，GMV / 备货值。
sales_rate = gmv / goods_value

# 10、收藏数：收藏某款商品的用户数量。
coll_cons = dt_product_sales["收藏数"].sum()

# 11、加购数：加购物车人数。
add_shop_cons = dt_product_sales["加购物车数"].sum()

# 12、SKU数：促销活动中的最小品类单元（一般指货号）。
sku_cons = dt_product_sales["SKU"].sum()

# 13、SPU数：促销活动中的SPU计数（一般指款号）。
spu_cons = len(dt_product_sales["商品名"].unique())

# 14、拒退量：拒收和退货的总数量。退货件数
reject_cons = dt_product_sales["退货件数"].sum()

# 15、拒退额：拒收和退货的总金额。
reject_money = dt_product_sales["商品退货金额"].sum()

汇总统计，与去年销售情况比较

sales_state_dangqi = pd.DataFrame(
    {"GMV":[gmv,],"实际销售额":[return_money,],"销量":[all_sales,],"客单价":[custom_price,],
     "UV数":[uv_cons,],"UV转化率":[uv_rate,],"折扣率":[discount_rate,],"货值":[goods_value,],
     "售卖比":[sales_rate,],"收藏数":[coll_cons,],"加购数":[add_shop_cons,],"sku数":[sku_cons,],
     "spu数":[spu_cons,],"拒退量":[reject_cons,],"拒退额":[reject_money,],}, 
    ) #index=["今年双11",]

# 去年的数据已经统计好了，不需要计算
sales_state_tongqi = pd.DataFrame(
    {"GMV":[2261093,],"实际销售额":[1464936.517,],"销量":[7654,],"客单价":[609.34567,],
     "UV数":[904694,],"UV转化率":[0.0053366,],"折扣率":[0.46,],"货值":[12610930,],
     "售卖比":[0.1161,],"收藏数":[4263,],"加购数":[15838,],"sku数":[82,],
     "spu数":[67,],"拒退量":[2000,],"拒退额":[651188.57,],}, 
    ) #index=["去年双11",]

#sales_state = pd.concat([sales_state_dangqi, sales_state_tangqi])
sales_state_dangqi_s = pd.DataFrame(sales_state_dangqi.stack()).reset_index().iloc[:,[1,2]]
sales_state_dangqi_s.columns = ["指标","今年双11"]
#数据置成列，新命名字段

sales_state_tongqi_s = pd.DataFrame(sales_state_tongqi.stack()).reset_index().iloc[:,[1,2]]
sales_state_tongqi_s.columns = ["指标","去年双11"]
#数据置成列，新命名字段

sales_state = pd.merge(sales_state_dangqi_s, sales_state_tongqi_s,on="指标")
#通过 指标 关联两张表
sales_state["同比"] = (sales_state["今年双11"] - sales_state["去年双11"]) / sales_state["去年双11"]
sales_state

15个指标年对比

二、从价格区间来优化商品结构

需要做的是，深入探究不同区间的数据，以此来优化后期的促销结构。
首先需要找到在本次促销中此区间的销售源数据，源数据要求显示具体的款号、销售额、销量等信息。
第二步，计算出每个款的转化率、折扣率等数据。

# 划分价格区间段
#设置切分区域
listBins = [0,200, 400, 100000]

#设置切分后对应标签
listLabels = ['1_200','200_400','400及以上']

#利用pd.cut进行数据离散化切分，注意分组标签和分组数要一致
"""
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)
x:需要切分的数据
bins:切分区域
right : 是否包含右端点默认True，包含
labels:对应标签，用标记来代替返回的bins，若不在该序列中，则返回NaN
retbins:是否返回间距bins
precision:精度
include_lowest:是否包含左端点，默认False，不包含
"""
dt_product_sales['价格分组'] = pd.cut(dt_product_sales['售卖价'], bins=listBins, labels=listLabels, include_lowest=True)
dt_product_sales.head()

价格分组

价格区间销售情况统计

价格区间
货值
货值占比
销售额
售卖比
销售占比
销量
客单价
UV
收藏数
加购数
转化率

dt_product_sales_info = dt_product_sales.groupby("价格分组").agg({
                                        "货值":"sum",
                                        "商品销售金额":"sum",
                                        "商品销售数量":"sum",
                                        "UV数":"sum",
                                        "购买用户数量":"sum",
                                        "收藏数":"sum",
                                        "加购物车数":"sum"
                                        }).reset_index()

# 货值占比、销售占比、客单价、转化率
dt_product_sales_info["货值占比"]=dt_product_sales_info["货值"]/dt_product_sales_info["货值"].sum()
dt_product_sales_info["销售占比"]=dt_product_sales_info["商品销售金额"]/dt_product_sales_info["商品销售金额"].sum()
dt_product_sales_info["客单价"]=dt_product_sales_info["商品销售金额"]/dt_product_sales_info["购买用户数量"]
dt_product_sales_info["转化率"]=dt_product_sales_info["购买用户数量"]/dt_product_sales_info["UV数"]

dt_product_sales_info

价格分组

取出400及以上价格区间的数据内容

product_400 = dt_product_sales[dt_product_sales["价格分组"]=='400及以上']

计算商品指标

销售额
销量
件单价
客户数
UV
转换率=客户数 / UV
库存
备货值=吊牌价 * 库存数
售卖比=又称售罄率，GMV / 备货值

# 转换率=客户数 / UV
product_400['转换率'] = product_400["购买用户数量"]/product_400["UV数"]
# 备货值=吊牌价 * 库存数
product_400["备货值"] = product_400["吊牌价"]*product_400["商品销售数量"]
product_400["售卖比"] = product_400["商品销售金额"]/product_400["备货值"]
product_400[["商品名","商品销售金额","商品销售数量","商品销售单价","购买用户数量","UV数",'转换率',"库存量","备货值","售卖比"]]

400以上

优化方案：

转化率大于0.7%的商品，暂时保留，用于下次促销活动；
转化率小于0.7%的商品，但是售卖比大于36%的商品予以保留参加下次促销活动，
转化率小于0.7%的商品，并且售卖比小于36%的商品进行清仓处理。

# 挑选合格的商品：
# 1、保留商品：转化率大于0.7%的商品予以保留
stay_stocks571 = product_400[product_400["转换率"]>0.007]
# 售卖比=又称售罄率，GMV / 备货值
product_400["售卖比"] = product_400["商品销售金额"]/product_400["备货值"]

# 挑选合格的商品：
# 2、保留商品：找出转化率小于0.7% 但是 售卖比大于36%的部分予以保留
stay_stocks573 = product_400[(product_400["售卖比"]>=0.36)&(product_400["转换率"]<0.007)

# 3、清仓处理商品，找出转化率小于0.7%并且售卖比小于36%的部分
stay_stocks574 = product_400[(product_400["售卖比"]<0.36)&(product_400["转换率"]<0.007)]

三、从折扣区间来优化商品结构

折扣区间销售情况统计

价格区间
货值
货值占比
销售额
售卖比
销售占比
销量
客单价
UV
收藏数
加购数
转化率

1、划分价格区间段
2、取出0.35-0.4价格区间（表现好的折扣区间）的数据内容
3、计算商品指标

销售额
销量
件单价
客户数
UV
转换率=客户数 / UV
库存
货值=吊牌价 * 库存数
售卖比=又称售罄率，GMV / 备货值

优化方案：

折扣率大于37%的部分找出售卖比大于36.5%且转化率大于0.7%的商品予以保留，其余进行清仓处理；

折扣率小于37%的部分找出售卖比大于36.5%且转化率大于0.7%的部分予以保留，其余进行清仓处理。