药品销售数据分析--python

一、数据分析的目的

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

本篇文章中，假设以朝阳医院2018年销售数据为例，目的是了解朝阳医院在2018年里的销售情况，这就需要知道几个业务指标，例如：月均消费次数，月均消费金额、客单价以及消费趋势

二、数据分析基本过程

数据分析基本过程包括：获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。

1.获取数据
链接: https://pan.baidu.com/s/1tKaERGWFPycqTC1cElvc9A 提取码: 6xm2
数据部分截图如下：

image.png

python先导入包，然后读取文件，读取的时候用object读取，防止有些数据读不了：

import numpy as np
from pandas import Series,DataFrame
import pandas as pd
#导入数据
file_name = '朝阳医院2018年销售数据.xlsx'
xls = pd.ExcelFile(file_name)
dataDF = xls.parse('Sheet1',dtype='object')
print(dataDF.head())

image.png

查看数据基本信息：

#查看基本信息
#查看数据几行几列
print(dataDF.shape)
#查看索引
print(dataDF.index)
#查看每一列的列表头内容
print(dataDF.columns)
#查看每一列数据统计数目
print(dataDF.count())

image.png

总共有6578行7列数据，但是“购药时间”和“社保卡号”这两列只有6576个数据，而“商品编码”一直到“实收金额”这些列都是只有6577个数据，这就意味着数据中存在缺失值，可以推断出数据中存在一行缺失值，此外“购药时间”和“社保卡号”这两列都各自存在一个缺失数据，这些缺失数据在后面步骤中需要进一步处理。

2.数据清洗
数据清洗过程包括：选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理

（1）选择子集
在我们获取到的数据中，可能数据量非常庞大，并不是每一列都有价值都需要分析，这时候就需要从整个数据中选取合适的子集进行分析，这样能从数据中获取最大价值。在本次案例中不需要选取子集，暂时可以忽略这一步。

（2）列重命名
在数据分析过程中，有些列名和数据容易混淆或产生歧义，不利于数据分析，这时候需要把列名换成容易理解的名称，可以采用rename函数实现：

#列重命名
dataDF.rename(columns={'购药时间':'销售时间'},inplace=True)
print(dataDF.head())

image.png

（3）缺失值处理
获取的数据中很有可能存在缺失值，通过查看基本信息可以推测“购药时间”和“社保卡号”这两列存在缺失值，如果不处理这些缺失值会干扰后面的数据分析结果。缺失数据常用的处理方式为删除含有缺失数据的记录或者利用算法去补全缺失数据。在本次案例中为求方便，直接使用dropna函数删除缺失数据，具体如下：

#缺失值处理
print('删除缺失值前:', dataDF.shape)
print(dataDF.info())
#删除缺失值
dataDF = dataDF.dropna(subset=['销售时间','社保卡号'], how='any')
print('\n删除缺失值后',dataDF.shape)
print(dataDF.info())

image.png

（4）数据类型转换
在导入数据时为了防止导入不进来，会强制所有数据都是object类型，但实际数据分析过程中“销售数量”，“应收金额”，“实收金额”，这些列需要浮点型（float）数据，“销售时间”需要改成时间格式，因此需要对数据类型进行转换。
可以使用astype()函数转为浮点型数据：

#数据类型转换
dataDF['销售数量'] = dataDF['销售数量'].astype('float')
dataDF['应收金额'] = dataDF['应收金额'].astype('float')
dataDF['实收金额'] = dataDF['实收金额'].astype('float')
print(dataDF.dtypes)

image.png

在“销售时间”这一列数据中存在星期这样的数据，但在数据分析过程中不需要用到，因此要把销售时间列中日期和星期使用split函数进行分割，分割后的时间，返回的是Series数据类型：

#定义函数将星期除去
def splitSaletime(timeColser):
    timelist =[]
    for val in timeColser:
        data = val.split(' ')[0]
        timelist.append(data)
    #将列表转为Series类型
    timeSer = Series(timelist)
    return timeSer
#获取"销售时间"这一列数据
time = dataDF.loc[:,'销售时间']
#调用函数去除星期，获得日期
data = splitSaletime(time)
#修改"销售时间"这一列的值
dataDF.loc[:,'销售时间'] = data
print(dataDF.head())

image.png

接着把切割后的日期转为时间格式，方便后面的数据统计:

#字符串转日期
dataDF.loc[:,'销售时间'] = pd.to_datetime(dataDF.loc[:,'销售时间'], format='%y-%m-%d', errors='coerce')
print(dataDF.dtypes)
#在日期转换过程中不符合日期格式的会转换为空值，这里需要删除
dataDF = dataDF.dropna(subset=['销售时间','社保卡号'], how='any')

image.png

（5）数据排序
此时时间是没有按顺序排列的，所以还是需要排序一下，排序之后索引会被打乱，所以也需要重置一下索引。其中by:表示按哪一列进行排序，ascending=True表示升序排列，ascending=False表示降序排列

#数据排序
dataDF = dataDF.sort_values(by='销售时间', ascending=True)
dataDF = dataDF.reset_index(drop=True)
print(dataDF.head())

image.png

（6）异常值处理
先查看数据的描述统计信息

#查看描述统计信息
print(dataDF.describe())

image.png

通过描述统计信息可以看到，“销售数量”、“应收金额”、“实收金额”这三列数据的最小值出现了负数，这明显不符合常理，数据中存在异常值的干扰，因此要对数据进一步处理，以排除异常值的影响：

#将'销售数量'这一列小于0的数据排除掉
pop = dataDF.loc[:,'销售数量'] > 0
dataDF = dataDF.loc[pop,:]
print(dataDF.describe())

image.png

三、构建模型及数据可视化

数据清洗完成后，需要利用数据构建模型（就是计算相应的业务指标），并用可视化的方式呈现结果。
（1）业务指标1:月均消费次数
月均消费次数 = 总消费次数 / 月份数（同一天内，同一个人所有消费算作一次消费）

#计算总消费次数
#删除重复数据
kpil_Df = dataDF.drop_duplicates(subset=['销售时间','社保卡号'])
totalI = kpil_Df.shape[0]
print('总消费次数=',totalI)

#计算月份数
#按销售时间升序排序
kpil_Df = kpil_Df.sort_values(by='销售时间', ascending=True)
#重命名行名
kpil_Df = kpil_Df.reset_index(drop=True)
#获取时间范围
startTime = kpil_Df.loc[0,'销售时间']
endTime = kpil_Df.loc[totalI-1,'销售时间']
#计算月份
#天数
daysI = (endTime-startTime).days
mounthI = daysI//30
print('月份数=',mounthI)

#月平均消费次数
kpil_I = totalI//mounthI
print('业务指标1：月均消费次数=', kpil_I)

image.png

（2）业务指标2:月均消费金额
月均消费金额 = 总消费金额 / 月份数

#消费总金额
totalMoneyF = dataDF.loc[:,'实收金额'].sum()
mounthMoney = totalMoneyF // mounthI
print('业务指标2：月均消费金额=', mounthMoney)

image.png

（3）客单价
客单价 = 总消费金额 / 总消费次数

#客单价
pct = totalMoneyF / totalI
print('业务指标3：客单价=', pct)

image.png

（4）消费趋势

a. 导入python可视化相关的包

import matplotlib.pyplot as plt
import matplotlib
#画图时用于显示中文字符
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['SimHei'] # SimHei是黑体的意思
#在操作之前先复制一份

b. 分析每天的消费金额

#mpl.rcParams['font.sans-serif'] = ['Songti'] # SimHei是黑体的意思
font = FontProperties(fname='/Library/Fonts/Songti.ttc') #设置字体
#在操作之前先复制一份数据，防止影响清洗后的数据
groupDF = dataDF

#将'销售时间'设置为index
groupDF.index = groupDF['销售时间']
print(groupDF.head())
gb = groupDF.groupby(groupDF.index)
print(gb)
dayDF = gb.sum()
print(dayDF)
#画图
plt.plot(dayDF['实收金额'])
plt.title('按天消费金额',fontproperties=font)
plt.xlabel('时间',fontproperties=font)
plt.ylabel('实收金额',fontproperties=font)
plt.show()

image.png

从结果可以看出，每天消费总额差异较大，除了个别天出现比较大笔的消费，大部分人消费情况维持在1000-2000元以内。

c. 分析每月的消费金额
接下来，我销售时间先聚合再按月分组进行分析：

#将销售时间聚合按月分组
gb = groupDF.groupby(groupDF.index.month)
print(gb)
monthDF = gb.sum()
print(monthDF)

plt.plot(monthDF['实收金额'])
plt.title('按月消费金额',fontproperties=font)
plt.xlabel('时间',fontproperties=font)
plt.ylabel('实收金额',fontproperties=font)
plt.show()

image.png

结果显示，7月消费金额最少，这是因为7月份的数据不完整，所以不具参考价值。
1月、4月、5月和6月的月消费金额差异不大，2月和3月的消费金额迅速降低，这可能是2月和3月处于春节期间，大部分人都回家过年的原因。

d. 分析药品销售情况
对“商品名称”和“销售数量”这两列数据进行聚合为Series形式，方便后面统计，并按降序排序：

#聚合统计各种药品数量
medicine = groupDF[['商品名称','销售数量']]
bk = medicine.groupby('商品名称')[['销售数量']]
re_medicine = bk.sum()

#对销售药品数量按将序排序
re_medicine = re_medicine.sort_values(by='销售数量', ascending=False)
print(re_medicine.head())

image.png

截取销售数量最多的前十种药品，并用条形图展示结果：

top_medicine = re_medicine.iloc[:10,:]
print(top_medicine)

image.png

得到销售数量最多的前十种药品信息，这些信息将会有助于加强医院对药房的管理。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342

药品销售数据分析--python

一、数据分析的目的

二、数据分析基本过程

三、构建模型及数据可视化

推荐阅读更多精彩内容