接着上一篇文章:
第二个.py文件是explore_data.py
它实现的功能很简单,就是简单的处理NEW_USER_FILE,他的内容如下:
- user_id 用户ID 脱敏
- age 年龄段 -1表示未知
- sex 性别 0表示男,1表示女,2表示保密
- user_lv_cd 用户等级有顺序的级别枚举,越高级别数字越大
- user_reg_tm 用户注册日期粒度到天
可以看到"age"的内容是数字+中文的,这样不便于处理,explore_data.py的功能就是把"age"的内容进行映射,其映射规则如下:
def convert_age(age_str):
if age_str == u'-1':
return -1
elif age_str == u'15岁以下':
return 0
elif age_str == u'16-25岁':
return 1
elif age_str == u'26-35岁':
return 2
elif age_str == u'36-45岁':
return 3
elif age_str == u'46-55岁':
return 4
elif age_str == u'56岁以上':
return 5
else:
return -1
函数的调用方式如下:
def tranform_user_age():
# Load data, header=0 means that the file has column names
df = pd.read_csv(USER_FILE, header=0, encoding="gbk")
#对df['age']每一个元素都进行convert_age函数处理
df['age'] = df['age'].map(convert_age)
df['user_reg_tm'] = pd.to_datetime(df['user_reg_tm'])
min_date = min(df['user_reg_tm'])
df['user_reg_diff'] = [i for i in (df['user_reg_tm'] - min_date).dt.days]
df.to_csv(NEW_USER_FILE, index=False)
可以看到在map()中调用了convert_age,它会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。
最后得到的NEW_USER_FILE是这样的:
第三个.py文件是create_user_table.py
它的功能和create_item_table.py的差不多,create_item_table.py是对商品数据特征统计分析,而create_user_table.py是对用户数据特征统计分析。
运行create_user_table.py的前提是先运行explore_data.py生成NEW_USER_FILE,其过程与create_item_table.py很是相似,这里就不再多说了,merge_action_data()后生成的表的内容如下:
然后同样让user_base与user_behavior进行左连接运算,最后得到这样的一张表:
接下来就可以进行数据清洗了和数据分析了
数据清洗:
这一步骤作者的清洗策略只在data_cleaning.ipynb中有说明,并没有写在data_cleaning.py中,大家可以使用自己的清洗策略,比如去除掉浏览数为0的僵尸用户什么的。
数据分析:
作者介绍了一些分析的方法:
周一到周日各天购买情况:
def merge_weekday_action_data():
df_ac = []
df_ac.append(get_from_action_data(fname=ACTION_201602_FILE))
df_ac.append(get_from_action_data(fname=ACTION_201603_FILE))
df_ac.append(get_from_action_data(fname=ACTION_201603_EXTRA_FILE))
df_ac.append(get_from_action_data(fname=ACTION_201604_FILE))
df_ac = pd.concat(df_ac, ignore_index=True)
# data type
print(df_ac)
print(df_ac.dtypes)
# Monday = 0, Sunday = 6
df_ac['time'] = pd.to_datetime(
df_ac['time']).apply(lambda x: x.weekday() + 1)
df_user = df_ac.groupby('time')['user_id'].nunique()
# df_ac = pd.DataFrame({'weekday': df_ac.index, 'user_num': df_ac.values})
df_user = df_user.to_frame().reset_index()
df_user.columns = ['weekday', 'user_num']
print(df_user)
df_item = df_ac.groupby('time')['sku_id'].nunique()
df_item = df_item.to_frame().reset_index()
df_item.columns = ['weekday', 'item_num']
print(df_item)
df_ui = df_ac.groupby('time', as_index=False).size()
df_ui = df_ui.to_frame().reset_index()
df_ui.columns = ['weekday', 'user_item_num']
print(df_ui)
bar_width = 0.2
# 透明度
opacity = 0.4
plt.bar(df_user['weekday'], df_user['user_num'], bar_width,
alpha=opacity, color='c', label='user')
plt.bar(df_item['weekday'] + bar_width, df_item['item_num'],
bar_width, alpha=opacity, color='g', label='item')
plt.bar(df_ui['weekday'] + bar_width * 2, df_ui['user_item_num'],
bar_width, alpha=opacity, color='m', label='user_item')
plt.xlabel('weekday')
plt.ylabel('number')
plt.title('A Week Purchase Table')
plt.xticks(df_user['weekday'] + bar_width * 3 / 2., (1, 2, 3, 4, 5, 6, 7))
plt.tight_layout()
plt.legend(prop={'size': 9})
plt.show()
输出结果:
可以看到一周用户购买数量分布相对比较均衡,周六周日购买数相对较少,可能是此时大家都去过周末玩了,而平时可以逛京东作为消遣。
也可以按月分析:
def month_action_data_statistic():
# 二月
df_ac = get_from_action_data(fname=ACTION_201602_FILE)
df_ac['time'] = pd.to_datetime(df_ac['time']).apply(lambda x: x.day)
df_user = df_ac.groupby('time')['user_id'].nunique()
df_user = df_user.to_frame().reset_index()
df_user.columns = ['day', 'user_num']
df_item = df_ac.groupby('time')['sku_id'].nunique()
df_item = df_item.to_frame().reset_index()
df_item.columns = ['day', 'item_num']
df_ui = df_ac.groupby('time', as_index=False).size()
df_ui = df_ui.to_frame().reset_index()
df_ui.columns = ['day', 'user_item_num']
bar_width = 0.2
# 透明度
opacity = 0.4
# 天数
day_range = range(1, len(df_user['day']) + 1, 1)
# 设置图片大小
plt.figure(figsize=(14, 10))
plt.bar(df_user['day'], df_user['user_num'], bar_width,
alpha=opacity, color='c', label='user')
plt.bar(df_item['day'] + bar_width, df_item['item_num'],
bar_width, alpha=opacity, color='g', label='item')
plt.bar(df_ui['day'] + bar_width * 2, df_ui['user_item_num'],
bar_width, alpha=opacity, color='m', label='user_item')
plt.xlabel('day')
plt.ylabel('number')
plt.title('February Purchase Table')
plt.xticks(df_user['day'] + bar_width * 3 / 2., day_range)
# plt.ylim(0, 80)
plt.tight_layout()
plt.legend(prop={'size': 9})
plt.show()
输出结果:
分析: 从上面可以发现,在2月6号到2月10号之间是我们的农历新年,快递在这几天不上班,因而购物数量相对较少,在我们实际分析时, 可以暂时将这部分数据作为异常数据不去考虑,不加入我们的训练样本中.
查看特定用户对特定商品的活动轨迹:
def spec_ui_action_data(fname, user_id, item_id, chunk_size=100000):
reader = pd.read_csv(fname, header=0, iterator=True)
chunks = []
loop = True
while loop:
try:
chunk = reader.get_chunk(chunk_size)[
["user_id", "sku_id", "type", "time"]]
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped")
df_ac = pd.concat(chunks, ignore_index=True)
df_ac = df_ac[(df_ac['user_id'] == user_id) & (df_ac['sku_id'] == item_id)]
return df_ac
def explore_user_item_via_time():
user_id = 230678
item_id = 112141
df_ac = []
df_ac.append(spec_ui_action_data(ACTION_201602_FILE, user_id, item_id))
df_ac.append(spec_ui_action_data(ACTION_201603_FILE, user_id, item_id))
df_ac.append(spec_ui_action_data(
ACTION_201603_EXTRA_FILE, user_id, item_id))
df_ac.append(spec_ui_action_data(ACTION_201604_FILE, user_id, item_id))
df_ac = pd.concat(df_ac, ignore_index=False)
print(df_ac.sort_values(by='time'))
可以看到230678用户对112141商品有过如下行为:
type
- 1.浏览(指浏览商品详情页);
- 2.加入购物车;
- 3.购物车删除;
- 4.下单;
- 5.关注;
- 6.点击
可以看到该用户对该商品从2016-03-25 16:17:27开始反复的点击、浏览,并于2016-03-31 23:59:00下单购买该商品,随后又对其进行了反复的点击、浏览。
以上都是本萌新的个人理解,如有错误欢迎指出。
参考:
https://blog.csdn.net/liuhuoxingkong/article/details/70049019
https://github.com/daoliker/JData
https://apachecn.github.io/pandas-doc-zh/10min.html