数据源:天池-Ad Display/Click Data on Taobao.com
————以下是中文描述—————
Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。
数据集名称 | 说明 | key | 属性 |
---|---|---|---|
raw_sample | 样本骨架 | 用户ID& 广告ID& 时间戳 |
在某个 时间段 发布在 广告位 后 被/未被 点击 |
ad_feature | 广告的信息 | 广告ID | 在某个 广告计划 中,某 品牌 的 广告主 将其某 价格 的某 类目 的商品 |
user_profile | 用户的信息 | 用户ID | 某个 微群 和 group 内的,多少岁 的 男生/女生,其在某 城市,是/不是 大学生,消费层次 较强/差,购物深度 较强/差 |
raw_behavior_log | 用户的行为 | 用户ID& 时间戳 |
在某 时间点,曾经把某 品牌词 的某 类目 的商品,浏览 / 喜欢 / 加入购物车 / 购买 |
A. raw_sample 原始样本骨架
淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。
字段说明如下:
字段 | 说明 |
---|---|
user_id | 脱敏过的用户ID |
adgroup_id | 脱敏过的广告单元ID |
time_stamp | 时间戳 |
pid | 资源位 |
noclk | 为1代表没有点击;为0代表点击 |
clk | 为0代表没有点击;为1代表点击 |
可用前面7天的做训练样本(20170506-20170512),用第8天的做测试样本(20170513)。
B. ad_feature 广告基本信息表
字段 | 说明 |
---|---|
adgroup_id | 脱敏过的广告ID |
cate_id | 脱敏过的商品类目ID |
campaign_id | 脱敏过的广告计划ID |
customer_id | 脱敏过的广告主ID |
brand | 脱敏过的品牌ID |
price | 宝贝的价格 |
其中一个广告ID对应一个商品(宝贝),一个宝贝属于一个类目,一个宝贝属于一个品牌。
C. user_profile 用户基本信息表
字段 | 说明 |
---|---|
userid | 脱敏过的用户ID |
cms_segid | 微群ID |
cms_group_id | cms_group_id |
final_gender_code | 性别 1:男,2:女 |
age_level | 年龄层次 |
pvalue_level | 消费档次,1:低档,2:中档,3:高档 |
shopping_level | 购物深度,1:浅层用户,2:中度用户,3:深度用户 |
occupation | 是否大学生,1:是,0:否 |
new_user_class_level | 城市层级 |
D. behavior_log 用户的行为日志
raw_sample中全部用户,22天内的购物行为(共七亿条记录)。
字段 | 说明 |
---|---|
user | 脱敏过的用户ID |
time_stamp | 时间戳 |
btag | 行为类型, 包括以下四种: - ipv:浏览 - cart:加入购物车 - fav:喜欢 - buy:购买 |
cate | 脱敏过的商品类目 |
brand | 脱敏过的品牌词 |
分析思路
用到的工具和方法
- 数据清理
- 描述统计
- 假设检验、F值、P值
- 预测
- Tableau仪表板
示例:典型科研场景
根据用户历史购物行为预测用户在接受某个广告的曝光时的点击概率。