一、什么是用户画像
1.应用场景
1.1精细化运营
为不同用户群体进行运营,通过较少的成本得到较高的运营收入,可提升ROI(Return on investment)。
· 领导(直观掌握数据):活跃用户数、新增设备数、注册用户数、客单价、GMV、各平台收入分布。
· 采购人员(各商品的售卖情况):时间/季节、商品品类/名称、购买人数、购买次数、购买金额(销售趋势)。
· 市场人员(了解用户的渠道来源,从而针对性的调整投放策略):下载渠道、活跃用户、访问次数、访问时间、次日留存、注册转化用户(率)、支付成功用户(率)、支付金额。
· 产品人员(了解用户行为路径,迭代产品):功能模块使用量(活动banner、首页...)、时间、新用户留存率(目标用户数、当日、第1日、第2日、第3日....)
· 营销人员(分不同群体进行营销/push):近7日活跃用户、新增用户、近30日活跃购买5次以上的用户)
1.2推荐系统
基于已有连结预测新的连结( 浏览页面、购物车页面、订单页面推荐),用户数字化表示。
2.概念
2.1示例
· 张三用户画像:1001(UserID),年龄20,常住地北京,消费能力高,购买偏好美妆
对每一条数据标签数字化:
年龄:20-25岁301、26-30岁302、31-35岁303...
性别:男101、女102...
常住地:北京401、上海402...
商品偏好:美妆201、书籍202、数码203...
· 张三用户画像:1001,301,401,201
2.2定义
· 用户画像就是用户标注,通过标签的形式描述用户;
· 个人特征:自然属性(年龄、身高、体重)、社会属性(职业、社交特征)、财富状况(高/低收入人群、是否有固定资产)、家庭情况(是否已婚、是否有孩子)、购物习惯(网购、下线购物、线下看网上买)、位置特征(常住地、常活动的商圈)。
二、用户画像的计算框架选型
目标:理解用户画像项目的几种实现方式
步骤:1.计算方式 2.存储方式
2.1离线数仓
直接在mySQL上查询的缺点:(mySQL是为业务数据库准备的)
(1) 查询时会影响线上业务运行;
(2)查询语句过于繁琐,并且多个分析之间有共性,中间层没有保存;
(3)用于业务数据库的模型一般都特别细分,分析不方便。
解决问题(2):维度建模(分层)
(1)ODS贴源层:做数据存储,当出现问题时不再二次抽取;
(2)DW数仓层:维度建模,简化查询;
(3)DM集市层,为每个部门提供小型数仓;
(4)ADS应用层,对应数据应用的需求,例如便于报表访问等。
解决问题(3):将多个表进行合并拉宽
解决问题(1):数据抽取