随着大数据技术的备受关注,有关“用户画像”、“商品画像”、“产品画像”、“资产画像”……的讨论就不绝于耳。那么,究竟什么是画像?又如何进行画像建设与画像分析呢?我们就从以下几个方面,着重探讨一下。
1、什么是画像?
用户画像,被定义为一种抽象出用户信息全貌的手段。
举个简单的例子,某个客户的特征描述为:500强企业,媒体行业,旗下产品覆盖网站、APP、微博、微信等端口,拥有受众9亿+,这就是一个典型的用户画像,我们据以便可以知道其存在大数据方面的需求。如果用一句话来描述,即:用户信息标签画。
大数据的时代背景下,画像被认作为企业应用大数据的根基,并直接跟企业经营能力、竞争优势的打造联系在一起。
有评论指出,要看一家企业的数据化运营程度,首当其冲地要看其“画像”构建情况:是否建设了“画像”?“画像”体系构建程度如何?针对什么对象进行了画像?构建画像的各种标签与指标情况如何?有没针对已建立起来的”画像”的应用?应用情况如何?等等
2、为什么要进行用户画像
这跟用户行为识别及数据应用直接相关。
各行各业都期待着,用户能主动告诉我们,他们的行为偏好。然而,事实既总非如愿,技术实现也非如此简单:首先,用户用以描述兴趣的自然语言很难为自然语言理解技术所理解;其次,用户的 兴趣是不断变化的,无法不停地提供兴趣描述;最后,很多时候用户并不知道自己喜欢什么,或很难清楚描述出自己喜欢什么。
于是,我们需要通过算法自动发掘用户行为数据,从用 户的行为中推测出用户的兴趣,从而给用户推荐满足他们兴趣的产品和服务,而画像,就是其中最重要的应用之一。
画像,通过为用户打标签的方式,使计算机能够程序化处理与人相关的信息。
如用户信息的分类统计:喜欢魅族的用户有多少?喜欢魅族的人群中,男、女比例是多少?如用户数据的挖掘工作:利用关联规划计算,购买该种商品的用户还购买了什么产品?利用聚类算法分析,喜欢该种产品的人年龄段分布情况如何等等?
3、构建用户画像的关键是什么?
从画像与标签的关系也可以窥见一斑,标签是画像建设的关键。同时,它也是大数据技术场景化的关键,因为如果没有针对场景构建出来标签,大数据的应用往往就很难“落地“。
一个标签通常是人为规定的高度精炼的特征指标,如年龄段标签:25-35岁;地域标签:北京、上海;设备标签:PC、移动;性别标签:男、女等等。
标签呈现出明显的语义化与短文本的特征:语义化,人能很方便地理解每个标签含义,使得用户画像模型具备实际意义,能够较好的满足业务需求;短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
制定标签要遵循一定的规则,既要涵盖重要信息,又要方便机器做标签提取、聚合分析。
案例:用户的商品价格偏好标签建设过程
以某公司构建用户消费偏好画像为例,我们需要根据具体场景下用户的选择行为,将用户偏好画像拆分成几个不同数据标签:品牌、价格、购买时间、购买方式等
取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?
方法一:按统计学的方法
1、按分位数进行。例如:25%,50%,75%
2、按等箱原则。划分几等分
3、看数据的分布。
4、……
方法二:按业务知识经验
把价格带按业务经验,行业经验进行划分。
通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。
通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。
例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。
4、构建用户画像的方法
从上面案例中,我们可以抽象出构建用户画像的方法,即用户画像模型的构建方法。
一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户、在什么时间、在什么地点、做了什么事。
其中用户的属性识别关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息:时间戳和时间长度,时间戳指的是标识用户行为的时间点,通常精确到秒;时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点,在互联网上,用户的接触点就包括了网址和内容两个重要信息。
用户行为属性有不同的类型,结合接触点的内容产生的标签信息,具有不同的权重。用户画像的数据模型可以概括为这样一个公式:用户标识+时间+行为类型+接触点(网址+内容),某个用户在某个时间、某个地点做了什么事情,就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子,行为类型、网址决定了权重,内容决策了标签,可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。
通过这样的计算才能够构建用户画像模型,进而能够逐步细化模型,从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新,从而精准把握用户心理,为每一个用户提供最完美的精细化服务,全面提升客户感知,最终实现客户满意度的不断提升。