大数据应用之“画像”

随着大数据技术的备受关注,有关“用户画像”、“商品画像”、“产品画像”、“资产画像”……的讨论就不绝于耳。那么,究竟什么是画像?又如何进行画像建设与画像分析呢?我们就从以下几个方面,着重探讨一下。

1、什么是画像?

用户画像,被定义为一种抽象出用户信息全貌的手段。

举个简单的例子,某个客户的特征描述为:500强企业,媒体行业,旗下产品覆盖网站、APP、微博、微信等端口,拥有受众9亿+,这就是一个典型的用户画像,我们据以便可以知道其存在大数据方面的需求。如果用一句话来描述,即:用户信息标签画。

大数据的时代背景下,画像被认作为企业应用大数据的根基,并直接跟企业经营能力、竞争优势的打造联系在一起。

有评论指出,要看一家企业的数据化运营程度,首当其冲地要看其“画像”构建情况:是否建设了“画像”?“画像”体系构建程度如何?针对什么对象进行了画像?构建画像的各种标签与指标情况如何?有没针对已建立起来的”画像”的应用?应用情况如何?等等

2、为什么要进行用户画像

这跟用户行为识别及数据应用直接相关。

各行各业都期待着,用户能主动告诉我们,他们的行为偏好。然而,事实既总非如愿,技术实现也非如此简单:首先,用户用以描述兴趣的自然语言很难为自然语言理解技术所理解;其次,用户的 兴趣是不断变化的,无法不停地提供兴趣描述;最后,很多时候用户并不知道自己喜欢什么,或很难清楚描述出自己喜欢什么。

于是,我们需要通过算法自动发掘用户行为数据,从用 户的行为中推测出用户的兴趣,从而给用户推荐满足他们兴趣的产品和服务,而画像,就是其中最重要的应用之一。

画像,通过为用户打标签的方式,使计算机能够程序化处理与人相关的信息。

如用户信息的分类统计:喜欢魅族的用户有多少?喜欢魅族的人群中,男、女比例是多少?如用户数据的挖掘工作:利用关联规划计算,购买该种商品的用户还购买了什么产品?利用聚类算法分析,喜欢该种产品的人年龄段分布情况如何等等?

3、构建用户画像的关键是什么?

从画像与标签的关系也可以窥见一斑,标签是画像建设的关键。同时,它也是大数据技术场景化的关键,因为如果没有针对场景构建出来标签,大数据的应用往往就很难“落地“。

一个标签通常是人为规定的高度精炼的特征指标,如年龄段标签:25-35岁;地域标签:北京、上海;设备标签:PC、移动;性别标签:男、女等等。

标签呈现出明显的语义化与短文本的特征:语义化,人能很方便地理解每个标签含义,使得用户画像模型具备实际意义,能够较好的满足业务需求;短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。

制定标签要遵循一定的规则,既要涵盖重要信息,又要方便机器做标签提取、聚合分析。

案例:用户的商品价格偏好标签建设过程

以某公司构建用户消费偏好画像为例,我们需要根据具体场景下用户的选择行为,将用户偏好画像拆分成几个不同数据标签:品牌、价格、购买时间、购买方式等

取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?

方法一:按统计学的方法

1、按分位数进行。例如:25%,50%,75%

2、按等箱原则。划分几等分

3、看数据的分布。

4、……

方法二:按业务知识经验

把价格带按业务经验,行业经验进行划分。

通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。

通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。

例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。

4、构建用户画像的方法

从上面案例中,我们可以抽象出构建用户画像的方法,即用户画像模型的构建方法。

一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户、在什么时间、在什么地点、做了什么事。

其中用户的属性识别关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息:时间戳和时间长度,时间戳指的是标识用户行为的时间点,通常精确到秒;时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点,在互联网上,用户的接触点就包括了网址和内容两个重要信息。

用户行为属性有不同的类型,结合接触点的内容产生的标签信息,具有不同的权重。用户画像的数据模型可以概括为这样一个公式:用户标识+时间+行为类型+接触点(网址+内容),某个用户在某个时间、某个地点做了什么事情,就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子,行为类型、网址决定了权重,内容决策了标签,可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。

通过这样的计算才能够构建用户画像模型,进而能够逐步细化模型,从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新,从而精准把握用户心理,为每一个用户提供最完美的精细化服务,全面提升客户感知,最终实现客户满意度的不断提升。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容