用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商品
品牌偏好、商品类别偏好等。这些标签的数目越丰富,标签越细化,对
用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女性
相关的服装、个人护理等商品作为推荐结果反馈给该用户;但若根据用
户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息为
海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装
作为推荐结果。
一般而言,用户画像可以分为基础属性、购物偏好、社交关系、财
富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的
行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于
全域数据产出的。
购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键
特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品
的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品
标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,
淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格
描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权
重去除无效的停用词,方法如计算TF-IDF值。其次,在女装商品的参
数描述中,如果已经包含了一种商品风格,例如"通勤""韩版"等常
见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以
过滤得到女装风格词库,利用无监督机器学习如LDA等方法可以计算
出一种风格所包含的词汇及这些词汇的重要性。那么,买家偏好什么风
格呢?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以及
交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强
度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的
方式获知买家对该风格的偏好程度了。
对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的
商品的类型、品牌、风格元素、下单时间,这一系列行为可以构成复杂
的行为模块。同理,利用机器学习算法,可以从用户行为中推测其身份,
例如男生和女生、老年与青年偏好的商品和行为方式存在区别,根据一
定的用户标记,最后能够预测出用户的基础身份信息。