推荐业务流程简述

目前在做电商推荐业务, 对一般公司的推荐流程有了一个初步的了解,现在过来总结一些。

以前在学校接触到的电商推荐例如天猫的推荐比赛等,都是很小的数据集,然后那时候采用的方式都是把大部分精力放在模型的选择、组合以及参数的调整上,但是这种思想模式到了有一定数据积累的公司,侧重点就要发生变化了:因为数据量大了。这里会涉及到分布式存储和分布式计算。部门做推荐首先是对每个用户选择出一部分用于CTR预估的候选集, 因为如果把整个直接用模型跑,会很慢,达不到实时响应推荐的目的。因此,推荐基本上分为了两个步骤:1)为每个用户确定一个精简的候选集, 这个集合的特点是,用户感兴趣的商品绝大多数都在这里面,即准确性较高,同时物品多样性也应该比较高。2)打分模型。在该精简的候选集的基础上,再在分布式集群上跑, 对候选集中的商品进行排序打分,因为数据量少了,可以在达到400ms的实时推荐效果。
在第一步确定候选集的过程中,通常不需要特别复杂的模型. 因为一是考虑到这个候选集是应该包括该用户所有可能感兴趣的商品,这个粒度比较粗糙;二是生成候选集的这个模型最后可能会上线,所以不能要求时间复杂度太高。目前公司第一步生成候选集的方式主要用到了两种:1)Item-based CF, 2)根据商品点击率等确定的热门商品。也查过了一些资料,看到美团的召回策略也是几个基础的模型:

(1).User-Based 协同过滤:找出与当前User X最相似的N个User,并根据N个User对某Item的打分估计X对该Item的打分。在相似度算法方面,采用了Jaccard Similarity:
(2).Model-Based 协同过滤:用一组隐含因子来联系用户和商品。其中每个用户、每个商品都用一个向量来表示,用户u对商品i的评价通过计算这两个向量的内积得到。算法的关键在于根据已知的用户对商品的行为数据来估计用户和商品的隐因子向量。感觉类似于矩阵分解策略。
(3).Item-Based 协同过滤:先用word2vec对每个Item取其隐含空间的向量,然后用Cosine Similarity计算用户u用过的每一个Item与未用过Item i之间的相似性。最后对Top N的结果进行召回。
(4).Query-Based:是根据Query中包含的实时信息(如地理位置信息、WiFi到店、关键词搜索、导航搜索等)对用户的意图进行抽象,从而触发的策略。
(5). Location-Based:移动设备的位置是经常发生变化的,不同的地理位置反映了不同的用户场景,可以在具体的业务中充分利用。在推荐的候选集召回中,根据用户的实时地理位置、工作地、居住地等地理位置触发相应的策略。

在利用上述模型产生出候选集之后对候选集进行融合,然后在该精简的候选集的基础上对候选集中的items进行打分排序,这里排序算法一般会使用到机器学习模型以及深度学习模型,此外,这里特征的提取和选择也是一个大工程, 公司的打分模型的特征维度在40万左右。美团也披露了其在探索深度学习模型时用到的特征提取和特征选择方法。
特征提取:从原始数据出发构造新的特征的过程。方法包括计算各种简单统计量、主成分分析、无监督聚类,在构造方法确定后,可以将其变成一个自动化的数据处理流程,但是特征构造过程的核心还是手动的。
特征选择

image.png

后面就是模型的选择,融合以及调参工程了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,738评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,377评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,774评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,032评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,015评论 5 361
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,239评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,724评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,374评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,508评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,410评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,457评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,132评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,733评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,804评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,022评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,515评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,116评论 2 341

推荐阅读更多精彩内容