阿里Sequential Deep Matching Model 精读和理解

本文主要在于精读该论文,提取一些信息,一方面帮助掌握和深入理解模型构建的结构,另一方面大家要结合自己做项目的需求进行总结和拓展,以保模型运用恰当和线上效果。

一、论文和模型整体简介

推荐系统不仅需要获取用户的长期兴趣,还要对用户当前需求做出理解,而用户的长期行为会对最近的点击行为造成影响。目前针对于session的推荐,文中提到要解决的是:①在用户的一个session中,可能存在多种兴趣。②对用户,尤其是活跃用户,其行为丰富,兴趣广泛。那么对这两个问题,提出的解决方法是:用multi-head self-attention去抓取用户多类兴趣,用long-short term gated 融合模型取获取用户长期偏好。之后,对用户推荐商品。

所以针对短期session和长期session进行结合,短期session就是用户最新的兴趣偏好,针对短期sesssion,RNN模型以及RNN+attention结合模型的效果以及得到较好验证,加入attention之后,主要是避免用户的随机行为而导致的兴趣震荡。但是,他们忽略了一个这些兴趣的多方面描述,比如种类、品牌、颜色、店铺评价等,这也就描述了一个用户的决策过程,所以使用multi-head。

在SDM模型中,最终采用采用multi-head self attention 来抓取用户短期session的多方面的偏好,并结合gating机制来将长期偏好结合起来。使用一个gated fusion 模块去将长期和短期偏好结合起来。和一般的标量化的attention不同,用gate vector对复杂的神经网络来说,更有代表能力,其效果也好于层次attention结构。

二、模型详细说明

对SDM结构有了大概的了解后,下面看论文中的模型结构

1.png
2.png

我们将两张图结合来看,从而理解SDM模型结构:

① 短期行为: 上下图中蓝框部分,用户最近(latest)的session为short-term behavior,这部分构成Su,这部分通过多输出的LSTM,再通过multi-head attention,关于attention机制,大家可以看下这篇blog,

https://cloud.tencent.com/developer/article/1153079),再使用用户embedding vector eu 作为attention的query,最后得到用户短期vector s,attention network是累积多种向量到一个整体的表示,其实就是对每一种向量设置不同的权重,文中公式如下:

4.png

② 长期行为:上下图中绿框部分,用户过去7天的session为long-term behavior,文中使用用户浏览的商铺id,品牌id等,构成各自的set集,再使用用户embedding vector eu 作为attention的query,最后得到用户长期vector pu,文中公式如下:

5.png

③ 用户向量:将长期和短期数据经过gated神经网络结合起来。

6.png

④ 训练目标:目标为预测t+1时刻用户对每一个商品的分数。

⑤ 商品向量:商品向量为随机初始化,或者提前训练好,作为输入向量v。

⑥ 联合训练:将用户向量o和商品向量v,通过softmax层,再通过神经网络的feedback即可。


3.png
7.png

文中产生session的方法为:

①用session id来进行不同session的标记和划分

②间隔小于十分钟的,划分为同一个session

③一个session中最大长度为50,大于50的就重造下一个session

训练集构造:

① 样本:t时刻的正样本就是下一时刻用户点击的商品,注意训练数据的选取很重要,需要剔除一些用户和商品。

② 负样本:从所有商品池进行的log-uniform采样,而不是每个batch下

③ loss函数:softmax层后进行交叉熵,注意这里y=softmax(score)

④ 模型评价就是一般二分类用的查准率,查全率,F1,线上用pCTR,pGMV,和discovery。

三、其他说明

文章中的一些其他说明:

① 对于商品序列,采用平均polling层,会忽视商品内在的联系,从而使得推荐效果下降,所以使用weighted sum pooling。

② 使用user vector来进行attention部分的query,是因为不同用户对商品的侧重点不同,即利于推荐的千人千面。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342