1、背景

在淘宝的推荐中，面临以下三个问题：

可扩展性(scalability)：一些现有的推荐系统方法，在小规模数据集上效果很好，但是在想淘宝这样的拥有十亿用户和二十亿商品的数据集上，表现得并不好。

稀疏性(sparsity)：用户仅与非常少的商品有过交互行为，这样的话很难精确训练一个推荐模型。

冷启动(cold start)：在淘宝中，每个小时都有百万级别的新的商品上线，这些商品没有过用户行为，预测用户对这些商品的偏好是十分具有挑战性的。

为了解决上面的这些问题，淘宝也采用了业界常用的两阶段框架，第一阶段称为匹配阶段，也可以叫做召回阶段，从大规模的商品集中召回一个比较小的候选集。第二阶段是排序阶段，对召回的候选集进行精确排序。

在召回阶段，主要的方法是计算商品之间的相似性，从而根据用户的历史交互行为得到用户可能喜欢的相似商品。计算商品的相似性，可以采用协同过滤的方法，但是协同过滤仅仅考虑了商品在交互矩阵中的共现性；使用图嵌入(Base Graph Embedding (BGE))的方法，比如随机游走的方法，可以学习到比较好的商品之间的相似性，但是对于出现次数很少甚至没有用户交互过的商品，依然难以有效地学习。

因此，本文提出使用基于side information的图嵌入学习方法，称作Graph Embedding with Side information (GES)。这里的side information你可以理解为辅助信息，比如一个商品的品牌、店铺名、类别等等。使用side information来学习商品的embedding的话，同一个品牌或者类别的商品应当更相似。但是在淘宝中，有数以百计的side information，这些side information对于商品向量的贡献程度是不同的，比如一个购买了iphone的用户，倾向于查看mac或者ipad，更多的是因为他们都是苹果的牌子。考虑不同的side information对最终的item embedding的不同影响，这种方法称作Enhanced Graph Embedding with Side information (EGES)。

接下来，我们就来介绍三种方法，分别是Base Graph Embedding (BGE)、Graph Embedding with Side information (GES)和Enhanced Graph Embedding with Side information (EGES)。

2、模型介绍

2.1 Base Graph Embedding (BGE)

Base Graph Embedding (BGE)的完整流程可以参考下图：

首先，从用户的行为中抽取出序列表示，这里有两个地方需要注意：
1）如果使用用户整个的行为历史序列，计算和空间存储资源耗费巨大
2）用户的兴趣在长时间内是会变化的，但是用户短时间内的兴趣是相同的
基于以上两点原因，需要对用户的历史行为序列进行切割／这里以一小时为间隔，若两个商品的交互时间超过1小时，就进行切分。如图中的U2，E和D的时间间隔大于1小时，所以将序列切割为BE和DEF。

接下来，将所有的到的序列表示称有向带权图，如图中的D->A出现了一次，那么就会有一条从D指向A的边，同时边的权重记为1。再强调一次，这里是用所有用户经上一步的到的序列汇总起来得到一个有向带权图，而非每个用户对应于一张图。

在实际应用中，需要对一些噪声信息进行过滤，主要有：

1）点击之后用户停留时间小于1s，这可能是用户的误点击，需要过滤。
2）太过活跃的用户进行过滤，比如三个月内购买了1000件以上的商品，点击了3500个以上的商品。
3）同一个ID，但是发生变化的商品需要过滤。

在得到有向带权图之后，基于随机游走的方法产生一批序列，商品转移概率基于边的权重M_ij：

得到的序列举例如下：

随后，我们便可以通过Skip-Gram的方法来学习每个商品的向量啦。使用负采样的方式，我们的优化目标是：

感觉论文里这个地方写错了啊，应该是maxmize。前面的v_j是正样本，后面的v_t是采样得到的负样本。

还有一点我觉得值得商榷的是，对于Skip-Gram来说，每个商品对应了两个embedding，如下图：

最终获得的是商品在InputMatrix中对应的embedding，当前商品通过InputMatrix得到其Hidden Representation，然后与其计算dot product的应该是outputMatrix中商品的对应的embedding，所以感觉这里的符号表示有点问题。

2.2 Graph Embedding with Side information (GES)

上面的Base方法，可以较好的学习到item embedding，但是冷启动问题无法很好的解决。基于此，提出了Graph Embedding with Side information方法。为了与之前的item embedding区分开，在加入Side information之后，我们称得到的embedding为商品的aggregated embeddings。商品v的aggregated embeddings计作H_v。

aggregated embeddings的计算公式如下：

其中，W⁰代表item embedding，W¹,Wⁿ代表每种Side information对应的embedding。

具体的流程我们在下一节再细讲，因为GES和EGES的原理都是相通的。

2.3 Enhanced Graph Embedding with Side information (EGES)

正如前文的例子，比如一个购买了iphone的用户，倾向于查看mac或者ipad，更多的是因为他们都是苹果的牌子。因此不同的side information在最终的aggregated embeddings中所占的权重应该是不同的，所以此时的aggregated embeddings计算公式如下:

2.3 GES和EGES的学习

GES和EGES的流程如图：

此时损失函数可以表示为：

这里的Z_u应该是商品u在OutputMatrix中对应的embedding，通过反向传播进行学习：

这里有一个需要注意的地方，自身item embedding和每种side information的权重，对每个商品来说是不同的，并非采用相同的权重，权重通过反向传播算法进行学习，具体表示为：

item embedding 和 side-information对应的embedding同样通过反向传播学习：

3、实验分析

3.1 实验结果

这里主要进行了两部分的实验，离线实验和在线实验。

对于离线实验，对比了不同模型的AUC，咱们这里不是有正样本和负样本嘛，使用学习到的embedding 计算dot-product之后，将样本排序，计算AUC，结果如下：

在线实验，对比了不同模型下推荐结果的CTR：

可以看到，都是EGES方法效果最好。

3.2 案例分析

可视化embedding结果

对于学习到的embedding，通过PCA降维的方式将其展示出来：

可以看到结果中，足球、羽毛球和网球相关的商品基本都聚集在了一起。

解决冷启动问题

对于新加入的商品，我们使用其side information对应的embedding的均值来代替它的embedding，这样做的效果如下：

可以看到，通过这样的方式计算得到冷启动商品的embedding，其相似商品结果是比较好的。

EGES中的权重

前面提到过，自身item embedding和每种side information的权重，对每个商品来说是不同的。这里我们展示了部分商品对应的权重。

4、对比总结

与本系列第三十六篇相比，主要有下面两个不同吧。

1、本文混合了所有用户的交互序列构建了有向带权图，进一步通过随机游走的方式生成新的序列；而第三十六篇中方法直接使用用户的交互序列。感觉这两种方式都是可行的。本文以淘宝推荐为基础，商品数量巨大，通过随机游走的方式可以生成更多的训练集；而第三十六篇中方法终，以盒马鲜生推荐为基础，商品数量并没有那么多。
2、两篇文章对不同的side information都进行了加权，本文的权重是通过模型训练得到的，而第三十六篇文章中权重是预先定义好的。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,524评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,869评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,813评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,210评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,085评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,117评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,533评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,219评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,487评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,582评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,362评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,218评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,589评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,899评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,176评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,503评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,707评论 2赞 335

推荐系统遇上深度学习(四十六)-阿里电商推荐中亿级商品的embedding策略