推荐论文阅读之ESM2

介绍

CVR转化率预估过程中存在样本选择偏差数据稀疏问题。这两个问题在阿里的上一篇论文ESMM中有提到,这里介绍一下。

  • 样本选择偏差:CVR模型建模通常使用点击后的样本post-click,或者说使用记录用户在点击后是否产生订单的数据;而模型在实际应用过程中是在整个样本空间上,用户还没有发生点击。这就导致数据有偏,不同分布。在post-click样本上建模后,在实际应用过程中并不能保证模型的准确性,而且应用模型的泛化能力。
样本空间
  • 数据稀疏:在电商系统,如淘宝,用户的行为链,通常包括曝光、点击、购买,各个阶段的数据量逐渐减少。使用post-click数据建模,这部分数据量相较于用于CTR训练的数据少1-3个数量级。

ESMM模型使用多任务学习,分别学习post-view点击率CTR和post-view 点击转化率CTCVR,目标CVR通过两者计算得到CVR=CTCVR/CTR;点击率CTR是在整个样本空间上,即所有的曝光样本进行训练,CTCVR也是在整个曝光样本上进行训练,pCTCVR=pCTRpCVR,最终的CVR任务也是在整个曝光样本上进行训练,应用,这样就可以解决样本选择偏差问题。同时两个任务CTR、CVR底层的embedding权重是共享的,可以缓解*数据稀疏问题。但是由于订单样本相较于曝光样本来说是在是太少,只有不到0.1%的曝光样本最后产生了订单;数据稀疏问题不能得到充分解决。

行为分析

通过对用户的网购行为进行分析,发现用户在发生点击行为后通常会有几种和购买行为相关的操作,进而提出了一种将post-click行为分解的建模方法。post-click行为根据是否和购买行为相关,可以分为决定性行为Deterministic和其他行为,决定性行为包括:加入购物车,加入心愿清单。这两种行为插在点击和购买之间,形成行为序列"曝光->点击->D(O) Action ->购买"。在这个行为序列图上进行模型建模,可以充分利用整个样本空间上的曝光样本,此外,由于加入购物车、加入心愿清单的样本数据相比购买数据会大很多,使用来自D、O Action的监督信号可以同时有效解决抽样选择偏差和数据稀疏问题。

基于这个想法,提出了ESM2模型。根据在序列图上定义的条件概率,使用多任务学习分别预测各自的小目标,然后将它们合并构成最终的CVR预测结果。

image-20201121155346640

模型分为3个模块:SEM、DPM和SCM。其中SEM,embedding权重共享层,在多个子任务之间共享权重,充分利用所有的曝光样本数据;DPM,分解预测模块,分解计算自己的任务task;最后是SCM,序列组合模块,将多任务的结果进行组合,构成最终的目标CVR。

简单来说,ESM2的三个模块,功能分别是embedding训练结果共享、单任务训练,多任务组合得到最终结果CVR。

用户行为序列"曝光-> 点击->D/O Action -> 购买",从收集到的数据集,我们可以知道构建不同的标签,是否点击、是否点击&发生D行为、是否点击&发生O行为,是否点击&是否转化(可以简化为是否转化),因为D行为和O行为是互斥的,点击&发生O行为=1-点击&发生D行为。不同的标签就可以用于不同的任务进行学习、训练。

任务分解

曝光-> 点击:点击率建模。在整个曝光样本上进行训练。

pctr

表示曝光后发生点击的概率,v表示是否发生曝光,取值为{0,1};c表示是否发生点击行为,取值为{0,1}。下标i表示第i个曝光样本。p_i^{ctr}=y_{1i}

曝光-> 点击 -> D Action:在整个曝光样本上进行建模。

ctavr

其中,a表示是否发生D行为,取值为{0,1}。

根据全概率公式可以,曝光样本发生D行为的概率等于曝光样本发生点击&D行为的概率 + 曝光样本未发生点击但发生D行为的概率。因为如果曝光样本发生了D行为,那么必然发生了点击行为,所以p(a_i=1|v_i=1,c_i=0)=0, p_i^{ctavr}=y_{2i}y_{1i},其中y_{2i}表示第i个曝光点击样本发生D行为的概率:点击->D Action。

点击->转化:点击->D/O Action -> 转化。

pcvr

其中b表示第i个曝光样本发生转化行为,取值为{0,1}。根据全概率公式和条件概率公式可以知道,

CVR=P(转化|点击,D Action) + P(转化|点击,O Action)

P(转化|点击,D Action)=P(转化,D Action|点击)*P(D Action|点击)

P(转化|点击,O Action)=P(转化,O Action|点击) * P(O Action|点击)

image-20201121172052119

曝光-> 点击->转化:曝光-> 点击-> D/O Action->转化,完整行为序列。

image-20201121172324663

PCTCVR=PCTR*PCVR.

根据收集到的三类标签:曝光后是否点击、曝光样本是否发生D Action(曝光->点击->D Action),曝光样本是否发生转化(曝光-> 点击->D/O Action ->转化),可以分别对pctr、pctavr、pctcvr在整个曝光样本上进行建模训练。同时根据条件概率可以知道,我们最终的目标PCVR也适用于整个曝光样本,pCVR=pCTCVR/pCTR,这样就可以解决样本选择偏差问题,同时由于D/O Action行为样本相比于转化样本数据量会提升,对于数据稀疏问题也可以得到进一步缓解。

Loss定义

三类标签,三种loss分别是pctr、pctavr、pctcvr loss。每种loss使用交叉熵损失函数:

ctr loss
ctavr loss

[图片上传失败...(image-e9b19f-1605970000092)]

最终loss为三者的加权和:

Loss函数

实验&其他

实验结果

其他:

深度学习网络的超参数调整

控制变量法。逐个调整,对于调整的当前超参数,比如MLP层数,通过选择不同的参数,进行训练、评估验证;将评估结果整理,通过图表展示,选择合适的参数。

调参

数值特征的embedding表示

对于数值特征进行embedding表示前,一般需要先进行离散化表示转化为one-hot特征,进而embedding训练。论文指出,数值特征离散onehot转化后进行embedding训练会影响模型的表现效果。因此,对数值特征进行正则化,然后进行tanh函数转化,这部分特征不进行embedding训练表示。

数值特征转化

这部分特征转化后直接拼接离散特征的embedding表示,然后送到esm2模型进行训练、评估。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容