推荐系统实践-利用上下文信息

时间上下文
时间信息对用户兴趣的影响表现在以下几个方面:
①用户兴趣是变化的;
②物品也是有生命周期的;
③季节效应
给定数据集后,可以通过统计以下信息研究系统的时间特性:
①数据集每天独立用户数的增长情况;
②系统的物品变化情况;
③用户访问情况(统计用户的平均活跃天数,或者相隔T天来系统的用户的重合度)
物品的生存周期
①物品平均在线天数:
如图所示,纽约时报等新闻类网站时效性很强,每条新闻热起来快,冷下去也快,维基百科则不同:


②相隔T天系统物品流行度向量的平均相似度:

纽约时报的数据集中,相似度下降很快,说明系统的物品流行度分布变化很快,系统时效性很强。
推荐系统的实时性
实现推荐系统的实时性除了对用户行为的存取有实时性要求,还要求推荐系统算法本身具有实时性,而推荐算法本身的实时性意味着:
①要求在每个用户访问推荐系统时,都根据用户这个时间点前的行为实时计算推荐列表;
②推荐算法需要平衡用户的近期行为和长期行为,既要让推荐列表反应出用户近期行为体现的兴趣变化,又不能让推荐列表完全受用户近期行为的影响,要保证推荐列表对用户兴趣预测的延续性
推荐系统的时间多样性
提高推荐系统的时间多样性需要分两步解决:首先,需要保证推荐系统能够在用户有了解的行为后及时调整推荐结果,使推荐结果满足用户最近的兴趣;其次,需要保证推荐系统在用户没有新的行为时也能够经常变化一下结果,具有一定的时间多样性
对于第一步,又可以分成两种情况进行分析:
第一是从推荐系统实时性角度分析;第二即使是实时推荐系统,由于使用的算法不同,也具有不同的时间多样性。
给用户推荐结果增加多样性的思路:
①增加随机性;
②将用户每天经常看的内容降权;
③每天给用户使用不同的推荐算法

时间上下文推荐算法
1.最近最热门
给定时间T,物品i最近流行度ni(T)可以定义为:


α是时间衰减参数
代码如下:

def RecnetPopularity(records, alpha, T):
    ret = dict()
    for user, item, tm in records:
        if tm >= T:
            continue
        addToDict(ret, item, 1/(1.0+alpha*(T - tm)))
    return ret

我们还可以考虑时间信息对结果的影响,一般来说,用户现在的行为应该和用户最近的行为关系很大,因此,我们可以通过以下修正公式:


其中,t0是当前时间,tuj越靠近t0,在用户u的推荐列表中获得越高的排名。β是时间衰减参数,需要根据不同的数据集选择合适的值

时间上下文相关的UserCF算法
可以利用时间信息改进:


用户u和v对物品i
产生行为的时间越远,那么相似度越小
得到用户相似度以后,可以通过如下公式预测用户对物品的兴趣:


其中,S(u,K)包含了和用户兴趣最接近的K个用户。如果用户v对物品i产生过行为,那么rvi=1,否则rvi=0
如果考虑和用户u兴趣相似用户的最近兴趣,我们可以设计如下公式:

时间段图模型
时间段图模型G(U,Su,I,Si,E,w,σ)为二分图,U是用户节点集合,Su是用户时间段节点集合。E是边集合,它包含了3种边:(1)如果用户u对物品i有行为,那么存在边e(vu,vi)∈E;(2)如果用户u在t时刻对物品i有行为,那么就存在两条边e(vut,vi),e(vu,vut)∈E。w(e)定义了边的权重,σ(e)定义了顶点的权重

路径融合算法首先提取出两个顶点之间长度小于一个阈值的所有路径,融合根据每条路径经过的顶点给每条路径赋予一定的权重,最后将两个顶点之间所有路径的权重之和作为两个顶点的相关度

假设P={v1,v2,...,vn}是一条路径,这条路径的权重取决于经过的所有的顶点和边:

这里的out(v)是顶点v指向顶点集合,|out(v)|是顶点v的出度,σ(vi)∈(0,1]定义了顶点的权重,w(vi,vi+1)∈(0,1]定义了边e(vi,vi+1)的权重。
在定义了一条路径的权重后,就可以定义顶点之间的相关度。对于顶点v和v',令p(v,v',K)为这两个顶点间距离小于K的所有路径,那么这两个顶点之间的相关度可以定义为:


对于时间段图模型,所有边的权重都定义为1,而顶点的权重σ(v)定义如下:

这里α和β是两个参数,控制了不同顶点的权重
根据书中离线试验显示,时效性强的数据集算法又明显提升,诸如Wikipedia则没有明显区分
地点上下文信息
LARS通过研究数据集发现,不同地理位置的人用户兴趣差距较大。45%的用户活动范围而不超过10英里,75%的用户活动范围不超过50英里。因此不能给用户推荐太远的地方。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341

推荐阅读更多精彩内容