本篇的思维导读如下所示:
1、什么是上下文
本章之前提到的推荐系统算法主要集中研究了如何联系用户兴趣和物品,将最符合用户兴趣的物品推荐给用户,但这些算法都忽略了一点,就是用户所处的上下文(context)。这些上下文包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐系统是非常重要的。比如,一个卖衣服的推荐系统在冬天和夏天应该给用户推荐不同种类的服装。推荐系统不能因为用户在夏天喜欢过某件T恤,就在冬天也给该用户推荐类似的T恤。
我们这里主要讨论时间上下文,并简单介绍一下地点上下文,讨论如何将时间信息和地点信息建模到推荐算法中,从而让推荐系统能够准确预测用户在某个特定时刻及特定地点的兴趣。
2、时间上下文
2.1 时间效应
时间是一种重要的上下文信息,对用户兴趣有着深入而广泛的影响。一般认为,时间信息对用户兴趣的影响表现在以下几个方面。
1)用户兴趣是变化的
2)物品也是有生命周期的
3)季节效应
2.2 系统时间特性分析
在给定时间信息后,推荐系统从一个静态系统变成了一个时变的系统,而用户行为数据也变成了时间序列。研究一个时变系统,需要首先研究这个系统的时间特性。包含时间信息的用户行为数据集由一系列三元组构成,其中每个三元组(u,i,t)代表了用户u在时刻t对物品i产生过行为。我们可以研究的时间特性如下:
数据集每天独立用户数的增长情况
系统的物品变化情况:比如物品的平均在线天数,如果一个物品在某天被至少一个用户产生过行为,就定义该物品在 这一天在线。因此,我们可以通过物品的平均在线天数度量一类物品的生存周期。
用户访问情况:我们可以统计用户的平均活跃天数,同时也可以统计相隔T天来系统的用户的重合度。
相隔T天系统物品流行度向量的平均相似度:取系统中相邻T天的两天,分别计算这两天 的物品流行度,从而得到两个流行度向量。然后,计算这两个向量的余弦相似度,如果相似度大,说明系统的物品在相隔T天的时间内没有发生大的变化,从而说明系统的时效 性不强,物品的平均在线时间较长。
2.3 推荐系统的实时性
实现推荐系统的实时性除了对用户行为的存取有实时性要求,还要求推荐算法本身具有实时性,而推荐算法本身的实时性意味着:
1)实时推荐系统不能每天都给所有用户离线计算推荐结果,然后在线展示昨天计算出来的 结果。所以,要求在每个用户访问推荐系统时,都根据用户这个时间点前的行为实时计 算推荐列表。
2)推荐算法需要平衡考虑用户的近期行为和长期行为,即要让推荐列表反应出用户近期行为所体现的兴趣变化,又不能让推荐列表完全受用户近期行为的影响,要保证推荐列表对用户兴趣预测的延续性。
2.4 推荐结果的时间多样性
那么,如何在不损失精度的情况 下提高推荐结果的时间多样性呢?提高推荐结果的时间多样性需要分两步解决:首先,需要保证推荐系统能够在用户有了新的 行为后及时调整推荐结果,使推荐结果满足用户最近的兴趣;其次,需要保证推荐系统在用户没 有新的行为时也能够经常变化一下结果,具有一定的时间多样性。
对于第一步,又可以分成两种情况进行分析。第一是从推荐系统的实时性角度分析。有些推荐系统会每天离线生成针对所有用户的推荐结果,然后在线直接将这些结果展示给用户。这种类型的系统显然无法做到在用户有了新行为后及时调整推荐结果。第二,即使是实时推荐系统,由于使用的算法不同,也具有不同的时间多样性。
那么,如果用户没有行为,如何保证给用户的推荐结果具有一定的时间多样性呢?一般的思路有以下几种。
在生成推荐结果时加入一定的随机性,
记录用户每天看到的推荐结果,然后在每天给用户进行推荐时,对他前几天看到过很多次的推荐结果进行适当地降权。
每天给用户使用不同的推荐算法。
3、时间上下文推荐算法
3.1 最近最热门
在没有时间信息的数据集中,我们可以给用户推荐历史上最热门的物品。那么在获得用户行为的时间信息后,最简单的非个性化推荐算法就是给用户推荐最近最热门的物品了。给定时间T, 物品i最近的流行度 ni (T ) 可以定义为:
3.2 时间上下文相关的ItemCF算法
那么基于时间上下文,我们可以从以下两个方面改进ItemCF算法。
1)物品相似度 : 用户在相隔很短的时间内喜欢的物品具有更高相似度。
2) 在线推荐:用户近期行为相比用户很久之前的行为,更能体现用户现在的兴趣。
首先回顾一下前面提到的基于物品的协同过滤算法,它通过如下公式计算物品的相似度:
而在给用户u做推荐时,用户u对物品i的兴趣p(u,i)通过如下公式计算:
在得到时间信息之后,我们可以通过如下的公式来改进相似度计算:
上面使用的衰减函数可能的形式如下:
除了考虑时间信息对相关表的影响之外,我们也应该考虑时间信息对预测公式的影响,一般来说,用户现在的行为应该和用户最近的行为关系更大,因此可以做如下的修正:
其中, t0 是当前时间。上面的公式表明, tuj 越靠近t0 ,和物品j相似的物品就会在用户u的推荐列表中获得越高的排名。
3.3 时间上下文相关的UserCF算法
与ItemCF一样,我们也可以在以下两个方面利用时间信息改进UserCF算法。
1)用户兴趣相似度:两个用户兴趣相似是因为他们喜欢相同的物品,或者对相同的物品产生过行为。但是,如果两个用户同时喜欢相同的物品,那么这两个用户应该有更大的兴趣相似度。
2)相似兴趣用户的最近行为 :在找到和当前用户u兴趣相似的一组用户后,这组用户最近的兴趣显然相比这组用户很久之前的兴趣更加接近用户u今天的兴趣。也就是说,我们应该给用户推荐和他兴趣相似的用户最近喜欢的物品。
首先回顾一下UserCF的公式,UserCF通过如下公式计算用户u和用户v的兴趣相似度:
其中N(u)是用户u喜欢的物品集合,N(v)是用户v喜欢的物品集合。
在得到用户相似度后,UserCF通过如下公式预测用户对物品的兴趣:
考虑时间因素,我们可以如下修改用户相似度计算,增加一个时间衰减因子,用户u和用户 v对物品i产生行为的时间越远,那么这两个用户的兴趣相似度就会越小。:
同样,如果考虑和用户u兴趣相似用户的最近兴趣,我们可以设计如下公式:
3.4 时间段图模型
在基于时间的图模型中,时间段图模型G(U,SU ,I,SI ,E,w,)也是一个二分图。U是用户节点集合,SU 是用户时间段节点集合。一个用户时间段节点vut∈SU 会和用户u在时刻t喜欢的物品通过边相连。I是物品节点 集合,SI 是物品时间段节点集合。一个物品时间段节点vit∈SI 会和所有在时刻t喜欢物品i的用户 通过边相连。E是边集合,它包含了3种边:(1)如果用户u对物品i有行为,那么存在边 e(vu , vi ) ∈ E ; (2)如果用户u在t时刻对物品i有行为,那么就存在两条边 e(vut , vi ), e(vu , vit ) ∈ E。
下图是一个简单的时间段图模型示例。在这个例子中,用户A在时刻2对物品b产生了行为。 因此,时间段图模型会首先创建4个顶点,即用户顶点A、用户时间段顶点A:2、物品顶点b、物 品时间段顶点b:2。然后,图中会增加3条边,即(A, b)、(A:2, b)、(A, b:2)。这里不再增加(A:2, b:2) 这条边,一方面是因为增加这条边后不会对结果有所改进,另一方面则是因为增加一条边会增加 图的空间复杂度和图上算法的时间复杂度。
这里,我们不再使用PersonalRank算法给用户进行个性化推荐。相应的,我们使用一种称为路径融合算法的方法,通过该算法度量图中两个顶点的相关性。
一般来说,图上两个相关性比较高的顶点一般具有如下特征:
1) 两个顶点之间有很多路径相连;
2) 两个顶点之间的路径比较短;
3)两个顶点之间的路径不经过出度比较大的顶点。
这里实在是不好弄公式,直接截图了:
4、地点上下文信息
除了时间,地点作为一种重要的空间特征,也是一种重要的上下文信息。这里我们不详细介绍了。