背景:Personal Rank 属于协同的一种,也是为了精准的match用户感兴趣的物品,是一种基于图的推荐算法。最近在具体落地这个算法方面遇到了一些时间性能方面的问题,所以整理一下,文中不仅会涉及算法介绍,同样会涉及具体代码,以及为了优化时间所做的工作。
personal rank算法介绍:普适推荐问题中的(user,item)对,可以表示为二分图G(V,E),两类顶点分别表示用户Vu,以及物品Vi,如下图1所示 用户A点击了物品abd,用户B点击了ac,C点击了be,D点击了cd。那么可以转化为右图,右图只标示了用户A和他点击物品的连击,其余类似。该算法的核心目的是衡量出对某一固定结点,其余结点的重要程度。从而得出推荐顺序。
关于如何衡量某一个结点对于另一个结点的重要程度,物理解释如下:(1)两个顶点之间的路径数是否比较多(2)两个顶点之间路径的长度是否比较短。(3)连接两个顶点的路径是否较少经过出度较大的结点。那么基于随机游走的personal rank算法是如何阐述的呢? 假设我们要给用户A推荐物品。从顶点VA开始出发,以alpha的概率从A的出边中等概率的选择一条随机游走过去,到达下一个顶点,比方说顶点a,从下一个顶点a有(1-alpha)的概率回到起点A,或者alpha的概率继续等概率游走到到顶点a的出边中。多次循环后发现,各顶点的重要度收敛。递推公式如下图2所示:
这个递推公式是不是非常眼熟,将公式中(1-alpha)换成(1-alpha)/n ,那么就变成了page rank,当然page rank不会固定某一顶点。根据personal rank的递推公式很容易给出demo 代码如下。但是这个demo的时间性能非常差(n万级别用户物品点击对数据需要在spark下并行需要1个小时不能接受)
根据如上代码分分析耗时主要发生在每个用户结点需要循环跌代,上述图2所示推导公式可以转化为矩阵形式这样的话运算的耗时将会降低非常多。矩阵形式推导见图4.下图中,最后结果行由于推荐是求的结点的相对重要性,所以在实际计算中1-alpha可以省略,(E-alpha*M.tranpose()) 的逆矩阵即为所有结点推荐结果的。每一列表示一个结点的结果(如果该矩阵为n*n)。r0 即为n*1矩阵,且只有一行为1,其余为0,想取出第几个结点的结果就将第几行赋值为1.
由图3中G转化为M矩阵也就是转移矩阵的过程中,可以想象转移矩阵必然及其稀疏,为了节约时间以及控制以免内存error,采取稀疏矩阵的存储方式。python中关于稀疏矩阵的库是scipy.sparse. 有很多形式的稀疏矩阵类可以采用,封装的非常好,根据需要可以自行选择。api document:https://docs.scipy.org/doc/scipy/reference/sparse.html我们这里选用了coo的方式见图5(数十万点展对仅从G转化为M矩阵仅耗时0.47s左右),存储灵活,可以迅速转化成csr快速计算,也便于后续求逆。稀疏矩阵的求逆,转化为解线代方程。Ax=E,而且由于矩阵A明显是稀疏矩阵,所以解稀疏矩阵的线性方程,用到python的scipy 下面的gmres库,解释文档里说可以解(Ax=b型的线性方程,b可以是n*1或者n*多,但是一经试验发现只能用解 n*1,那么也就说每次只能解出一个用户的推荐结果单个用户解出方程,并给出topk推荐用时大约0.72s但是试想如果是数十万量级的用户串行解决肯定是行不通的,所以再求出A之后,需要进行spark并行,十万用户,数十万用户物品点击对,1主13work164vcore的集群配置下,经过repartition以及num-executor*executor-cores合理配置,占满资源20min,占一半多core可以在30min左右),图6是给出矩阵A产出的代码实现。注:单位矩阵np.eye(num) num一大就会报mem error,采用稀疏矩阵过渡。图7给出了vertex矩阵的第一个顶点的推荐顺序。关于spark程序这里就不给出了。其实就是临门一脚了。感兴趣的小伙伴可以自己尝试一下,如有问题请留言。当然大家如果想应用这个算法,需要离线评估推荐准确率,关于本文所叙述离线评估算法推荐的准确度,以及实际应用到线上的点展比,由于牵扯实际项目不方便透漏。
我们每一步的前进都是站在巨人肩上,特别鸣谢参考文献。如需全文转载请注明出处,谢谢
参考文献:http://www.cnblogs.com/zhangchaoyang/articles/5470763.html,http://it.sohu.com/20170220/n481178384.shtml,http://blog.jobbole.com/71431/