第12届ACM Conference on Recommender System在2018年10月2号至7号在加拿大温哥华召开。RecSys作为推荐系统的顶会,收到了业界的广泛关注。2018年共有816人参会,长文投稿181篇,接受32篇,录用率18%;短文投稿150篇,接受38篇,录用率25%。很幸运今年有中一篇短文和一篇workshop,有幸参与此次推荐系统的盛会。当然也是我第一次参加RecSys:)
会议特点
1. 小众:RecSys与其他机器学习会议如NIPS,IJCAI,KDD等相比,在国内知名度相对较低。主要的投稿还是美国居多,占据了26.6%;中国只占了7.9%。
2. 重视问题多于重视方法:感觉对于RecSys来说,会议更在乎这个研究解决的问题是什么,是否有意义,是否新颖有趣。在算法方面,则没有其他机器学习会议重视算法创新性,而更多的是讨论在某个具体推荐场景下的问题和如何解决。看到很多工作都是将已有的一些方法进行变形之后应用到新的更具体的问题上。并且录用的文章中有相当大的一部分是数据挖掘,而不是机器学习的文章。所以,对于RecSys来说,好的问题是文章成功的一半。
研究趋势
1. 深度学习及其可解释性:具不完全统计,长文中22%,短文中24%的文章与深度学习有关。并且tutorial和workshop只要是深度学习相关的,一定爆满,足见深度学习对于推荐系统的影响。在与一些教授交流的过程中,也有一大部分拒绝使用深度学习,主要原因就是认为深度学习的结果是一个黑箱,缺少可解释性。所以如果未来,随着对深度学习原理的研究逐渐深入,想必会对推荐系统社区产生更大的影响。
2. 推荐结果的可解释性:传统的推荐算法往往只重视推荐的准确性,而近几年,越来越多的推荐算法开始关注推荐结果的可解释性,希望能与用户产生沟通交流,以用户更容易接受的方式展示推荐的结果。像Netflix,就会在每一个推荐列表前用一句话解释用户为什么会得到这样的推荐结果:
3. 推荐结果的多样性和公平性:如果只考虑推荐的准确性,算法很容易就陷入单一类别的局部最优解。所以会议上有一部分很有趣的工作就是使用如bandit等算法,引入多样性。公平性是一个暂时没有具体数值上衡量标准的问题,如果只用均衡(balance)来作为标准,则多样性和公平性其实是一致的。
4. 强化学习:这个问题是和很多大公司交流他们很看重的一个问题,此次RecSys也录用了京东的一篇关于使用RL做推荐的长文。
5. 推荐结果的评估:特别是一些在线学习算法,往往会存在推荐的结果在log日志中没有的情况。在这种情况下如何进行算法评估也是一个需要仅需深入研究的问题。
印象最深的5篇文章
1. Causal Embeddings for Recommendation (by S. Bonner, F. Vasile, Best Long Paper)
这篇文章一个很好的点就是,大多数推荐系统往往是为了某些商业目的,如增加点击率或下载率,试图改变用户本身自然的行为,所以我们看到的用户点击或者下载,其实是受到了现用推荐算法影响了的。 也就是说在这种场景下,我们收集到的训练数据其实是有bias的,怎么消除这种bias,以训练出来一个更好的推荐系统呢?这篇文章使用了强化学习的框架,提出了CauseE算法:
2. Generation Meets Recommendation: Proposing Novel Items for Groups of Users (by T.V. Vo, H. Soh, Best Long Paper Runner-up)
这篇文章的问题很新,就是希望generate出来一组新的item(每个item是由一组feature定义的),能够让所有的用户都喜欢(其中的一个)。作者所例举的一个真实场景就是,比如设计团队希望设计一组不同机型的手机,让所有的受众都喜欢,像iPhoneXS和iPhoneXR的所涵盖目标用户就不同。这篇文章就是解决要求cover住所有的用户群体的目标下,应该如何设计产品。文章的基本想法就是使用VAE,首先将user和item embed到latent space Z中,然后使用greedy算法,在latent space中选点,以cover住所有的用户,最后通过decoder产生新的item。
3. HOP-rec: High-order Proximity for Implicit Recommendation (by J.-H. Yang, C.-M. Chen, C.-J. Wang, M.-F. Tsai, Best Short Paper Runner-up)
这篇文章提供了一个将matrix factorization和graph-based model结合的方法。user-item交互的历史信息其实是一个bipartite graph。这篇文章提出使用random walk将历史交互信息填入待分解的user-item矩阵中,提高推荐质量。
4. Translation-based Factorization Machines for Sequential Recommendation (by Rajiv Pasricha, Julian McAuley)
这篇文章将Sequential Recommendation与Factorization Machines(FM)结合。Sequential Recommendation是指考虑推荐中一些物品的时许上的先后依赖关系,比如应该先star war的第一部,再推荐第二部等等。文章在embedding空间中,加上了时间方向信息。
公式定义如下
5. Interpreting User Inaction in Recommender System (by Qian Zhao, Martijn Willemsen, Gediminas Adomavicius, F. Maxwell Harper, Joseph A. Konstan)
这篇文章也是在探讨一个非常有趣的问题,用户的反馈有点击,打分等等,但是更多的是用户看到了物品但是没有操作(inaction)。我们能从这些inaction中学到什么呢?文章作者通过调研提出可以将inaction分为以下7类,将问题直接转化为了一个分类问题。
其他
其实随着信息量越来越大,推荐系统也变得越来越重要,因为我们不可能看到信息的全部。更多时候我们看到的东西全都是推荐系统展示给我们的。这样一个直接的影响就是,推荐系统或多或少都在影响着我们对世界的认知。很多情况下,一个事物的本质是一个正方体,然而推荐系统只给我们看到了六面其中的一面,于是我们便认为这个事物只是2D的。所以,设计一个好的推荐系统真的很重要。
还有,要继续好好学英语了哈哈哈。