作者以及单位
Zhu Sun (第一作者), Hui Fang (通讯作者)
澳洲麦考瑞大学,上海财经大学
解决问题
在推荐系统算指标的时候,应该用什么样的标准体现其公平性?(我觉得是一个非常好的问题,很多新的作者在测试state-of-the-arts算法都感觉没有论文现在的那么好,而且作者解释是超参不一样)
所以本文针对隐式反馈Top-N推荐问题提出一种benchmark,并总结出一些在对于模型评价具有重要影响的实验设置因素:数据处理,数据分割,超参数选择、负采样选择以及损失函数选择等。
研究对象
2017-2019 一共三年八个顶会:RecSys,KDD,SIGIR,WWW,IJCAI,AAAI,WSDM,CIKM.共24次会议(工作量很大)。
在这24个会议中搜索以下关键字:recommand,collaborative filtering,手工选择 ranking metrics指标,如precision和recall等。
最后定了85篇文章,并都提供了github的源代码以及数据。
果然数据是movielens是第一名。基本以后的推荐系统文章数据集来自以下内容
大家通常对比的论文是这些。看来贝叶斯性化排序 (BPRMF) ,render的因子分解机FM和何向南的NeuMF是大家的最爱。(第二名和第三名分别发论文质疑对方的效果。)
我觉得这个是最重要的,大家对比的metrics分别是什么。排序的ndcg果然是第一,接下来是召回recall和HR以及precision的准度。
内含常用的基线和SOTA对比方法:(虽然我经常用state-of-the-art这个词,但是我一直不知道SOTA是它的缩写,本来以为是一个很厉害的模型,是指最先进的模型)即,如果要比,一般比这几个算法:
论文地址:https://dl.acm.org/doi/pdf/10.1145/3383313.3412489
论文源码:https://github.com/AmazingDD/daisyRec
研究方法
第三章核心讨论了大家推荐结果不同的主要原因IMPACTS OF DIFFERENT FACTORS如下:
数据预处理Data Pre-processing
损失函数Objective Function
负样本Negative Sampling
分数据的方法Data Splitting Methods
评测指标Evaluation Metrics
可以看到例如数据划分的比例不一样,在NDCG表现的结果就不一样的。
评测指标与时间划分的相关性(说实话,我没有看懂这个图的意思)
创新点
说了以上可能出现的问题,那么什么样的数据预处理,损失函数,负样本处理,划分和评测是好的呢?
作者提出benchmarks需要满足的一些条件,并基于此选择一些代表性的模型进行实验。除此之外,还发布了基于python的代码库。以下为该开源代码库的架构图,包括数据集的加载方式、预处理方式、对比方法选择等组件。
结论
原文说的很清楚了:
1:以后的推荐系统最后就定了1数据处理,2数据分割,3超参数选择、4负采样选择以及5损失函数选择6评测指标,这6个。
2:在这6个指标上,作者提出了比较出名的数据集最好的参数(github有),大家以后就按这个参数设置。
3:如果还不会,给了python的工具包DaisyRec方便调用。
读完总体感觉,看起来比较简单创新不大,但是贡献很大,而且工作量不少!而且写法比较新颖,比较少见。
we summarize the essential factors related to evaluation, e.g., data splitting methods, evaluation metrics and hyper-parameter tuning strategies, etc. Through an extensive empirical study, the impacts of different factors on evaluation are then comprehensively analyzed.
we create benchmarks for rigorous evaluation by proposing standardized procedures and providing the performance of seven well-tuned state-of-the-art algorithms on six widely-used datasets across six metrics as a reference for later study.
Lastly, a user-friendly Python toolkit-DaisyRec has been released from the angle of achieving rigorous evaluation in recommendation.