自从Netflix Prize奖项设立以来,美国高校明尼苏达大学(UMN)的Grouplens团队公开了一系列用于测试推荐算法的数据集。其中,就包括几个大小不同的电影评论数据集,分别有10万,100万,1000万条电影评分数据。
网站除了用于测试电影推荐算法的数据集以外,还有其他数据集.
WikiLens是一个广义的协作推荐系统,允许其社区定义项目类型(例如啤酒)和类别(例如微酿啤酒,苍白啤酒,烈性酒),然后评价和获得项目推荐。
BookCrossing(BX)数据集由Cai-Nicolas Ziegler在Book-Crossing社区进行为期4周的爬虫(2004年8月/ 9月)收集,得到了Humankind Systems首席技术官Ron Hornbaker的许可。它包含278,858位用户(匿名但有人口统计信息),提供1,149,780个评分(显性/隐性),约271,379本书。
Jester 来自加州大学伯克利分校的Ken Goldberg也发布了Jester Joke推荐系统的数据集。该数据集包含来自73,496个用户的100个笑话的410万连续评级(-10.00到+10.00)。
EachMovie :HP / Compaq Research(前身为DEC Research)运行了EveryMovie电影推荐器。当EveryMovie关闭时,数据集可供公众用于研究。MovieLens最初基于此数据集。它包含了2,811,983个评级,共有72,916个用于1628种不同电影的评级,并且已被用于众多CF出版物中。截至2004年10月,惠普退出了EveryMovie数据集。它已不再可供下载。
HetRec2011 :第二届推荐系统信息异构和融合国际研讨会(HetRec 2011,http://ir.ii.uam.es/hetrec2011 )发布了Delicious,Last.fm Web 2.0,MovieLens,IMDb和烂番茄的数据集。这些数据集包含来自约2,000个用户的集合的社交网络,标记和资源消耗(网页书签和音乐艺术家收听)信息。
Serendipity 2018 :基于真实用户反馈调查推荐系统中的意外发现”的数据集。
MovieLens数据集打包下载 提取码:rixe
NOTE:其他数据集按需要下载即可;使用数据之前请看网站的README。
参考:《Python数据挖掘入门与实践》,https://grouplens.org/datasets/