推荐算法数据集

Movies Recommendation:

  • MovieLens
  • 基本内容:
      MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。 最大的数据集使用约14万用户的数据,并覆盖27,000部电影。 除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。 这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。
      MovieLens的数据在过去20年中已经由大学的学生以及互联网上的人们进行收集了。 MovieLens有一个网站,您可以注册,贡献自己的评分,并接收由GroupLens组实施的几个推荐者算法这里之一的推荐内容。

  • 下载链接:
       Link_1

  • Yahoo!
  • 基本内容:
      Movie, Music, and Images Ratings Data Sets.

  • 下载链接:
      Link_1

  • Cornell University
  • 基本内容:
      Movie-review data for use in sentiment-analysis experiments.

  • 下载链接:
      Link_1

  • Netflix Prize Dataset
  • 基本内容:
      

  • 下载链接:
      Link_1

  • MovieTweetings
  • 基本内容:
      

  • 下载链接:
       Link_1

  • Jester
  • 基本内容:
      当你让一批学者写一个笑话评分系统,你会得到什么?Jester! Jester是由Ken Goldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。 像MovieLens一样,Jester评分由互联网上的用户提供。 你可以在这里贡献你自己的评分。
      与我们使用的其他数据集相比,Jester有两个方面是特殊的:它使用-10到10的连续等级,并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”?如果每个用户都对每个项目进行了评分,那么评级密度将为100%。 如果没有人评价过任何东西,那将是0%。 Jester的密度约为30%,这意味着一个用户平均对30%的笑话进行了评分。 作为比较,MovieLens 1M的密度为4.6%(其他数据集的密度低于1%)。当然不是那么简单。 不是每个用户都评价相同数量的项目。 相反,一些用户对许多项目进行评分,大多数用户只评价一些。 这可以在以下直方图中看到:

    评分图

  • 下载链接:
      Link_1



Music Recommendation**:

  • Last.fm
  • 基本内容:
      Music Recommendation Data Sets

  • 下载链接:
      Link_1

  • Yahoo!
  • 基本内容:
      Movie, Music, and Images Ratings Data Sets

  • 下载链接:
      Link_1

  • Audioscrobbler
  • 基本内容:
      Music Recommendation Data Sets

  • 下载链接:
      Link_1

  • Amazon
  • 基本内容:
      Audio CD recommendations.

  • 下载链接:
      Link_1



Books Recommendation:

  • Institut für Informatik, Universität Freiburg
  • 基本内容:
      Book Ratings Data Sets
  • 下载链接:
      Link_1

  • BookCrossing数据集
  • 基本内容:
      BookCrossing 数据集包含用户对图书的行为信息,包含 3 个文件。
      - BX-Users.csv ,包含用户的 ID 、位置和年龄。
      - BX-Books.csv ,包含图书的 ISBN 、标题、作者、发表年代、出版社和缩略。
      - BX-Book-Ratings.csv ,包含用户对图书的评分信息。
  • 下载链接:
      Link_1



Products Data:

  • Amazon product data
  • 基本内容:
      
    -Description
      This dataset contains product reviews and metadata from Amazon, including 143.7 million reviews spanning May 1996 - July 2014.
      This dataset includes reviews (ratings, text, helpfulness votes), product metadata (descriptions, category information, price, brand, and image features), and links (also viewed/also bought graphs).
  • Files
    **Complete review data
      Please see the per-category files below, and only download these (large!) files if you absolutely need them:
    raw review data (20gb) - all 143.7 million reviews
      The above file contains some duplicate reviews, mainly due to near-identical products whose reviews Amazon merges, e.g. VHS and DVD versions of the same movie. These duplicates have been removed in the two files below:
    user review data (18gb) - duplicate items removed (83.31 million reviews), sorted by user
    product review data (19gb) - duplicate items removed, sorted by product
      Finally, the following file removes duplicates more aggressively, removing duplicates even if they are written by different users. This accounts for users with multiple accounts or plagiarized reviews. Such duplicates account for less than 1 percent of reviews, though this dataset is probably preferable for sentiment analysis type tasks.
    aggressively deduplicated data (18gb) - no duplicates whatsoever (83.08 million reviews)
    Format is one-review-per-line in (loose) json. See files below for further help reading the data.
  • 下载链接:
      Amazon product data 简介
      下载链接



Food Recommendation:

  • Chicago Entree
  • 基本内容:
      Food Ratings Data Sets
  • 下载链接:
      Link_1



Mobile Recommendation:

  • Data Set for Mobile App Retrieval
  • 基本内容:
      
  • 下载链接:
      Link_1

  • Frappe
  • 基本内容:
      
  • 下载链接:
      Link_1

  • Ali_Mobile_Rec
  • 基本内容:
      
  • 下载链接:
      Link_1 ;
      Link_2

  • Mobile App User Dataset
  • 基本内容:
      
  • 下载链接:
       Link_1



Healthcare Recommendation:

  • Nursing Home
  • 基本内容:
      Provider Ratings Data Set
  • 下载链接:
      Link_1

  • Hospital Ratings
  • 基本内容:
      Survey of Patients Hospital Experiences
  • 下载链接:
      Link_1


Dating Recommendation:

  • Dating website recommendation
  • 基本内容:
      www.libimseti.cz - Dating website recommendation (collaborative filtering)
  • 下载链接:
       Link_1

Scholarly Paper Recommendation:

  • National University of Singapore
  • 基本内容:
      Scholarly Paper Recommendation
  • 下载链接:
      Link_1
  • Wikipedia
  • 基本内容:
      维基百科是其用户撰写的协作百科全书。维基百科除了为最后一刻拼写学期论文的学生提供信息外,还为每个用户提供每篇文章的每个编辑的数据转储。该数据集已广泛用于社交网络分析,图形和数据库实现测试,以及维基百科用户行为研究。还可以将用户采取的编辑操作,作为隐性评分,表明他们因某些原因关心该页面,并允许我们使用数据集来提出推荐。
      由于维基百科不是为了提供推荐者数据集而设计的,所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量,但是幸运的是,大多数页面被很好地分类,为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。
    -下载地址:
      Link_1



Others:

  • OpenStreetMap
  • 基本内容:
      OpenStreetMap是一个协作的地图项目,类似于维基百科。 像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。 数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。 这些对象由键值对标识,因此可以从中创建一个基本的内容向量。 然而,键值对是自由的,所以选择正确的设置是一个挑战。 一些键值对由编辑软件(例如“highway =住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容 - 例如“FixMe !! = Exact location unknown”。
  • 下载链接:
      Link_1**

  • Python Git Repositories
  • 基本内容:
      我们收集的最终数据集,也许最不传统的,基于Git存储库中包含的Python代码。 我们写了几个脚本(在Hermes GitHub repo中 在此获取)从互联网上下载存储库,提取其中的信息,并将其加载到Spark中。 从那里我们可以从用户编辑中构建一组隐含的评分。
      我们目前通过查看所有导入的库并调用函数从每个Python文件中提取内容向量。 将来我们计划将库和函数本身作为建议的项目。

  • Delicious数据集
  • 基本内容:
      Delicious数据集中包含132 000 000个标签和420 000 000条标签行为记录。该数据集每行是一条标签行为记录,由4部分组成——用户ID、日期、网页URL和标签,代表了一个用户在某一天对某个网页打上了某个标签的行为。
  • 下载链接:
      下载链接:http://www.dai-labor.de/en/competence_centers/irml/datasets/


    CiteULike


    LibRec 开源工具提供的数据集,地址


  • reference:

1.推荐系统研究中的九大数据集
2.The Nine Must-Have Datasets for Investigating Recommender Systems
3.Datasets For recommender system

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,468评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,620评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,427评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,160评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,197评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,334评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,775评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,444评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,628评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,459评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,508评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,210评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,767评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,850评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,076评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,627评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,196评论 2 341

推荐阅读更多精彩内容