历年KDD Cup数据集

【2010】
Student performance evaluation

赛题介绍
根据智能教学辅导系统和学生之间的交互日志,来预测学生数学题的考试成绩。该任务兼具实践重要性和科学趣味性。竞赛提供3个开发(develop)数据集和2个挑战(challenge)数据集,每个数据集又分为训练(train)部分和测试(test)部分。Challenge数据集的test部分被隐藏,参赛者需要开发一种学习模型,来准确预测这部分隐藏部分的成绩。

大赛官网介绍
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro

大赛数据集
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data

【2011】

Predict music ratings and identify favorite songs

赛题介绍

Track1任务:Predicting scores that users gave to various items
(音乐评分预测)

根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息

Track2任务:Separation of loved songs from other songs
(识别音乐是否被用户评分)

每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名

该赛题官方已下线,无数据集下载

【2012】

赛题介绍

Track1任务:Predict which users(or information sources) one user might follow in Tencent
(社交网络中的个性化推荐系统)

根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表

大赛官网介绍
https://www.kaggle.com/c/kddcup2012-track1#description

大赛数据集
https://www.kaggle.com/c/kddcup2012-track1/data

Track2任务:Predict the click-through rate of ads given the query and user information
(搜索广告系统的pTCR点击率预估)

提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况

大赛官网介绍
https://www.kaggle.com/c/kddcup2012-track2#description

大赛数据集
https://www.kaggle.com/c/kddcup2012-track2/data

【2013】

赛题介绍

Track1任务:Author-Paper Identification Challenge

微软学术搜索是一个开放的平台,它涵盖了各种学术领域超过5000万的出版物和1900多万作者,并保持着每周更新的速度。提供这项服务的主要挑战之一是作者名称的歧义。一方面,很多作者倾向于使用不同的笔名。另一方面,不同的作者可能有一个相似甚至相同的名字。
因此,名字有歧义的作者往往会导致作品与作者对应问题。本届挑战要求参与者能在作者档案中识别出本人所著论文。

大赛官网介绍
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge

大赛数据集
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-chal
lenge/data

Track2任务:Author Disambiguation Challenge

本届挑战要求参与者能在数据集中辨别出哪些作者是同一个人。

大赛官网介绍
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation

大赛数据集
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

【2014 -- Predicting Excitement at DonorsChoose.org】

赛题介绍
KDD Cup2014要求参赛者帮助慈善网站DonorsChoose.org挑选有商业亮点的项目,所有项目都能满足某些特定需求,但是只有个别项目能大幅度超过平均水准。通过早期识别和推荐这些项目,他们能够获得更多的资金注入、更好的用户体验,同时帮助更多的学生获得他们需要的学习材料。

大赛官网介绍
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose

大赛数据集
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose/data

【2015 -- Predicting dropouts in MOOC】

赛题介绍
MOOC在线学习平台上学生的逃课率极高,因此预测他们接下来是否会选择逃课将对保持和激励学生的学习积极性十分有益。在KDD Cup 2015,我们的主题在于预测学生在学堂在线这个全中国最大幕课平台中的逃课率。参赛者需要基于用户个人行为预测接下来10天内他们的逃课几率。

大赛官网介绍
http://www.kddcup2015.com/information.html

大赛数据集
http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/

【2016】

Whose papers are accepted the most: towards measuring the impact of research institutions

赛题介绍
KDD Cup 2016将使用各类公开数据集,例如微软学术图谱(Microsoft Academic Graph, MAG),它将文献的发表和引用信息组织成异构图的形式,这样就可以挖掘图中具有影响力的作者、机构和地点等。该竞赛关注于学术机构的影响力识别。参赛者需要合力开发出一种基于文献发表和引用信息图谱的算法,挖掘在特定领域内最优秀的研究机构。

大赛官网介绍
http://www.kdd.org/kdd-cup/view/kdd-cup-2016

大赛数据集
http://www.kdd.org/kdd-cup/view/kdd-cup-2016/Data

【2017】
Highway Tollgates Traffic Flow Prediction

赛题介绍
高速公路收费站是交通网络中众所周知的瓶颈。如果可以提前预测接下来一小时的交通拥堵状况,那么交通管理部门可以及时采取措施进行上游路口的流量诱导和控制。KDD CUP 2017希望参赛者可以设计一套预测交通流量和车辆到达时间的算法,用算法和数据来赋能交通领域,减少拥堵的发生。

Task 1: To estimate the average travel time from designated intersections to tollgates(预测车辆从路口到收费站的平均用时)

Task 2: To predict average tollgate traffic volume(高速收费站车流量预测)

大赛官网(点击阅读原文可直达)
https://tianchi.shuju.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.sQJkNz&raceId=231597

repost from : https://mp.weixin.qq.com/s?__biz=MzI0NTE4NjA0OQ==&mid=2658354512&idx=1&sn=8b8781e2474fcd45e610a9b47bcb0c99

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,340评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,762评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,329评论 0 329
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,678评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,583评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,995评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,493评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,145评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,293评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,250评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,267评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,973评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,556评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,648评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,873评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,257评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,809评论 2 339

推荐阅读更多精彩内容