建立一个具有较小偏差的大数据集,对于开发先进计算机视觉算法是很重要的。在目标检测中,许多知名的数据集在最近10年之内被发布,包括PASCAL VOC Challenges(例如VOC2007,VOC2012),ImageNet Large Scale Visual Recognition Challenge(例如ILSVRC2014),MS-COCO Detection Challenge等。
下表列出了这些数据集的一些统计特征:
下图显示了一些样本及其标注:
其中(a) PASCAL-VOC07, (b) ILSVRC, (c) MS-COCO, and (d) Open Images。
1 Pascal VOC
在早期的计算机视觉社区,PASCAL ViSual Object Classes(VOC)挑战赛(从2005年到2012)是最重要的竞赛之一。在PASCAL VOC中是多任务的,包括图像分类,目标检测,语义分割和行为检测。在目标检测中有两个Pascal-VOC版本:VOC07和VOC12,其中前者有5k张图像和27k个被标注目标,后者则有11k张图像和27k个被标注的目标。20类标注目标都是生活中常见:(Person: person; Animal: bird, cat, cow, dog, horse, sheep; Vehicle: aeroplane, bicycle, boat, bus, car, motor-bike, train; Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor。最近几年,随着一些大型数据集,如ILSVRC和MS-COCO被发布,VOC也逐渐失去了往日的光彩,目前主要是作为新检测器的测试地。
2 ILSVRC
ImageNet Large Scale Visual Recognition Challenge(ILSVRC)已经将一般的目标检测向前推进了一大步。ILSVRC从2010到2017年每年被组织比赛,其中就包含了用ImageNet图像进行检测。ILSVRC中包含了200类视觉目标,图像和目标实例的数量比VOC大两个数量级。例如,ILSVRC-14就包含了517K张图像和534k被标注的目标
3 MS-COCO
MS-COCO是目前最具有挑战性的目标检测,从2015年开始,每年都会举办基于MS-COCO数据集的竞赛,其包含的目标种类要少于ILSVRC,但其有更多的目标实例。例如,MS-COCO-17中包含了164k张图像和897K个被标注来自80个类别的目标。相比于VOC和ILSVRC,MS-COCO最大的进步,除了bounding box的标注,还有单个实例分割的标注,帮助更准确的定位。另外,MS-COCO包含了更多小目标(其面积小于图像的1%)和更加密集的定位目标比VOC和ILSVRC。MS-COCO的这些特征让其目标分布更接近于真实的世界。MS-COCO已经在目标检测社区变为了实际的标杆。
4 Open Images
2018年,Open Images Detection(OID)竞赛紧随MS-COCO被引进。在Open Images中有两个重要的任务:1)标准的目标检测;2)视觉关系检测,即检测具有特定关系的成对目标。对于目标检测任务,此数据集包含了1910k张图像,其中在600多个目标种类上有15440k个标注的bounding box。
5 其他检测任务的数据集
除了一般的目标检测,在过去的20年也见证了在特定领域内检测应用的繁荣,例如行人检测,人脸识别,文本检测,交通信号检测和遥感目标检测。
(1)行人检测数据集
(2)人脸检测数据集
(3)文本检测数据集
(4)交通信号灯检测数据集
(5)遥感目标检测数据集