使用py-faster-rcnn训练自己的数据集

本文记录了在ubuntu16.04下使用py-faster-rcnn来训练自己的数据集的大致过程。
在此之前，已经成功配置过了caffe-gpu，使用的显卡是GTX1080ti，安装的cuda8.0.61+cudnn v5.1，caffe-gpu的配置过程可以参考：Ubuntu16.04配置caffe-GPU环境。

第一步：制作自己的数据集

首先，为了方便，可以将自己的训练图像名称改成PASCAL VOC格式，比如我自己的数据集共有1150张训练图像，写一个简单的python脚本将其重命名为00001.jpg～001150.jpg。
数据集的制作工具：labelImg。安装和使用方法都很简单，这里不再赘述。

第二步：clone py-faster-rcnn源代码

在bash中执行

git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git

将得到一个py-faster-rcnn文件夹。
下载后按照py-faster-rcnn中README.md中的指导，依次编译/py-faster-rcnn/lib/文件夹和/py-faster-rcnn/caffe-fast-rcnn/文件夹。
在编译/py-faster-rcnn/caffe-fast-rcnn/文件夹时出现了以下错误：

ys@ysubuntu:~/pycaffe/py-faster-rcnn/caffe-fast-rcnn$ make -j8 && make pycaffe
PROTOC src/caffe/proto/caffe.proto
CXX src/caffe/parallel.cpp
CXX src/caffe/internal_thread.cpp
...
In file included from ./include/caffe/util/device_alternate.hpp:40:0,
                 from ./include/caffe/common.hpp:19,
                 from ./include/caffe/blob.hpp:8,
                 from ./include/caffe/net.hpp:10,
                 from ./include/caffe/solver.hpp:7,
                 from ./include/caffe/sgd_solvers.hpp:7,
                 from src/caffe/solvers/nesterov_solver.cpp:3:
./include/caffe/util/cudnn.hpp: In function ‘void caffe::cudnn::createPoolingDesc(cudnnPoolingStruct**, caffe::PoolingParameter_PoolMethod, cudnnPoolingMode_t*, int, int, int, int, int, int)’:
./include/caffe/util/cudnn.hpp:127:41: error: too few arguments to function ‘cudnnStatus_t cudnnSetPooling2dDescriptor(cudnnPoolingDescriptor_t, cudnnPoolingMode_t, cudnnNanPropagation_t, int, int, int, int, int, int)’
         pad_h, pad_w, stride_h, stride_w));
                                         ^
./include/caffe/util/cudnn.hpp:15:28: note: in definition of macro ‘CUDNN_CHECK’
     cudnnStatus_t status = condition; \
                            ^
In file included from ./include/caffe/util/cudnn.hpp:5:0,
                 from ./include/caffe/util/device_alternate.hpp:40,
                 from ./include/caffe/common.hpp:19,
                 from ./include/caffe/blob.hpp:8,
                 from ./include/caffe/net.hpp:10,
                 from ./include/caffe/solver.hpp:7,
                 from ./include/caffe/sgd_solvers.hpp:7,
                 from src/caffe/solvers/nesterov_solver.cpp:3:
/usr/local/cuda/include/cudnn.h:803:27: note: declared here
 cudnnStatus_t CUDNNWINAPI cudnnSetPooling2dDescriptor(
                           ^
Makefile:563: recipe for target '.build_release/src/caffe/solvers/nesterov_solver.o' failed
make: *** [.build_release/src/caffe/solvers/nesterov_solver.o] Error 1
make: *** Waiting for unfinished jobs....
...
make: *** [.build_release/src/caffe/parallel.o] Error 1
ys@ysubuntu:~/pycaffe/py-faster-rcnn/caffe-fast-rcnn$ make clean
ys@ysubuntu:~/pycaffe/py-faster-rcnn/caffe-fast-rcnn$

错误的原因应该是py-faster-rcnn中自带的cudnn相关文件版本太老。
解决办法参考：py-faster-rcnn安装问题总结。也就是用最新下载的caffe源代码中/caffe/include/和/caffe/src/下面所有和cudnn相关的.hpp文件和.cpp文件复制到/py-faster-rcnn/caffe-fast-rcnn/文件夹下，替换掉老版本的cudnn文件。
这样就能顺利编译/py-faster-rcnn/caffe-fast-rcnn/文件夹了。

自己的数据集放在哪儿

为了尽量少改动代码，最方便的方式是按照源代码中的PASCAL VOC数据集的放置格式，即在.../py-faster-rcnn/data/文件夹下，新建一个名为VOCdevkit2007，然后，其子文件夹的目录树如下图：

Screenshot from 2018-03-26 09-47-26.png

也就是在VOCdevkit2007下再建一个名为VOC2007的文件夹；然后在VOC2007下面分别建立3个文件夹：Annotations、ImageSets和JPEGImages。其中JPEGImages下面放的是训练集图片：

Screenshot from 2018-03-26 09-56-31.png

Annotations下面放的是自己制作的训练集图片对应的.xml标签文件：

Screenshot from 2018-03-26 09-55-50.png

ImageSets下面的目录如下：

Screenshot from 2018-03-26 09-56-20.png

其下再建一个Main文件夹，在Main文件夹下面放trainval.txt文件，trainval.txt文件内容是每张训练图片名：

Screenshot from 2018-03-26 10-00-26.png

下载训练好的VGG16模型

参照py-faster-rcnn的使用说明，要训练模型需要下载一个训练好的VGG16模型用于迁移学习。在py-faster-rcnn/目录下打开bash，执行：

./data/scripts/fetch_imagenet_models.sh

或者直接在进入网址：https://dl.dropbox.com/s/gstw7122padlf0l/imagenet_models.tgz?dl=0下载预训练好的VGG16模型。
下载下来后，在/py-faster-rcnn/data/文件夹下新建一个imagenet_models文件夹，将VGG16模型放进去：

Screenshot from 2018-03-26 10-08-15.png

修改几个地方来训练自己的数据集

修改train.prototxt和solver.prototxt

打开/py-faster-rcnn/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，使用编辑器的查找替换功能，将其中的数字21替换成你自己的数据集类别数+1，将数字84替换成你自己的(数据集类别数+1)*4，这个文件中共有3处21，一处84需要替换；

在/py-faster-rcnn/models/pascal_voc/VGG16/faster_rcnn_end2end/solver.prototxt中，根据自己的实际情况修改，比如我只是的总训练迭代次数只设置了10000次，所以solver文件中，stepsize值我改成了6000。

修改pascal_voc.py

将/py-faster-rcnn/lib/datasets/pascal_voc.py中的约33行处的：

self._classes = ('__background__', # always index 0
                         'aeroplane', 'bicycle', 'bird', 'boat',
                         'bottle', 'bus', 'car', 'cat', 'chair',
                         'cow', 'diningtable', 'dog', 'horse',
                         'motorbike', 'person', 'pottedplant',
                         'sheep', 'sofa', 'train', 'tvmonitor')

改成自己的类别名称。

修改train_net.py

在/py-faster-rcnn/tools/train_net.py中，可以为其中的命令行参数设置默认值，这样就不用每次训练时都在命令行设置多个参数了，下面是我设置的默认值：

def parse_args():
    """
    Parse input arguments
    """
    parser = argparse.ArgumentParser(description='Train a Fast R-CNN network')
    parser.add_argument('--gpu', dest='gpu_id',
                        help='GPU device id to use [0]',
                        default=0, type=int)
    parser.add_argument('--solver', dest='solver',
                        help='solver prototxt',
                        default='models/pascal_voc/VGG16/faster_rcnn_end2end/solver.prototxt', type=str)
    parser.add_argument('--iters', dest='max_iters',
                        help='number of iterations to train',
                        default=10000, type=int)
    parser.add_argument('--weights', dest='pretrained_model',
                        help='initialize with pretrained model weights',
                        default='data/imagenet_models/VGG16.v2.caffemodel', type=str)
    parser.add_argument('--cfg', dest='cfg_file',
                        help='optional config file',
                        default='experiments/cfgs/faster_rcnn_end2end.yml', type=str)
    parser.add_argument('--imdb', dest='imdb_name',
                        help='dataset to train on',
                        default='voc_2007_trainval', type=str)
    parser.add_argument('--rand', dest='randomize',
                        help='randomize (do not use a fixed seed)',
                        action='store_true')
    parser.add_argument('--set', dest='set_cfgs',
                        help='set config keys', default=None,
                        nargs=argparse.REMAINDER)

    if len(sys.argv) == 1:
        parser.print_help()
        sys.exit(1)

    args = parser.parse_args()
    return args

另外可能需要修改的是/py-faster-rcnn/lib/fast_rcnn/config.py中的__C.TRAIN.SNAPSHOT_ITERS参数，它确定了你的模型每训练多少次保存一次快照，源码设置的是10000，根据自己设置的最大迭代次数来合理修改(它的值当然不能大于最大迭代次数，不然训练了半天一个模型都没保存)。

训练模型

以上准备工作完成后，在/py-faster-rcnn/目录下打开bash，执行：

python ./tools/train_net.py --gpu 0

开始模型训练。
可能会遇到这个问题：

Traceback (most recent call last):
  File "./tools/train_net.py", line 112, in <module>
    max_iters=args.max_iters)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/fast_rcnn/train.py", line 157, in train_net
    pretrained_model=pretrained_model)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/fast_rcnn/train.py", line 51, in __init__
    pb2.text_format.Merge(f.read(), self.solver_param)
AttributeError: 'module' object has no attribute 'text_format'

解决办法参考：py-faster-rcnn安装问题总结。

还可能会遇到这个问题：

Traceback (most recent call last):
  File "./tools/train_net.py", line 112, in <module>
    max_iters=args.max_iters)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/fast_rcnn/train.py", line 161, in train_net
    model_paths = sw.train_model(max_iters)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/fast_rcnn/train.py", line 102, in train_model
    self.solver.step(1)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/rpn/proposal_target_layer.py", line 66, in forward
    rois_per_image, self._num_classes)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/rpn/proposal_target_layer.py", line 191, in _sample_rois
    _get_bbox_regression_labels(bbox_target_data, num_classes)
  File "/home/ys/pycaffe/py-faster-rcnn/tools/../lib/rpn/proposal_target_layer.py", line 127, in _get_bbox_regression_labels
    bbox_targets[ind, start:end] = bbox_target_data[ind, 1:]
TypeError: slice indices must be integers or None or have an __index__ method

解决办法参考这里。
出错原因：

Screenshot from 2018-03-26 11-02-06.png

可能是源代码发布的时候,numpy 是支持浮点数作为索引的,但是在 numpy1.12.0 之后,numpy 只能用整数作为索引。所以,解决办法有两种:
第一种是卸载当前的 numpy,安装回以前的 1.11.2 版本,但是同时安装的 opencv 版本也得退回老版本,因为新版本的 opencv3.1 依赖于新版本的 numpy,相同的依赖问题还有matplotlib。因此的重装回 openCV2.4.13, matplotlib1.5.1,当然这种办法比较麻烦;
第二种办法是找到使用浮点数作为 numpy 索引的相关代码,将其强制转换为 int 型:

Screenshot from 2018-03-26 11-03-48.png

再次运行，模型就能顺利训练了。

测试模型

修改test.prototxt

打开/py-faster-rcnn/models/pascal_voc/VGG16/faster_rcnn_end2end/test.prototxt，使用编辑器的查找替换功能，将其中的数字21替换成你自己的数据集类别数+1，将数字84替换成你自己的(数据集类别数+1)*4，这个文件中共有1处21，一处84需要替换；

修改demo.py

训练得到的模型在这里：

Screenshot from 2018-03-26 11-21-30.png

将其复制到/py-faster-rcnn/data/faster_rcnn_models/目录下。
然后打开demo.py，将

CLASSES = ('__background__',
           'aeroplane', 'bicycle', 'bird', 'boat',
           'bottle', 'bus', 'car', 'cat', 'chair',
           'cow', 'diningtable', 'dog', 'horse',
           'motorbike', 'person', 'pottedplant',
           'sheep', 'sofa', 'train', 'tvmonitor')

改成自己的标签，将

NETS = {'vgg16': ('VGG16',
                  'VGG16_faster_rcnn_final.caffemodel'),

中的模型改成自己训练保存的模型。比如我修改的内容：

CLASSES = ('__background__', 'type1', 'type2', 'type3', 'type4', 'type5')

NETS = {'vgg16': ('VGG16',
                  'vgg16_faster_rcnn_iter_10000.caffemodel'),

将

prototxt = os.path.join(cfg.MODELS_DIR, NETS[args.demo_net][0],
                            'faster_rcnn_alt_opt', 'faster_rcnn_test.pt')

改成

prototxt = os.path.join(cfg.MODELS_DIR, NETS[args.demo_net][0],
                            'faster_rcnn_end2end', 'test.prototxt')

将

im_names = ['000456.jpg', '000542.jpg', '001150.jpg',
                '001763.jpg', '004545.jpg']

列表中的图片名改成自己要测试的图片名称，当然首先需要将相应的图片复制到/py-faster-rcnn/data/demo/目录下。

修改完成，在/py-faster-rcnn/目录下打开bash，执行

python ./tools/demo.py

没问题的话，就能顺利看到测试结果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342