下面的实现代码可以在这里 找到,是ipython notebook格式的。如果你觉得ok的话请给我一个星吧~感谢!!!!!
正文
虽然alex_net是一个比较旧的模型(2012),但是因为其结构简单,而且在大多数任务上都能达到一个比较好的效果,所以在迁移学习的时候也不妨试一试这个模型
其模型的基本结构如下图
因为这个模型当初是用两块GPU训练的,所以在卷积的时候有一些麻烦,这点在后面会再说
1.训练好的权值
从链接中可下载训练好的alex_net的权值,下面我们来看一看里面的数据的结构是什么
首先加载这个模型的权值:
可以看到得到的weight_dict是字典形式,其key的名称基本就能知道对应的是哪一层的权值了
下面我们拿一层权值,看看里面的数据是什么格式的
可以看到w里面是一个列表,里面有两个元素,估计应该就是权值(w)和偏置(b)了
下面将用numpy转换成矩阵形式,看看其shape是不是这样的
看来确实字典的value装着列表,列表里面分别是权值和偏置。这里还有个问题是为什么conv2,conv4的channel为什么是论文里面的一半?
比如conv2的kernel的大小为 5*5*48,但是conv1的输出明明是5*5*96。这是因为早期GPU的RAM计较小,这里将卷积分配到两个GPU内,也就是将CONV2的输入分成两部分,5*5*48*128+5*5*48*128再分配到两个GPU计算。也就是这里的卷积核的channel要改变一下。
因为我们是迁移学习,必须要符合论文的模型结构才能用到模型的训练值,所以这里就需要对卷积函数进行一些改造,
既然知道了模型数据大概是什么样子的,下面我们就开始自己搭建模型
2.模型搭建
alexnet的模型结构其实也挺简单的,就是不停的堆积卷积->maxpool->lrn,然后再用fc成堆几层,就完事儿了。因为alex_net在一些卷积层里面会把卷积分在不同的GPU里面,所以这样我们需要自己构造一个卷积函数
这里和普通的卷积函数不一样的是一个 group参数,这个参数表示将输入平分成几组来分开卷积(因为初代模型用了2个GPU),所以这个值一般是1或者2.
对于平分来卷积的情况(也就是将输入按channel来平分),这时候卷积核就会不一样了,因为卷积核的输入channel一定是和x的channel相同的。
其他的地方就和普通的卷积一样啦
下面是每一层的结果
layer_1:conv-relu-maxpool-lrn
layer_2:conv-relu-maxpool-lrn(分组卷积)
layer_3:conv-relu
layer_4:conv-relu(分组卷积)
layer_5:conv-relu-maxpool(分组卷积)
layer_6:fc-relu
layer_7:fc-relu
layer_7:fc->输出
3.结果分析
下面用image_net的图片来测试一下效果。分别用了斑马,羊驼,海狮的图片来测试,可以看到效果还是不错的,说明alex net的权值移植成功了
结语:
实现alexnet模型只是第一步,下一步我们要fine-tune这个模型来用在自己的数据集上。如果喜欢请关注我吧
参考:
https://github.com/kratzert/finetune_alexnet_with_tensorflow