版权声明:小博主水平有限,博文仅代表个人观点,希望大家多多指导。
参考:
[机器学习入门] 李宏毅机器学习笔记-11(Convolutional Neural Network;卷积神经网络) - Holeung blog - CSDN博客
https://blog.csdn.net/soulmeetliang/article/details/73188417blog.csdn.net
李宏毅《深度学习》:卷积神经网络CNN - 宴夜小丑的博客 - CSDN博客
https://blog.csdn.net/wuzhenzi5193/article/details/80468650blog.csdn.net
怎么学深度学习?——从【框架算法的原理】+【实现的方法】+【案例的实践】系统地学习
目录:
1. Why CNN for Image?
2. The whole CNN
3. CNN各个部分的原理——卷积层convolution
4. CNN各个部分的原理—最大池化层Max Pooling
5. CNN各个部分的原理—Flatten层
6. CNN in Keras
7. What does CNN learn?
1. Why CNN for Image?
1.1 前言
卷积神经网络CNN常用于影像处理,每个神经元就是classify,但是用之前讲过的(全连接)fully connected来进行处理的时候,参数会太多!
假如30000的维度输入,1000个神经元,那就得是1000*30000个wight,所以我们使用CNN来简化这个架构进行处理
1.2 CNN的三个特性
(1)不需要看整张图片,只需要看到一小块pattern
(2)相同的pattern可以应用到不同的区域
例如鸟嘴这个pattern,在第一张图片中处于左上角,但是第二张图片中位于中间,但是这个神经元都可以用来识别到“嘴”
做几乎相同的事情,所以可以用相同的参数。
(3)sub-sampling
做Subsampling使图片变小,对影响辨识没什么影响,这样还可以减小参数
2. The whole CNN
(1)CNN大体结构可以分为卷积层convolution、最大池化层max pooling和flatten,其中convolution和max pooling可以交替重复多次。
(2)CNN的三个特性,前两个作用于convolution,第三个作用于max pooling
3. CNN各个部分的原理——卷积层convolution
(1)在这里我们使用3*3的filter。
每个filter都是需要学习出来的,类似于netural,但是比实际的image所需参数小
每个fliter都可检测出一个pattern——说明了CNN的特性1
(2)filter从图片左上角开始计算,计算内积,每次转移距离要事先定好。
若stride=1,每次转移一个单位
若stride=2,每次转移两个单位
(3)我们现在假定stride=1,fliter结构如图所示。
通过内积计算(对应分量的乘积之和)将66变为44,每个filter都可以将image转小
根据计算结果,看到filter 1在左上角和左下角出现最大值。
发现不同位置的pattern都用一样的参数结构——说明了CNN的特性2
(4)对不同的filter做相同的步骤
每个filter得出的结果4*4叫做feature map
(5)
黑白图像——黑1白0
彩色图像——RGB三个值,这样image就变成深度为3的矩阵簇
(6)对比卷积层 & 全连接层——局部连接+权值共享
局部连接
卷积层的内积计算,得到第一个像素点
此时仅需要连接9个输入,不需要全连接,意味着更少的参数——这就是“局部连接”!!!
权值共享
卷积层的内积计算,得到第二个像素点
此时,第二个像素点也需要连接9个input,但是会共享第一个像素点的input,意味着更少的参数——这就是“权值共享”!!!
4. CNN各个部分的原理—最大池化层Max Pooling
将filter计算的结果进行缩小——每个4*4的矩阵中,每4个元素里,用最大的元素来代替
结果将其变成2*2矩阵,
做完一次convolution和map pooling的结果就是2*2矩阵,多少个filter即多深的深度,这样过程之后,image变小
一次又一次进行convolution和max pooling,图片会越来越小
5. CNN各个部分的原理—Flatten层
Flatten层的实现在Keras.layers.core.Flatten()类中。
Flatten层:将输入“压平”——把多维的输入变成一维化。
Flatten层,常用在从卷积层到全连接层的过渡。
Flatten不影响batch的大小。
6. CNN in Keras
只修改了网络结构和输入格式(矢量——>三维张量)
(25,3,3):25个33的fliters
1:黑/白图像
3:RGB的彩色图像
28,28 : 输入照片是2828的像素点
一次又一次进行convolution和max pooling
这是每一层的结果……
7. What does CNN learn?
未完,待续……