近年来人工智能越来越火,好像本科毕设不搞人工智能都很丢人似的。但是普通本科生对于这个领域的了解显然很少,基本也就是做做数据搜集、数据标注、工程实现、调调参的工作。
不过这也不错,可以为以后硕士深造埋下伏笔,创造兴趣,打好基础。所以如果不读硕的同学建议不要选这方面的题目。
这次我介绍的毕设题目是:基于卷积神经网络的图像分类算法的工程实现。先说一下电脑配置和环境依赖版本。
联想T480
8G内存
2G显存
MX150显卡(支持GPU加速)
torch 1.3.1
cuda 10.2
我们首先选择LeNet-5这个卷积神经网络的鼻祖来当做baseline。该网络发表于1998年,当年广泛应用于美国银行的数字识别。
当我们跑模型的时候,首先要选择一个简单并通用的网络来当做baseline,即知道这个问题的下限在哪里。这样方便以后我们选择更复杂更通用的模型来持续优化效果。
数据集是这样的。近五千张船舶图片。船舶种类丰富,包括帆船、渔船、木舟、游轮、货船、工作船、军舰等。拍摄角度包括航拍、红外图像、可见光图像、船上拍摄、船舶加海天背景等。其中军舰图像占50%,其他图像占50%。该毕设问题即解决,区分军舰和其他船舶的问题。
图像大致如下:
这是个二分类的问题。
接下来介绍LeNet-5的网络结构,如图。
这里先介绍一个公式:
N = (W - F + 2P)/ S + 1
W 输入矩阵大小
F 卷积层、池化层的核大小
P 填充大小
S 移动步长
N 输出矩阵大小
先贴上该网络的pytorch的代码实现。
class LeNet(BasicModule):
def __init__(self, num_classes=2):
super(LeNet, self).__init__()
self.model_name = 'LeNet'
self.conv1 = nn.Conv2d(3, 6, 5)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 53 * 53, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, num_classes)
def forward(self, x):
x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
x = F.max_pool2d(F.relu(self.conv2(x)), 2)
x = x.view(x.size()[0], -1)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
在原始论文中,网络结构如此。卷积层1 + 池化层2 + 卷积层3 + 池化层4 + 全连接层5、6、7。一共七层网络。原始论文中,图片大小为33232,即长宽为32的三通道图片。
而在本实验中,因为原始图片本身很大,在这里我统一设置成了3224224的图片。因此在网络中,最后一个池化层和全连接成对接的时候,需要注意大小。
原始论文为:
self.fc1 = nn.Linear(16 * 5 * 5, 120)
我改为了:
self.fc1 = nn.Linear(16 * 53 * 53, 120)
可根据上面的公式自行计算。
根据不同参数,我进行了九次实验,在验证集上的表现如下:
有两条线明显效果很差,我们把它们排除,再看一下其他七次实现的情况。
从这里可以清楚的看到七次实验,验证集上的变化情况。
一般调参,重要的参数无非是batch_size、学习率。从该曲线可以看出,当batch_size为32,学习率为0.001时,正确率最高。
随后在测试集上表现如下: