Task04 模型训练与验证

一、模型训练与验证的流程

1 、在训练集上进行训练,在验证集上进行验证
2 、模型可以保存最优的权重,并读取权重
3 、记录下训练集和验证集的精度,便于调参

二、训练集、验证集和测试集

训练集(trainning set):用于模型训练和调整模型参数
验证集(validation set):用于验证模型精度和调整模型超参数
测试集(test set):验证模型的泛化能力

三、验证集的划分方式

1.留出法(Hold out)

直接将训练集化为两个部分,新的训练集和验证集。这种划分方式的优点是最为简单;缺点是只得到一份验证集,有可能导致模型在验证集上过拟合。留出法的应用场景是数据量比较大的情况。

2.交叉验证法(Cross Validation)

将训练集划分成K份,将其中的K-1份作为训练集,剩下的一份作为验证集,循环K次。这种方法的优点是验证集的精度比较高,训练K次可以得到的K个有多样性的差异的模型;交叉验证的缺点是需要训练K次,不适合数据量很大的情况。

3.自助采样法(BootStrap)

在原始样本集中有放回的随机采样n次,构成与原始样本集一样大小的训练集(包含n个样本)。根据概率,约36.8%的样本没有被采到,另外60%多的样本有很多被重复采到。这样可以使用采出来的大小为n且包含重复样本的集合为训练集,剩下约36.8%的样本当测试集。
这种方式一般适用于数据量较小的情况。

四、解析代码

先看一下这个task的代码

def train(train_loader, model, criterion, optimizer):
       # 切换模型为训练模式
        model.train()
        train_loss = []
 
        for i, (input, target) in enumerate(train_loader):
            if use_cuda:
                input = input.cuda()
                target = target.cuda()
 
            c0, c1, c2, c3, c4 = model(input)
            target = target.long() 
            loss = criterion(c0, target[:, 0]) + \
                   criterion(c1, target[:, 1]) + \
                   criterion(c2, target[:, 2]) + \
                   criterion(c3, target[:, 3]) + \
                   criterion(c4, target[:, 4])
 
            # loss /= 6
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
 
            if i % 100 == 0:
               print(loss.item())
 
            train_loss.append(loss.item())
        return np.mean(train_loss)
def validate(val_loader, model, criterion):
       # 切换模型为预测模型
        model.eval()
        val_loss = []
        # 不记录模型梯度信息
        with torch.no_grad():
             for i, (input, target) in enumerate(val_loader):
                    if use_cuda:
                        input = input.cuda()
                        target = target.cuda()
 
                    c0, c1, c2, c3, c4 = model(input)
                    target = target.long()
                    loss = criterion(c0, target[:, 0]) + \
                           criterion(c1, target[:, 1]) + \
                           criterion(c2, target[:, 2]) + \
                           criterion(c3, target[:, 3]) + \
                           criterion(c4, target[:, 4])
                           # loss /= 6
                    val_loss.append(loss.item())
        return np.mean(val_loss)
def predict(test_loader, model, tta=10):
        model.eval()
        test_pred_tta = None
 
        # TTA 次数
        for _ in range(tta):
            test_pred = []
 
            with torch.no_grad():
                for i, (input, target) in enumerate(test_loader):
                    if use_cuda:
                        input = input.cuda()
                    c0, c1, c2, c3, c4 = model(input)
                   
                    output = np.concatenate([
                             c0.data.numpy(),
                             c1.data.numpy(),
                             c2.data.numpy(),
                             c3.data.numpy(),
                             c4.data.numpy()], axis=1)
                    test_pred.append(output)
 
                test_pred = np.vstack(test_pred)
                if test_pred_tta is None:
                    test_pred_tta = test_pred
                else:
                    test_pred_tta += test_pred
 
        return test_pred_tta

model = SVHN_Model1()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), 0.001)
best_loss = 1000.0
use_cuda = False
if use_cuda:
    model = model.cuda()
for epoch in range(2):
    train_loss = train(train_loader, model, criterion, optimizer)
    val_loss = validate(val_loader, model, criterion)
 
    val_label = [''.join(map(str, x)) for x in val_loader.dataset.img_label]
    val_predict_label = predict(val_loader, model, 1)
    val_predict_label = np.vstack([
                        val_predict_label[:, :11].argmax(1),
                        val_predict_label[:, 11:22].argmax(1),
                        val_predict_label[:, 22:33].argmax(1),
                        val_predict_label[:, 33:44].argmax(1),
                        val_predict_label[:, 44:55].argmax(1),
                        ]).T
    val_label_pred = []
    for x in val_predict_label:
        val_label_pred.append(''.join(map(str, x[x!=10])))
 
    val_char_acc = np.mean(np.array(val_label_pred) == np.array(val_label))
    print('Epoch: {0}, Train loss: {1} \t Val loss: {2}'.format(epoch, train_loss, val_loss))
    print(val_char_acc)
    # 记录下验证集精度
    if val_loss < best_loss:
        best_loss = val_loss
        torch.save(model.state_dict(), './model.pt')

1.第一部分的代码

model = SVHN_Model1()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), 0.001)
best_loss = 1000.0
use_cuda = False
if use_cuda:
    model = model.cuda()
for epoch in range(2):
    train_loss = train(train_loader, model, criterion, optimizer)
    val_loss = validate(val_loader, model, criterion)
 
    val_label = [''.join(map(str, x)) for x in val_loader.dataset.img_label]
    val_predict_label = predict(val_loader, model, 1)
    val_predict_label = np.vstack([
                        val_predict_label[:, :11].argmax(1),
                        val_predict_label[:, 11:22].argmax(1),
                        val_predict_label[:, 22:33].argmax(1),
                        val_predict_label[:, 33:44].argmax(1),
                        val_predict_label[:, 44:55].argmax(1),
                        ]).T
    val_label_pred = []
    for x in val_predict_label:
        val_label_pred.append(''.join(map(str, x[x!=10])))
 
    val_char_acc = np.mean(np.array(val_label_pred) == np.array(val_label))
    print('Epoch: {0}, Train loss: {1} \t Val loss: {2}'.format(epoch, train_loss, val_loss))
    print(val_char_acc)
    # 记录下验证集精度
    if val_loss < best_loss:
        best_loss = val_loss
        torch.save(model.state_dict(), './model.pt')

(1)理解一下CrossEntropyLoss
baseline中将CrossEntropyLoss作为损失函数。损失函数结合了NLLLoss和LogSoftmax两个函数。这个损失函数的具体详细解释后续再说吧。
(2)optimizer
这里是选择adam作为优化器
(3)初始设定best_loss为1000

二、第二部分代码

这里看一下每个epoch具体做了什么

def train(train_loader, model, criterion, optimizer):
       # 切换模型为训练模式
        model.train()
        train_loss = []
 
        for i, (input, target) in enumerate(train_loader):
            if use_cuda:
                input = input.cuda()
                target = target.cuda()
 
            c0, c1, c2, c3, c4 = model(input)
            target = target.long() 
            loss = criterion(c0, target[:, 0]) + \
                   criterion(c1, target[:, 1]) + \
                   criterion(c2, target[:, 2]) + \
                   criterion(c3, target[:, 3]) + \
                   criterion(c4, target[:, 4])
 
            # loss /= 6
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
 
            if i % 100 == 0:
               print(loss.item())
 
            train_loss.append(loss.item())
        return np.mean(train_loss)

简单理解一下:
(1)

for i, (input, target) in enumerate(train_loader):

得到每张图片的input和对应的target的tensor
(2)

            c0, c1, c2, c3, c4 = model(input)
            target = target.long() 
            loss = criterion(c0, target[:, 0]) + \
                   criterion(c1, target[:, 1]) + \
                   criterion(c2, target[:, 2]) + \
                   criterion(c3, target[:, 3]) + \
                   criterion(c4, target[:, 4])

将input输入到model,然后通过target根据损失函数计算loss
(3)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

optimizer.zero_grad()先手动将梯度清零
loss.backward():反向传播求解梯度
optimizer.step():更新权重参数
(4)
最后计算所有的图片得到的loss的均值

三、第三部分代码

def validate(val_loader, model, criterion):
       # 切换模型为预测模型
        model.eval()
        val_loss = []
        # 不记录模型梯度信息
        with torch.no_grad():
             for i, (input, target) in enumerate(val_loader):
                    if use_cuda:
                        input = input.cuda()
                        target = target.cuda()
 
                    c0, c1, c2, c3, c4 = model(input)
                    target = target.long()
                    loss = criterion(c0, target[:, 0]) + \
                           criterion(c1, target[:, 1]) + \
                           criterion(c2, target[:, 2]) + \
                           criterion(c3, target[:, 3]) + \
                           criterion(c4, target[:, 4])
                           # loss /= 6
                    val_loss.append(loss.item())
        return np.mean(val_loss)

注意一下这里使用了一个with torch.no_grad(),表示这里的数据不需要计算梯度,也不会进行反向传播
很显然,这里是验证集,当然不需要

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342