最优化, 损失函数可以量化某个具体权重集W的质量,即一系列的W所得到的损失函数的值,值越小表示预测值越接近真实值。
而最优化的目标就是找到能够使损失函数值最小化的一系列W。下面我们来探讨几个可能的最优化方案。
随机初始化
首先,思考第一个策略,我们随机尝试很多不同的权重,然后观察哪一批W的效果最好。
核心实现代码如下:
accuracy_cnt = 0
batch_size = 100
x = test_dataset.test_data.numpy().reshape(-1,28*28)
labels = test_dataset.test_labels
finallabels = labels.reshape(labels.shape[0],1)
bestloss = float('inf')
for i in range(0,int(len(x)),batch_size):
network = init_network()
x_batch = x[i:i+batch_size]
y_batch = forward(network, x_batch)
one_hot_labels = torch.zeros(batch_size, 10).scatter_(1, finallabels[i:i+batch_size], 1)
loss = cross_entropy_error(one_hot_labels.numpy(),y_batch)
if loss < bestloss:
bestloss = loss
bestw1,bestw2,bestw3 = network['W1'],network['W2'],network['W3']
print("best loss: is %f " %(bestloss))
下面使用这些bestw来查看准确率,代码如下:
a1 = x.dot(bestw1)
z1 = _relu(a1)
a2 = z1.dot(bestw2)
z2 = _relu(a2)
a3 = z2.dot(bestw3)
y = _softmax(a3)
print(y)
#找到在每列中评分值最大的索引(即预测的分类)
Yte_predict = np.argmax(y, axis = 1)
one_hot_labels = torch.zeros(x.shape[0], 10).scatter_(1, finallabels, 1)
true_labels = np.argmax(one_hot_labels.numpy(),axis=1)
#计算准确率
print(np.mean(Yte_predict == true_labels))
最后输出的准确率是 0.1218,这个结果与我们自己随便猜测的效果不相上下。 上述代码中值得注意的是,在PyTorch中产生的label并不是one-hot类型的,所以需要将其转换成one-hot类型。
转换代码如下:
one_hot_labels = torch.zeros(batch_size, 10).scatter_(1, finallabels[i:i+batch_size], 1)
下面运行转换后的测试代码,效果非常直观,测试代码如下:
import torch
from torch.utils.data import DataLoader
import torchvision.datasets as dsets
import torchvision.transforms as transforms
import numpy as np
class_num = 10
batch_size = 4
label = torch.LongTensor(batch_size, 1).random_() % class_num
print(label)
one_hot = torch.zeros(batch_size, class_num).scatter_(1, label, 1)
print('---')
print(one_hot)