模型构建
预训练词向量导入
上一篇博文里,我们已经完成了数据集的制作,接下来的一个问题就是,模型的构建,第一个问题就是词向量的问题,
我们已经有了一个训练好的词向量,那么在keras中很好处理,可以看我的gitghub keras 实现,那么pytorch是怎么实现与训练向量的导入的呢,如果看官方文档,查看完整参数列表,发现似乎没有参数可以实现预训练向量的导入,只有定义好就是随机的初始化向量。查看了源码,发现了存储embeding权重的变量就是weights,然后我
尝试直接修改weights的值,踩了几个坑,最后采用如下实现:
self.word_embeds = nn.Embedding(vocab_size, embedding_dim)
weight = np.array(weight)
self.word_embeds.weight.data.copy_(torch.from_numpy(weight))
ok,测试一下,怎么测试呢,随便找个词输入可以查看50维度的词向量,输入到上面的embeding层中,再输入到一个
没有赋值的embeding层中,通过查看词向量是否一致来看是不行的,因为embeding层每次都会随机选取初始化向量的,
不一致才是正常的,因此我们可以通过执行两次上面赋值后embeding,看看是否一样,一样说明赋值成功了,否则的话
随机变化肯定是不会一样的。测试代码如下:
vocab_len = len(word_to_index) + 1 #word index begin with 1,plus 1 for padding 0
emb_dim = word_to_vec_map["cucumber"].shape[0]
emb_matrix = np.zeros((vocab_len, emb_dim))
for word, index in word_to_index.items():
emb_matrix[index, :] = word_to_vec_map[word]
word_embeds = nn.Embedding(vocab_len, 50)
pretrained_weight = np.array(emb_matrix)
word_embeds.weight.data.copy_(torch.from_numpy(pretrained_weight))
input = Variable(torch.LongTensor([word_to_index["cucumber"]]))
print("111:",word_embeds(input))
print("222:",word_embeds(input))
print("333:",word_embeds(input))
为了保险,我输入了三次,结果都是一样的,这就说明赋值是成功的。
固定词向量
我们知道,训练时,我们是不希望词向量的值改变的,因为这个向量已经在很大的语料库上训练好了,不需要改变,因此就涉及到固定子层参数不更新的技巧。这个方法有很多,常用的是requires_grad和volatile,requires_grad = False等同于volatile = True。我就只说说前者了,每个Variable都有这个参数,自然就包括model的parameter,因此我们可以设置embeding层的参数的parameter的requires_grad为False,这样就不会计算他们的梯度了,这样还会提升模型训练的速度,因为预训练的词向量矩阵还是维度很大的,如果每次反向传播都计算它的梯度会极大地影响训练的速度。当然这样还是不够的,设置优化器的时候,第一个参数就不可以是model。parameter(),因为embeding层的梯度是没有的,也就优化不了,因此要将它排除。由于这里的层很少,因此我采用如下方法:
optimizer1 = torch.optim.Adam(model.rnn.parameters(),lr=0.001)
optimizer2 = torch.optim.Adam(model.linear.parameters(),lr=0.001)
就是用两个优化器,分别优化剩下的两个层。这个方法是我自己想的,不知道有没有什么bug。那么自然,后面更新的step,也要两个优化器一起step。完整代码我会上传到我的github的。
模型搭建
剩下的就蛮简单的了,注意好好看官方文档对应的API,每个参数都了解,能节省代码就节省代码,比如2层LSTM中间接dropout,keras是依次实现的,而pytorch可以直接一个函数实现。具体结构如下:
其他
记得还有一个问题是,读取自定义数据集时,会把数据变成DoubleTensor,target变成了intTensor,转化成longTensor就是直接在后面加上.long(),就行了,其他的Tensor之间的转化也如此,.int(),.float(),等等。
-
完整代码地址 pyTorch emojify,喜欢的别忘了点个star哦=-=
我以后应该会出一个深度框架解读系列,目的就是让大家积极读源代码,这样才能彻底掌握这个框架,也督促我自己好好研读源码,因此大家Github上一定要关注这些框架的官方源码,时时关注更新动态,首先应该就是从pytorch和torchvision开始讲起,一个类一个类的详解,当然很多类也需要关联起来解读。然后其他框架的话再说吧,我了解的框架也就那么几个=-=