45篇文章 · 19969字 · 1人关注
可以将一些需要处理的文本文件处理一次后就使用torch.save(或者pickle)存储成二进制文件方便下一次加载
new_empty是获取一个同样device和同样dtype的tensor,bernoulli_(p)是根据概率p产生0,1序列(p是0),ex...
每一个tensor都有register_hook方法,每次当关于这个参数的gradient被计算出来以后都会调用这个方法,因此可以用于debug...
就是与embed_tokens.weight用同样的参数 对参数进行相应的初始化 初始化的时候还可以让padding的部分为0
对于每一个样例,都移动到cuda上
原理 多GPU运行的接口是torch.nn.DataParallel(module, device_ids)其中module 参数是所要执行的模...
定义调度器 step-wise学习率退火,可以看到在warmup阶段学习率是慢慢的上升的,而过了warmup阶段使用相应的学习率schedule...
在train.py函数里面直接写 自己编写init_weight函数,tf中直接就有 编写更新dropout的函数update_dropout,...
corpus = get_lm_corpus(args.data, args.dataset),可以通过这里设置各个数据集特殊的参数,比如词表,...
文集作者