@妖皇裂天 能仔细讲讲为什么训练decoder能并行么?
Transformer初识首先需要明确的是,Transformer是一个翻译模型。与之前主流的翻译模型相比,transformer的依然是一个encoder-decoder结构,改变的主要是enc...
@妖皇裂天 能仔细讲讲为什么训练decoder能并行么?
Transformer初识首先需要明确的是,Transformer是一个翻译模型。与之前主流的翻译模型相比,transformer的依然是一个encoder-decoder结构,改变的主要是enc...