12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 324042 字,被 262 人关注,获得了 641 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56201 人关注,获得了 371 个喜欢
写了 588632 字,被 70702 人关注,获得了 138728 个喜欢
写了 911306 字,被 50174 人关注,获得了 92835 个喜欢
写了 1907866 字,被 72880 人关注,获得了 225405 个喜欢
写了 377030 字,被 68278 人关注,获得了 131031 个喜欢
写了 3731143 字,被 56593 人关注,获得了 97425 个喜欢
写了 4018753 字,被 121432 人关注,获得了 5083 个喜欢
写了 2461557 字,被 70420 人关注,获得了 173852 个喜欢
写了 387140 字,被 120811 人关注,获得了 11955 个喜欢
写了 0 字,被 643292 人关注,获得了 74506 个喜欢