12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 324042 字,被 258 人关注,获得了 639 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56210 人关注,获得了 371 个喜欢
写了 581415 字,被 70591 人关注,获得了 136510 个喜欢
写了 882904 字,被 50095 人关注,获得了 91149 个喜欢
写了 1858444 字,被 73117 人关注,获得了 222780 个喜欢
写了 354608 字,被 68523 人关注,获得了 127989 个喜欢
写了 3165628 字,被 56753 人关注,获得了 92001 个喜欢
写了 3931645 字,被 121451 人关注,获得了 4966 个喜欢
写了 2407443 字,被 70353 人关注,获得了 167443 个喜欢
写了 387140 字,被 120827 人关注,获得了 11958 个喜欢
写了 0 字,被 643368 人关注,获得了 74527 个喜欢