12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 324042 字,被 262 人关注,获得了 641 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56198 人关注,获得了 371 个喜欢
写了 596547 字,被 70755 人关注,获得了 141867 个喜欢
写了 919579 字,被 50172 人关注,获得了 93399 个喜欢
写了 1917256 字,被 72880 人关注,获得了 226526 个喜欢
写了 380474 字,被 68267 人关注,获得了 131540 个喜欢
写了 3891541 字,被 56598 人关注,获得了 98796 个喜欢
写了 4031622 字,被 121432 人关注,获得了 5096 个喜欢
写了 2484545 字,被 70424 人关注,获得了 175499 个喜欢
写了 387140 字,被 120808 人关注,获得了 11955 个喜欢
写了 0 字,被 643267 人关注,获得了 74506 个喜欢