240 发简信
IP属地:山西
  • 120
    训练ViT和MAE减少一半计算量!Sea和北大联合提出高效优化器Adan,深度模型都能用

    转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...

  • 120
    大模型系列:SwiGLU激活函数与GLU门控线性单元原理解析

    关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...