5篇文章 · 2180字 · 2人关注
这篇文章是从改进ViT输入的角度来做的,在最初版本的ViT中,是将图像分成16*16个patch,每个patch展开为一个向量,作为ViT的序列...
字节跳动AI Lab最新的工作,研究了如何把ViT做的更深的问题。之前的ViT采用的都是固定的12层,所不同的是head的数目和embeddin...
这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的可复现性,本文所提出的DeiT...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)属于一种hybrid network,将cnn和transforme...
(可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。 ViT的...
文集作者