Visual Transformer论文阅读 - 文集

5篇文章 · 2180字 · 2人关注

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
这篇文章是从改进ViT输入的角度来做的，在最初版本的ViT中，是将图像分成16*16个patch，每个patch展开为一个向量，作为ViT的序列...

1557 0 0
DeepViT: Towards Deeper Vision Transformer
字节跳动AI Lab最新的工作，研究了如何把ViT做的更深的问题。之前的ViT采用的都是固定的12层，所不同的是head的数目和embeddin...

2.7 1656 1 2

Training data-efﬁcient image transformers & distillation through attention
这篇文章最大的贡献就是有效降低了vision transformer的训练成本（时间以及数据），提高了ViT实验的可复现性，本文所提出的DeiT...

0.1 711 0 1
Bottleneck Transformers for Visual Recognition
谷歌和伯克利一起提出的Bottleneck Transformer（BoT）属于一种hybrid network，将cnn和transforme...

0.2 2393 0 2
An image is worth 16 x 16 words: transformers for image recognition at a scale
（可能）是第一次大规模的采用纯transformer做cv任务的文章，验证了transformer在cv领域的有效性，大大的挖坑之作。 ViT的...

2.7 2153 0 3