用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降 checkpoint+ddp的时候,可能会报...
1. 通过下标取数据:index_select torch.index_select(input, dim, index)input: 待ind...
今天读了一篇比较古老的文章,是旷视发表在ECCV18的一篇目标检测文章,DetNet。这篇文章应该紧跟着FPN发表的,主要针对目标检测通用bac...
这篇文章是从改进ViT输入的角度来做的,在最初版本的ViT中,是将图像分成16*16个patch,每个patch展开为一个向量,作为ViT的序列...
字节跳动AI Lab最新的工作,研究了如何把ViT做的更深的问题。之前的ViT采用的都是固定的12层,所不同的是head的数目和embeddin...
这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的可复现性,本文所提出的DeiT...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)属于一种hybrid network,将cnn和transforme...
(可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。 ViT的...
今天写代码的时候遇到一个问题,网络前向过程中有一个张量A,我想把张量A中的大于0的值变成张量B中对应的值,最初的实现是: 然后运行起来就报错了,...