目前transformer从语言到视觉任务的挑战主要是由于这两个领域间的差异: 1、尺度变化大 2、高分辨率的输入 为了解决以上两点,我们提出了...
个人理解 1、为什么和其他anchor-based方法相比,小目标检测的表现差?可能有两个原因: Encoder模块中的Residual Blo...
个人感觉从理论上在实际场景下应该很有效,在自己的数据集上使用也涨了2个点。现实中标注的数据大部分不确定性都很很强、场景也更复杂。引入Genera...
一、主要贡献 作者以RetinaNet和FCOS为例,分析了anchor-based和anchor-free的性能差异的原因: 1、每个位置的a...
个人看法 关于作者提出的norm-based的方法的依赖条件,我认为通过简单的修改就能解决,并且在自己的yolov3的项目中也成功应用,剪枝率大...
DeepSort学习笔记 deepsort作为多目标跟踪的经典算法,相信每个入门MOT领域的人都是从deepsort开始,网上有大量的学习教程,...
个人理解 针对作者的几点结论的个人理解,感觉根本原因并不是在anchor based和anchor free的方法上,个人认为,造成结果不同的主...
基于TPS的STN模块-Robust Scene Text Recognition with Automatic Rectification T...
DBNet 简介 由于分割网络的结果可以准确描述诸如扭曲文本的场景,因而基于分割的自然场景文本检测方法变得流行起来。基于分割的方法其中关键的步骤...