目前transformer从语言到视觉任务的挑战主要是由于这两个领域间的差异: 1、尺度变化大 2、高分辨率的输入 为了解决以上两点,我们提出了层级Transformer,通...
目前transformer从语言到视觉任务的挑战主要是由于这两个领域间的差异: 1、尺度变化大 2、高分辨率的输入 为了解决以上两点,我们提出了层级Transformer,通...
个人理解 1、为什么和其他anchor-based方法相比,小目标检测的表现差?可能有两个原因: Encoder模块中的Residual Blocks中的3x3依次使用dil...
个人感觉从理论上在实际场景下应该很有效,在自己的数据集上使用也涨了2个点。现实中标注的数据大部分不确定性都很很强、场景也更复杂。引入Generalized Focal Los...
一、主要贡献 作者以RetinaNet和FCOS为例,分析了anchor-based和anchor-free的性能差异的原因: 1、每个位置的anchor数量不同。retin...
个人看法 关于作者提出的norm-based的方法的依赖条件,我认为通过简单的修改就能解决,并且在自己的yolov3的项目中也成功应用,剪枝率大于90%。但是在Paddle ...
DeepSort学习笔记 deepsort作为多目标跟踪的经典算法,相信每个入门MOT领域的人都是从deepsort开始,网上有大量的学习教程,但是相比别人喂我还是更喜欢自己...
个人理解 针对作者的几点结论的个人理解,感觉根本原因并不是在anchor based和anchor free的方法上,个人认为,造成结果不同的主要差异就是在训练reid网络的...
基于TPS的STN模块-Robust Scene Text Recognition with Automatic Rectification TPS:薄板样条插值(Thin ...
DBNet 简介 由于分割网络的结果可以准确描述诸如扭曲文本的场景,因而基于分割的自然场景文本检测方法变得流行起来。基于分割的方法其中关键的步骤是其后处理部分,这步中将分割的...
论文链接 代码链接 先盗一张大佬总结的图: 个人如何看待yolov4 Yolov4的作者在论文中通篇都在强调其实用性,它并不是一篇面向学术界的paper,从学术角度看待它确实...
Macos通过SSH连接显示docker容器的GUI界面 服务器没有gui界面,但是项目中需要接实时视频流进行可视化。所以只能远程连接通过X11进行转发到本机可视化。 一、配...
YOLOV3剪枝 论文:Network Slimming-Learning Efficient Convolutional Networks through Network ...
这里直接贴一个知乎链接,可以说讲得很好了https://zhuanlan.zhihu.com/p/80594704 在单阶段的目标检测任务中,由于前景和背景不平衡的问题导致效...
Github:FCOS 摘要 提出了一种全卷积的one-stage目标检测方法,以逐像素点的方式解决目标检测问题,类似于语义分割。FCOS是anchor free的方法,FC...
一、简介 解决拥堵场景的的人群计数方法从简单的人群统计(仅输出目标图像的人数)到以输出密度图(显示人群分布特征)作为结果。这种发展趋势是为了满足更多场景下的需求,因为同样数量...
confidence loss部分已经改正确了
目标检测之YOLOv2,最详细的代码解析一、前言 最近一直在研究深度学习在目标检测的应用,看完了YOLOv2的paper和YAD2K的实现源码,来总结一下自己的收获,以便于加深理解。 二、关于目标检测 目标检测可简...
前言 自己很早就看到过这篇论文了,论文中的工作和我的一个项目也是有很多共通之处,但是自己实力不够也没有想法去把它们全部总结下来,只能在此膜拜一下大佬。 涉及到的方法总览 Tr...
一、参赛背景 一条通信专业的闲鱼突然对AI产生了浓厚的兴趣,天天看着各种新闻报导AI相关的东西,只是知道它的相关应用,但具体是怎么回事一直困扰着我,求知欲迫使自己开始了这段艰...