死循环网站,国内wordpress主机推荐,软件开发工作岗位,html代码大全网站推荐1. 为什么提出了Deformable DETR#xff1f;
因为DETR本身的计算量大#xff0c;收敛速度慢。其次是小目标检测效果差。主要原因是Attention模块每次只关注一小部分采样点#xff0c;导致需要很多轮数才能学习到真实需要关注的目标。
Deformable DETR注意力模块只关注一个…1. 为什么提出了Deformable DETR
因为DETR本身的计算量大收敛速度慢。其次是小目标检测效果差。主要原因是Attention模块每次只关注一小部分采样点导致需要很多轮数才能学习到真实需要关注的目标。
Deformable DETR注意力模块只关注一个query周围的少量关键采样点集采样点的位置并非固定而是可学习的。同时受到deformable convolution可变性卷积的启发认为Attention模块也可以关注更灵活的采样点让每个位置不必和所有位置交互计算只需要和部分学习来的重要的部分进行交互即可进而提出deformable attention模块。
2. 模型架构图 论文的deformable attention 模块 再看看基础的backbone
保留尺寸小的特征图有利于检测大目标保留尺寸大的特征图善于检测小目标。为此Deformable DETR提取4个尺寸下的特征图DETR仅1个尺寸特征提取过程如下图
3. 相比于detr主要的改进如下
多尺度 feature map参考上图最左侧Encoder部分的Muti-Head Self-Attention改为Multi-Scale Deformable Self-AttentionDncoder部分的Muti-Head Attention改为Multi-Scale Deformable Cross-Attention让检测头prediction heads预测边界框与参考点的相对偏移量以进一步降低优化难度。目标数上限从100提升至300在最后预测的时候会选择top-k前100进行预测。
此处借鉴https://blog.csdn.net/qq_51352130/article/details/142690269一张图和detr的结构进行对比一波。 为什么Decoder中的Multi-Head Self-Attention模块不改成Multi-Scale Deformable Cross-Attention模块
这儿有些懵借用博客的解释在交叉注意模块中对象查询从特征映射中提取特征其中的key是来自编码器的输出特征映射在自注意模块中对象查询相互交互其中key是对象查询(key value的来源一般都是同一个)。而本文提出的可变形注意模块是将卷积特征图作为关键元素设计的因为交叉注意模块使用了encoder的输出encoder的输入是特征图因此只需要修改交叉注意模块就可以了。
4. 实验分析
本文中query是由二维参考点 p q p_q pq和content feature z q z_q zq组成。content feature用于生成参考点的偏移量 △ p m q k \vartriangle{p_{mqk}} △pmqk和attention权重矩阵 A m q k A_{mqk} Amqk。此处的q指querym指多头的头数k指参考点个数。其中参考点是由object query经过一个全连接和sigmoid函数得到。对于单尺度的计算公式如下 当加入了多头后计算公式如下 查询情况的变化 其次为了进一步加快收敛作者在query的初始化和优化方式上也进行了改进query使用2维参考点初始化并且每一层decoder都进行优化论文中称为Iterative Bounding Box Refinement再传递到下一层decoder。注意这里和下文优化query方式的不同点此处每一层优化的只是参考点。参考点是用于 deformable convolution的。
在对公式进行一波对比借用大佬的图:https://zhuanlan.zhihu.com/p/677614600
5. 两阶段detr
最后作者提出了两阶段 Deformable DETR先在第一阶段生成候选query此时只有transformer encoder每个像素值作为一个query预测对应的bbox然后选择分数较高的bbox作为第二阶段的query。
与Faster R-CNN FPN相比DETR需要更多的训练epoch来收敛在检测小目标时性能更差。与DETR比较Deformable DETR 使用10x更少的训练轮次实现了更好的性能表现(特别是在小物体上)。 上图中的表显示Deformable Detr的效果优势最后作者还测试了每一层decoder都进行优化方式和两阶段的Deformable Detr效果效果确实不错。