网站建设在马来西亚,防疫大数据平台,成品免费网站源码,wordpress h1 h2前言
本文主要通过阅读相关论文了解当前Transformer在目标检测领域的应用与发展。 谷歌在 ICLR2020 上提出的 ViT#xff08;Vision Transformer#xff09;是将 Transformer 应用在视觉领域的先驱。从此#xff0c;打开了Transformer进入CV领域的桥梁#xff0c;NLP与CV几…前言
本文主要通过阅读相关论文了解当前Transformer在目标检测领域的应用与发展。 谷歌在 ICLR2020 上提出的 ViTVision Transformer是将 Transformer 应用在视觉领域的先驱。从此打开了Transformer进入CV领域的桥梁NLP与CV几有大一统之趋势。
俗语云万事开头难尽管Transformer在CV领域的研究仍处于开始阶段但伴随着研究者们夜以继日前仆后继的不断深入Transformer在CV领域的研究已经颇有成效尤其是目标检测领域随着2020 年 Carion 等人提出了一种新型的 Transformer 目 标检测框架DETR(Detection Transformer)为 Transformer 在目标检测任务中的应用奠定了重要的基础后续出现了大量基于 DETR 的改进算法。
今天我们便围绕着Transformer在目标检测领域的研究工作展开学习。
Transformer 与 CNN 相结合
CNN 是基于临近像素具有较大相似性这一假设而形成的归纳偏置局部性是它的典型特征而Transformer 则对特征进行全局交互因此二者特征学习的方式和特征编码的内容有较大的差异。换言之CNN侧重于局部特征的获取而Transformer则在全局特征表达桑颇具心得。 因此将 Transformer 和 CNN 相结合是提高模型特征提取能力的有效手段下面从结构融合、特征融合和机理融合三个层面介绍 Transformer 和 CNN 结合的方法。
结构融合
旨在通过对多个模块进行有效的组合形成新的网络结构。
MobileViT将 Transformer 视为一个模块集成到卷积神经网络中使模型同时具备局部性和全局性。
MPViT采用多路并行的 Encoder 和卷积实现全局特征和局部特征的共享达到了 SOTA 性能。
特征融合
该方式从特征层面入手一般采用并行分支结构融合 CNN 和 Transformer 提取到的特 征来增强特征表达能力。 Peng 等人2021提出的Conformer模型设计了并行的 CNN 和 Transformer分支采用桥接模块实现特征融合。将 Conformer 作为 Backbone在 COCO 上的 mAP 达到了 44.9%。
DeiT 结合知识蒸馏的思想通过将 CNN 学习到的特征引入到 Transformer的训练过程中实现两种特征的融合。
机理融合
结构融合与特征融合通过串行或并行的方式实现 Transformer 与 CNN 的结合但注意力 机制和卷积仍然是不同的两个部分没有充分的利用它们之间的相关性而机理融合通过深入挖掘二者之间的内在联系合理的集成注意力和卷积。
ACmix深入分析了自注意力与卷积特征提取机理的相似性通过共享特征映射参数实现自注意力和卷积的机理融合ACmix 同时具有局部性和全局性在迁移至目标检测任务中时在 COCO 上的 mAP 达到了 51.1。
小结
Transformer 骨干网络通过自注意力编码图像全局特征为检测器提供了高质量中间特征其全局建模能力是 CNN 所不具备的。
但其仍存在许多问题
Transformer骨干的研究尚处于起步阶段仍然存在计算量大、丢失细节信息等问题目前针对这些问题的改进主要围绕注意力机制展开如通过限制注意力作用范围以及下采样输入序列来降低计算量通过解耦注意力机制来避免因合并操作丢失细节信息。此外对Transformer 多尺度特征的设计和利用也是解决信息丢失的重要方法。虽然 Transformer骨干提高了各种检测器的性能但 CNN 的局部信息提取能力同样是 Transformer所欠缺的并且在小样本训练时 CNN 更具优势因此Transformer 和 CNN相结合是研究的趋势除了结构融合和特征融合这种较为直观的结合方式进一步探究注意力和卷积的特征提取机制挖掘其中的相似性在机理层面实现二者的融合也取得了很好的效果。 预处理层
预处理层的主要功能包括数据增强和特征预学习。其中数据增强通过引入多种变换在原训练集的基础上生成更多虚假样本丰富了样本的多样性有助于提高模型的泛化能力和检测性能特征预学习通过 CNN 对原始输入图片做初步的特征提取在增强特征的同时降低了后续编码器模块的输入分辨率减少了计算量。
序列化层
序列化层的主要功能为将图像输入划分为词向量序列并进行位置编码。一般的序列划分方式在输入的全局范围内进行划分序列中的全部词向量通过注意力机制进行直接的交互而以 Swin Transformer 为代表的窗口机制则是一种局部方式位于同一窗口或组别中的词向量可在后续层中进行局部的交互由于Transformer 缺乏位置感知能力所以通过位置编码为模型显式的添加位置信息位置编码方式主要分为绝对位置编码和相对位置编码绝对位置编码只考虑了词向量在序列中的位置信息相对位置编码则考虑了序列中词向量对之间的相对位置关系。
编码器层
一般采用标准 Transformer 编码器结构通过注意力机制对序列化特征进行交互。自注意力机制通过计算词向量之间的相关性得到注意力分布基于注意力分布实现特征的加权聚合。该层是特征学习环节的重要组成部分。
采样层
采样层主要负责特征重构以及特征采样和合并。其中如果后续检测层沿用了基于 CNN 的目标检测模型的检测网络则需要将序列特征重构为空间特征图再将其馈入到检测网络中。特征的采样和合并主要有两方面的功能减少序列中的词向量个数从而减少计算量以及处理 Transformer 层级特征例如配合FPN等多尺度特征融合技术或 ResNet残差链接思想进一步的增强和利用层级特征。
检测层
检测层旨在根据多个尺度的特征对图像中目标的位置和类别信息进行处理和预测。检测层的实现方式主要有两类第一类传统的基于 CNN 的目标检测模型的检测网络。第二类基于解码器结构的目标估计如 DETR 中的目标查询机制通过目标查询向量与图像特征进行交互抽取潜在的目标位置信息和类别信息然后采用全连接网络预测目标信息形成检 测结果。