当前位置：首页 > news >正文

杭州外贸网站建设公司排名wordpress qq联系代码

news 2026/5/8 17:28:00

杭州外贸网站建设公司排名,wordpress qq联系代码,wordpress个性化友情链接页面,wordpress调用当前文章标题基于 YOLO 的红外小目标检测的逆向范例摘要1 引言2 相关工作2.1 逆向推理2.2 物体检测方法 3 方法3.1 总体架构3.2 逆向标准的可微分积分 4 实验4.1 数据集和指标4.2 实验环境4.4 OL-NFA 为少样本环境带来稳健性 5 结论论文题目#xff1a; A Contrario Paradigm for YOLO-b… 基于 YOLO 的红外小目标检测的逆向范例摘要1 引言2 相关工作2.1 逆向推理2.2 物体检测方法 3 方法3.1 总体架构3.2 逆向标准的可微分积分 4 实验4.1 数据集和指标4.2 实验环境4.4 OL-NFA 为少样本环境带来稳健性 5 结论论文题目 A Contrario Paradigm for YOLO-based Infrared Small Target Detection基于 YOLO 的红外小目标检测的逆向范例论文下载链接 https://arxiv.org/pdf/2402.02288.pdf 摘要检测红外图像中的微小目标是计算机视觉领域的一项具有挑战性的任务尤其是在将这些目标从嘈杂或纹理背景中区分出来时。与分割神经网络相比传统的物体检测方法如 YOLO在检测微小物体时非常吃力因此在检测小目标时性能较弱。为了在保持高检测率的同时减少误报在 YOLO 检测器的训练中引入了反向决策标准。后者利用小目标的不可预测性将它们与复杂背景区分开来。在 YOLOv7-tiny 中加入这一统计标准缩小了红外小目标检测和物体检测网络中最先进的分割方法之间的性能差距。它还大大提高了 YOLO 对少样本环境的鲁棒性。关键词小目标检测、逆向推理、YOLO、少样本检测 1 引言在包括医疗或安全领域在内的各种应用中准确检测红外infrared, IR图像中的小目标至关重要。红外小目标检测Infrared small target detection, IRSTD是计算机视觉领域的一项巨大挑战其困难主要在于(1) 目标的大小面积低于 20 像素(2) 复杂且纹理丰富的背景从而导致许多误报(3) 学习条件即从小型、多样化程度低且高度类不平衡的数据集中学习因为与背景类像素相比目标类像素的数量非常少。过去几十年来深度学习方法的兴起在物体检测领域取得了令人瞩目的进步这主要归功于它们能够从大量标注数据中学习提取出非常适合最终任务的非线性特征。在 IRSTD 中语义分割神经网络的应用最为广泛[1]。其中包括 ACM[2]、LSPM[3]和最近最先进的SOTA方法之一即 DNANet[4]它由多个嵌套的 UNets 和一个多尺度融合模块组成能够分割不同大小的小物体。然而依靠分割神经网络进行物体检测的一个主要问题是在调整用于二值化分割图的阈值时可能会出现物体破碎的情况。这会导致许多不希望出现的误报并扭曲计数指标。Faster-RCNN [5] 或 YOLO [6] 等物体检测算法通过边界框回归明确定位物体从而降低了这种风险。然而这些算法往往难以检测到微小物体。很少有研究关注将此类检测器用于 IRSTD [7]也没有与 SOTA IRSTD 方法进行严格比较。在本文中提出了一种新颖的 YOLO 检测头称为 OL-NFAfor Object-Level Number of False Alarms, OL-NFA对象级误报数量专门用于小物体检测。该模块集成了一个逆向决策标准用于引导特征提取从而使不可预测的物体在背景中脱颖而出并被检测到。它用于重新估算由 YOLO 骨干计算出的对象性分数并经过精心实施以便在训练过程中进行反向传播。使用逆向范式的一个好处是因为有大量的背景样本它侧重于对背景建模而不是对物体本身建模。这样通过拒绝背景分布的假设来进行检测就可以绕过类不平衡和训练数据少的问题。主要贡献如下 1.设计了一种新颖的 YOLO 检测头它整合了一种用于估算对象性分数的逆向标准。通过重点对背景而非物体本身进行建模放宽了对大量训练样本的限制。 2.在著名的 IRSTD 基准上比较了 SOTA 分割神经网络和物体检测方法结果表明在 YOLOv7-tiny 骨干中添加 OL-NFA 可以缩小 IRSTD 中物体检测器和 SOTA 分割神经网络之间的性能差距。 3.此外还在少样本环境中大幅提高了 YOLOv7-tiny 的性能15-shot 的 AP 为 39.2%证明了逆向范式在弱训练条件下的鲁棒性。 2 相关工作 2.1 逆向推理逆向决策方法可以自动推导出与假设检验相关的决策标准。这些方法从感知理论尤其是Gestalt理论中汲取灵感[8]。这些方法包括通过使用可解释的检测阈值来拒绝表征非结构化背景的原始模型。后者允许控制误报数量NFA通常定义为被测物体总数与所选原始的模型所遵循的规律的尾部分布之间的乘积。由于计算出的尾值取决于对象的特征因此 NFA 值可以与任何给定对象相关联。文献中提出了几种逆向的公式。它们取决于考虑的是灰度图像还是二值图像。在第一种情况下最常用的原始模型是像素灰度值的高斯分布 [9、10、11]。后者已被 [12] 整合到深度学习框架中并在小目标分割中表现出了很好的性能。在第二种情况下最广泛使用的原始模型是图像网格中真实像素的均匀空间分布。这就导致了参数 p p p 的二项分布即真实像素 κ κ κ在任何给定参数形状的区域 ν ν ν内的数量[13, 14] NFA ( κ , ν , p ) η ∑ i κ ν ( ν i ) p i ( 1 − p ) ν − i , \text{NFA}\left(\kappa,\nu,p\right)\eta\sum_{i\kappa}^{\nu}\begin{pmatrix}\nu\\i\end{pmatrix}p^{i}\left(1-p\right)^{\nu-i}, NFA(κ,ν,p)ηiκ∑ν(νi)pi(1−p)ν−i, 其中 η η η 是测试对象的数量。根据公式 (1)可能代表物体的像素子集更加重要因为与图像整体密度相比它包含许多空间上接近的点。工作重点是将这一原始的模型整合到物体检测器的训练循环中以引导特征提取而这在之前的研究中并没有考虑到。与 [12] 不同的是[12] 的原始模型适用于像素级分类即分割而作者考虑的是另一种直接适用于对象级的模型因此更适用于有边界框建议的神经网络。 2.2 物体检测方法物体检测是在图像中检测感兴趣的物体并通过边界框确定其位置的任务。针对此类任务已经提出了几种深度学习方法 [15, 6]。YOLO 框架是应用最广泛的一种因为它在各种应用中都有很好的性能而且执行时间短。它是一种单阶段算法使用单个卷积神经网络来预测边界框坐标、对象性和分类分数。具体来说它将图像划分为一个个网格并预测任何给定网格单元包含物体的概率表示为物体度分数如果存在物体则预测物体的边界框坐标。YOLO 早期版本的一个问题是它们在检测小物体时很吃力。事实上如果要检测的物体太小它可能只占据网格单元的一小部分这使得 YOLO 难以准确地检测到它。为了解决这个问题YOLOv3 [16] 引入了一个特征金字塔网络feature pyramid networkFPN将在多个尺度上检测到的特征结合起来。YOLO 的一些最新版本如 YOLOR [17] 或 YOLOv7 [18]在一些著名的计算机视觉基准测试中取得了具有竞争力的检测性能同时还提高了执行速度。还有人提出了卷积层数更少的 YOLO 微型版本。 3 方法 3.1 总体架构作者提出了一种新颖的 YOLO 检测头称为 OL-NFA对象级 NFA 检测头它集成了一种逆向标准用于检测具有意外偏离背景分布特征的物体。OL-NFA 将根据 NFA 标准式 (1)计算对象性得分并应用于网络生成的特征图。图 1 展示了方法的整体架构。红外输入图像首先经过 YOLO 主干网络提取不同尺度的特征图。然后通过颈部将三个较低层次的特征组合在一起从而得到最终的特征图 F i F_i Fi用于执行三个层次的检测 i ∈ 1 , 2 , 3 i∈{1, 2, 3} i∈1,2,3。为了实现检测首先要通过密集层预测边界框坐标。然后引入 OL-NFA 模块利用 NFA 准则重新估算每个边界框的对象度得分。为此使用 Faster R-CNN [15] 中的 ROI Align 提取出 η 个感兴趣区域ROI用 f r o i f_{roi} froi表示并通过第 3.2 节所述的重要性层计算出每个 ROI 的重要性得分。最后通过第 3.2 节中定义的函数 f a c t f_{act} fact这些分数的范围为 [01]这样就可以应用 YOLO 中使用的二元交叉熵损失。 3.2 逆向标准的可微分积分图 1 中的重要性层整合了公式 (1) 中给出的逆向标准。然而由于该公式 (i) 是为二值图像而非灰度特征图而设计的而且 (ii) 不可微因此需要进行一些近似处理以便将其整合到 YOLO 训练循环中。公式 (1) 带来的第一个困难是计算 f r o i ∈ R 2 f_{roi}∈\mathbb{R}^2 froi∈R2 中 True 像素 κ 的数量。如果要对 f r o i f_{roi} froi进行二值化处理就会破坏反向传播循环。因此建议考虑实数成员系数以模糊聚类或分类的精神为指导即对每个像素处理一个系数表示它属于包含二进制情况下的值为 1像素的集合的程度。为此在像素值上使用了 sigmoid 函数 σ这样就可以通过这些模糊归属系数的总和近似地计算出 f r o i f_{roi} froi 中包含的像素数量从而估算出局部密度。在计算 F i F_i Fi中的总点数时也采用了同样的近似方法以估算公式 (1) 中二项式定律的参数 p p p代表 F i F_i Fi 的全局密度。第二个问题是NFA 函数是不连续的、不可微的而且由于处理的是面积很小的物体 ν ν ν它只取极少数不同的值。这些因素使得很难将公式 (1) 原封不动地集成到训练环路中并进行有效的反向传播。因此定义了 S ( κ , ν , p ) − l n ( N F A ( κ , ν , p ) ) S (κ, ν, p) - ln(NFA(κ, ν, p)) S(κ,ν,p)−ln(NFA(κ,ν,p)) 的意义并在 k v p \frac{k}{v} p vkp 时使用霍夫丁近似从而得出 S ( κ , ν , p ) ≈ ν [ κ ν ln ⁡ ( κ ν p ) ( 1 − κ ν ) ln ⁡ ( 1 − κ ν 1 − p ) ] − ln ⁡ η . S\left(\kappa,\nu,p\right)\approx\nu\left[\frac{\kappa}{\nu}\ln\left(\frac{\frac{\kappa}{\nu}}{p}\right)\left(1-\frac{\kappa}{\nu}\right)\ln\left(\frac{1-\frac{\kappa}{\nu}}{1-p}\right)\right]-\ln\eta. S(κ,ν,p)≈ν[νκln(pνκ)(1−νκ)ln(1−p1−νκ)]−lnη. 这样就可以将函数 S ( κ , ν , p ) S (κ, ν, p) S(κ,ν,p) 的域扩展到 R 3 \mathbb{R}^3 R3并输出更多的中间值。在 κ ν ≤ p \frac{\kappa}{\nu}≤ p νκ≤p 的情况下只需指定 ( κ , ν , p ) − l n η (κ, ν, p) - ln~η (κ,ν,p)−ln η因为它对应于明显的背景值。最后由于显著性值的范围为 [ − l n ( N t e s t ) , ∞ ] [- ln(N_{test}), ∞] [−ln(Ntest),∞]其中大值对应于可能的目标为了获得范围为[0, 1]的对象性得分应用了非对称激活函数 f a c t ( x , η ) 2 σ ( x l n η ) − 1 f_{act}(x, η) 2σ(x ln η) - 1 fact(x,η)2σ(xlnη)−1其中 x ∈ R x∈ \mathbb{R} x∈R η ∈ N ∗ η∈ \mathbb{N}^∗ η∈N∗。 4 实验 4.1 数据集和指标在 NUAA-SIRST 数据集[2]上对提出的方法进行了评估该数据集是为数不多的可公开获取并在文献中广泛使用的红外小目标数据集之一。该数据集由 427 幅红外图像组成波长范围为 950 到 1200 nm。来自 NUAA-SIRST 的目标的空间范围从 2 - 3 像素到最大目标的 100 像素以上不等这使得该数据集适合在各种目标尺寸上评估提出的方法。如图 2 第一行所示目标被淹没在纹理云等具有挑战性的场景中。按照 60 : 20 : 20 的比例将数据集分为训练集、验证集和测试集。还通过仅在 15 幅和 25 幅图像上训练神经网络来评估提出的方法在少样本环境中的优势。在定量评估方面侧重于传统的检测指标F1 分数F1和平均精度AP精度-召回曲线下的面积。还依赖精度Prec.和召回率Rec.来了解 F1 分数的实现值。表格中的结果是三次不同训练的平均值上标为 F1 和 AP 的标准偏差。 4.2 实验环境在 YOLOv7tiny 的基础上添加了 OL-NFA 检测头因为与其他 YOLO 主干线相比该基线在 NUAA-SIRST 数据集上表现出色。将其与几种基线进行比较1) 专门为 IRSTD 设计的分割网络即 ACM [2]、LSPM [3] 和 DNANet [4]2) YOLO 基线如 YOLOv3 [16]、YOLOR [17]、YOLOv7 和 YOLOv7-tiny [18]。对于 IRSTD 分割神经网络使用原始论文中推荐的训练设置。所有物体检测神经网络都在 Nvidia RTX6000 GPU 上进行了 600 epochs从头开始的训练使用 Adam 优化器 [19]批量大小等于 16学习率等于 0.001。少量训练也采用了相同的设置。表 1 显示了每种比较方法在 NUAA-SIRST 上取得的性能。可以看到用OLNFA 代替传统的 YOLO 检测头不仅提高了微小物体检测的 YOLO 性能还缩小了 SOTA IRSTD 分割神经网络与传统物体检测神经网络之间的性能差距。具体来说提出的方法比最佳 YOLO 基线的 F1 分数高出 0.7%。AP 标准也提高了 0.4%。此外提出的方法在 F1 和 AP 方面的表现略好于 DNANet后者是 IRSTD 的 SOTA 方法。提出的方法的推理时间也比 DNANet 的推理时间短得多因此可以进行实时目标检测。提出的 OL-NFA 模块之所以性能卓越主要是因为精度更高但召回率损失有限这可以用 NFA 控制误报数量的特性来解释。事实上增加一个逆向的判定标准有助于增强小物体的特征从而将它们与复杂背景区分开来。这一点可以从图 2 中看出最佳 YOLO 基线会导致输入 3 和输入 4 出现多个误报而提出的方法则能提供正确的检测没有任何误报。 4.4 OL-NFA 为少样本环境带来稳健性将逆向推理纳入神经网络的一个重要动机是网络能够通过学习背景元素的表示而不是目标本身学习判别小目标。因此它应该能使神经网络对薄弱的训练条件具有鲁棒性。为了证实猜想在 NUAASIRST 数据集上定量评估了所提出的方法在少样本环境中的优势。为此分别在 15 幅和 25 幅图像上对网络进行了训练。对于每种少样本设置都在三个明显的褶皱上训练检测器它们之间没有重叠。在第 4.1 节定义的测试集上获得的结果是这三个褶皱的平均值计算出的平均值见表 2。可以看出提出的方法在节俭设置中的表现明显优于基线方法。事实上在这些情况下F1 分数和平均精度都至少提高了 20%。因此得出结论在基线方法中添加对象级 NFA 能显著提高其在节俭环境下的鲁棒性当训练样本数量除以 10 以上时F1 分数仅降低 15%而平均精度则保持在 90% 以上。 5 结论在本文中提出了一种名为 OL-NFA 的新型 YOLO 检测头它在 YOLO 网络的训练循环中集成了一个逆向的决策标准。它迫使网络对背景分布而不是要检测的物体进行建模。广泛的实验表明提出的方法不仅显著提高了 YOLO 网络在节俭型和少样本环境下的小目标检测性能而且在小目标检测方面与 SOTA 分割网络的性能相当。这一令人鼓舞的性能促使考虑进一步研究如何使用逆向范式来检测微小目标。

查看全文

http://www.hkea.cn/news/14584355/