手机苗木网站源码,广告设计制作公司简介,vi视觉设计案例,深圳十大电商巨头#x1f308; 个人主页#xff1a;十二月的猫-CSDN博客 #x1f525; 系列专栏#xff1a; #x1f3c0;论文精读_十二月的猫的博客-CSDN博客 #x1f4aa;#x1f3fb; 十二月的寒冬阻挡不了春天的脚步#xff0c;十二点的黑夜遮蔽不住黎明的曙光 注#xff1a;下文… 个人主页十二月的猫-CSDN博客 系列专栏 论文精读_十二月的猫的博客-CSDN博客 十二月的寒冬阻挡不了春天的脚步十二点的黑夜遮蔽不住黎明的曙光 注下文块引用部分均为猫猫的笔记
目录
1. 摘要
2. 介绍
3. 相关工作
3.1 预训练语言模型
3.2 视觉语言模型
3.3 提示词调优工程
3.4 方法
3.4.1 Preliminaries
3.4.2 ID-like Prompt Learning
3.4.3 Loss函数的设计
4. 总结 1. 摘要 分布外out -distribution OOD检测方法通常利用辅助离群值来训练识别OOD样本的模型特别是从辅助离群值数据集中发现具有挑战性的离群值来提高OOD检测。然而在有效区分最具挑战性的OOD样本方面它们可能仍然面临限制这些样本与分布中ID数据非常相似即类ID样本。为此我们提出了一种新的OOD检测框架该框架使用CLIP[28]从ID样本的附近空间发现类ID异常值从而有助于识别这些最具挑战性的OOD样本。然后提出了一个快速学习框架该框架利用识别出的类id异常值进一步利用CLIP进行OOD检测的能力。得益于强大的CLIP我们只需要少量的ID样本来学习模型的提示而不需要暴露其他辅助的离群数据集。通过专注于最具挑战性的id -类OOD样本并优雅地利用CLIP的功能我们的方法在各种真实世界的图像数据集上实现了卓越的少镜头学习性能例如在ImageNet-1k数据集上的4镜头OOD检测中与最先进的方法相比我们的方法将平均FPR95降低了12.16%将平均AUROC提高了2.76%。
2. 介绍 当在实际环境中部署机器学习模型时可能会遇到在训练过程中没有遇到的分布外OOD样本。当涉及到这些OOD输入时错误决策的风险会增加这可能会带来严重的安全问题特别是在自动驾驶和医疗诊断等应用中。除了在ID样本上表现良好外系统还需要识别OOD样本以产生可信的预测。因此OOD检测对于同等贡献是非常关键的为了在现实中安全地部署机器学习模型。 现有方法[8,16,19]通常侧重于仅使用训练中的ID数据检测OOD样本以预测OOD样本的较低置信度[7,23]或较高能量[20]。然而由于缺乏OOD信息这些模型难以有效地检测OOD。因此一些研究[9,20]建议使用辅助离群值来正则化模型并识别OOD样本。Chen等[1]和Ming等[25]认为选择更具挑战性的离群样本可以帮助模型更好地学习ID和OOD之间的决策边界。然而这些有限的辅助异常值包含更少挑战性的异常值。此外这些方法大多需要额外的离群数据这使得它们在无法获得离群数据集时无效。最近Du等[4]提出在训练过程中在不需要额外数据的情况下从ID数据特征空间的低似然区域合成虚拟离群数据来构建离群数据。该方法对鉴别ID和OOD有较强的疗效。然而有两个主要的限制i)它假设特征空间中的ID数据符合一类条件高斯分布这在复杂的现实应用中并不总是成立[30]ii)需要大量的ID样本来构建更准确的ID数据分布而获得大量的ID样本往往成本高昂。 OOD检测开放式离群值检测离群值就是和原本训练数据分布差距很大的数据。检测离群值作用就是不对这些数据做出判断而是辅助识别出这些数据。 因此在这项工作中我们专注于灵活地构建信息异常值以提高对具有挑战性的OOD样本的识别。 在本文中我们首先构建了与ID数据高度相关的离群值并引入了一种新的类ID提示用于OOD检测从而有效地识别具有挑战性的OOD样本。我们发现具有挑战性的OOD样本通常与ID数据高度相关表现出高度的视觉或语义相似性例如OOD的局部特征与ID相关如图1所示。由于OOD样本的这些类ID特征导致错误的预测因此自然产生了一个想法从ID样本中提取相关特征来构建具有挑战性的OOD样本。为此我们对ID样本的邻近空间进行多次采样。在这些样本中那些与ID提示相似度较低的样本不被归类为ID类即使它们包含与ID类相关的特征。因此这些样本自然被选为具有挑战性的OOD样本。与VOS[4]和NPOS[30]在特征空间的低似然区域合成虚拟离群点不同我们的方法直接从原始图像中构建离群点增强了灵活性和可解释性。 思考流程 具有挑战性的OOD样本难以寻找———自己制造具有挑战性的OOD样本———具有挑战性邻近空间和ID特征空间上相似———OOD样本与ID提示相似度低 虽然我们可以构建具有挑战性的OOD样本但有效识别这些OOD样本仍然具有挑战性。如图2左侧所示“狼”代表了“狗”类的一个具有挑战性的OOD示例。这些图像与ID提示类似导致分类概率高并且在区分ID和OOD方面存在重大挑战。我们认为仅仅依靠ID提示不足以解决这个问题。因此我们引入了额外的提示来增强OOD识别。如图2右半部分所示。 前面工作构建具有挑战性OOD样本并通过这些OOD样本增强模型对于离散数据的学习。 通过前面学习能够让模型包括ID提示词工程进一步学习出 特征相似但是提示词不相似 的数据。 从某种角度来说进一步在ID提示词层面做到了不相似类分离。 但是对于狼、狗这类数据仍然在图片特征值以及提示词上都是类似的。这种数据我们难以处理。 我们开发了一个额外的提示称为“dog-like”它类似于“dog”的提示。如果我们可以增加“狗样”提示和与“狗”高度相关的OOD样本之间的相似度模型将通过“狗”提示识别狗并通过“狗样”提示识别具有挑战性的OOD样本包括“狼”。 具体来说我们将额外的提示与这些构建的具有挑战性的OOD对齐创建类似于ID提示的OOD提示以有效地识别具有挑战性的OOD样本。大量的实验表明我们的方法在各种现实世界的任务中实现了优越的少量OOD检测性能。与在训练过程中需要大量数据的方法[4,30]相比我们的方法在每个类只使用一张图像的情况下将平均FPR95分数从38.24%显著降低到24.08%将平均AUROC从91.60%提高到94.70%。我们将我们的主要贡献总结如下 •我们提出了一个新的框架无需额外的训练通过利用CLIP自动探索ID样本附近空间中的类ID OOD样本这有助于模型有效识别与ID相关的具有挑战性的OOD样本。 •通过利用预训练的视觉语言模型的能力提出了一种类似id的提示学习方法来识别最具挑战性的OOD样本这些样本的行为类似id但却不同。 •我们在几个大规模数据集上验证了我们的方法结果表明我们的方法取得了令人印象深刻的性能在ImageNet-1K上4次OOD检测的平均AUROC达到96.66%。另外还进行了烧蚀实验来验证所设计方法的有效性 增加一个新的Prompt提示词在训练时同时训练旧提示词和新的提示词。 从而针对性提高特征值相似的类的识别度 3. 相关工作
3.1 预训练语言模型 Hendrycks和Gimpel[8]使用最大软最大概率maximum softmax probability MSP建立了OOD检测的基线。随后的研究探索了通过ODIN评分[11,19]和Mahalanobis评分[16]来检测OOD。 1、利用MSP方法来建立OOD检测是一种相当直观、简单的OOD检测方法。 2、ODIN评分在OOD检测中的优势在于它利用了温度缩放和扰动的结合使得模型在处理未见过的分布时更加敏感。手工调整缩放参数 3、Mahalanobis评分的优势在于它能够利用样本的分布信息从而为OOD检测提供了一种更为可靠的方式。 Fort等[6]首先将OOD检测任务扩展到预训练的视觉语言模型。esmailpour等[5]通过生成额外的负面标签来构建负面提示增强了预训练的视觉语言模型的OOD检测性能。最近Ming等[24]将MSP扩展到预训练的视觉语言模型并探讨了softmax和温度缩放对OOD检测的影响。CLIPN[34]对CLIP进行了微调使其能够输出负面提示以评估图像中不存在概念的概率。
3.2 视觉语言模型 对比视觉语言模型。与传统的机器学习模型相比近年来大规模预训练的视觉语言模型在各种下游任务上取得了很大的进展。例如CLIP[28]、FILIP[36]和ALIGN[13]利用对比损失如InfoNCE损失[31]来学习图像和文本的对齐表示。匹配的图像-文本对的表示距离越来越近不匹配的图像-文本对的表示距离越来越远。具体来说这些方法采用了一种简单的双流架构包括一个图像编码器和一个文本编码器它将图像和文本特征映射到一个共享空间中进行相似性计算。CLIP[28]受益于4亿对图像-文本对的精选数据集ALIGN[13]利用了18亿对噪声图像-文本数据。由于大规模的配对数据这些视觉语言预训练模型表现出令人印象深刻的性能。
3.3 提示词调优工程 基于CLIP的提示学习。在自然语言处理NLP中Petroni等人[27]将提示概念化为类似于填空任务。其核心思想是诱导一个预先训练的语言模型在给出完形提示的情况下生成答案。使用这种范式可以有效地处理情感分析等任务。然而它在很大程度上依赖于设计良好的提示符。为了避免手动设计大量提示一些研究[17,18]引入了提示调优作为解决方案。提示调整从连续输入嵌入空间的下游数据中学习提示信息为基础模型的微调提供了一种参数高效的方法。尽管快速学习在NLP中被广泛采用但它在视觉领域的探索仍然有限。最近CoOp[39]和CoOp[38]对CLIP[28]进行了提示调优通过最小化目标任务上的分类损失来调优提示有效提高了CLIP在相应下游任务上的性能。大量研究[22,26,29]利用基于CLIP的提示学习来提高在各种下游任务中的表现。
3.4 方法 3.4.1 Preliminaries Zero-shot classification with CLIP。CLIP由文本编码器T: T→R d和图像编码器I: x→R d组成分别用于获取文本T和图像x的特征向量。在执行分类任务时假设已知标签集Y {y1, y2… yK}我们可以构造一个概念向量T (tk), k∈{1,2… K}其中tk是标签yk的文本提示符“ yk 的照片”。我们将文本和图像的特征分别表示为h T (T)和z I(x)。我们首先获得图像特征相对于所有文本特征的相似度sk(x) sim(hk, z) sim(T (tk) I(x))其中sim··表示余弦相似度。对应于yk在x上的预测概率pk可以表示为 式中τ为softmax函数的温度 这里的公式类似前面提过的ODIN评分在普通的softmax基础上加入T用来调节温度 Prompt学习。为了进一步提高CLIP在few-shot分类上的性能CoOp[39]在文本的嵌入层上构造了一个可学习的张量。具体来说CoOp将提示符的可学习张量初始化为t [V]1[V]2…[V]L[CLASS]其中[V]L (L∈{1,2… L})是一个与词嵌入相同维数的可学习向量维数设置为512。然后根据样本的分类概率构造一个损失函数如交叉熵损失来优化可学习提示。 Out-of-Distribution Detection.。OOD 检测通常构建一个 OOD 检测器用 F(x) 表示即一个二元分类器 其中S(x) 是 OOD 检测任务中的得分函数γ 是决定样本属于 ID 还是 OOD 的阈值。例如Hendrycks 和 Gimpel [8] 和 Liu 等人[20]使用软分类概率的最大值和能量的最大值来判断样本是属于 ID 还是 OOD。[20] 分别使用 softmax 和 energy 的最大分类概率作为得分函数 S(x)。
3.4.2 ID-like Prompt Learning 在本文中我们介绍了一种新颖的少样本 OOD 检测模型该模型采用裁剪和 CLIP 模型来创建具有挑战性的离群值从而提高 OOD 检测能力。此外我们还利用提示学习来获取 ‘ID-like’ 的 OOD 提示。如图 3 所示我们的框架由两个主要部分组成(1) Constructing outliers from ID samples: 少样本设置下的训练集表示为 D {(x1, y1),(x2, y2), ...,(xN , yN )} 。为了充分探索训练样本的临近空间我们对每个 ID 样本 xi 进行多次随机裁剪得到集合 X crop i {x crop i,1 , x crop i,2 , ..., x crop i,M }其中 M 是随机裁剪的迭代次数。同时我们使用预定义模板创建相应的类别描述文本 tk例如 “一张〈yk〉的照片”其中 yk∈Y 表示相应的类别名称。接下来利用预训练模型CLIP我们计算样本集 X crop i 中的样本与描述 tk 之间的余弦相似度。根据余弦相似度的强弱我们分别从相似度最高和最低的片段中提取 ID 和 OOD 样本定义它们为 Xin i {x in i,1 , xin i,2 , ..., xin i,Q} 和 Xout i {x out i,1 , xout i,2 , ..., xout i,Q} 其中 Q 是用户定义的超参数。最后我们得到由所有 ID 样本构建的 Din {(x in 1,1 , y1),(x in 1,2 , y1), ...,(x in N,Q, yN )} 和 Dout {x out 1,1 , xout 1,2 , ..., xout N,Q} 。 利用随机裁剪的方法达到一下目的 1、增加了数据样本数量 2、增加模型稳定性参数缺失也可以识别的很好 3、减少噪声的影响 具体可以看下面这篇文章深度学习训练中为什么要将图片随机剪裁Random Crop_randomcrop-CSDN博客 核心思想1利用图片随机裁剪生成新数据 核心思想2利用余弦相似度划分 (2) 提示学习 我们为每个类别初始化一个可学习的提示形成 ID 提示集 T in {t in 1 , tin 2 , ..., tin K }并初始化一个额外的 OOD 提示集 T out {t out 1 , tout 2 , ..., tout C }其中 C 是 OOD 提示的数量。鉴于单个描述所覆盖的范围有限我们引入了多个 OOD 描述来增强覆盖范围。我们使用 CoOp [39]随机初始化这些文本描述的嵌入并使用损失函数对其进行优化从而学习改进后的提示。 为OOD的离散数据分开形成一个Prompt提示词 K已知类别的样本数量 C需要判断的OOD样本数量 3.4.3 Loss函数的设计 在训练过程中我们根据上一节提到的算法获得分布内和分布外数据分别记为 Din 和 Dout。我们通过由三个项组成的损失函数来优化提示。 前提知识 交叉熵的两种表示 其中Q和P是两种分布的概率分布函数这里是离散型 分布内损失为了确保分布内数据的分类性能我们使用了标准的交叉熵损失函数该函数用于测量 ID 样本的预测标签概率与地面实况标签之间的差异。形式上ID 交叉熵损失 Lin 的定义是 Din实况标签下的概率分布函数 log后面预测标签的概率分布函数 参数说明 S*实况记录的Prompt的encoder值和Image的encoder值的余弦相似度 Sink实况记录的image值x的encoder值和Tin中的第k个prompt值的encoder值的余弦相似度 SoutC实况记录的image值x的encoder值和Tout中的第c个prompt值的encoder值的余弦相似度 x,y目前实况的记录值image值以及标签值 Xin分布内的crop后的image值的集合 y分布内针对crop后的image的标签值动物类别分布外标签的y值是要求解未知 Xout分布外的crop后的image值的集合 DinXin和y的整合 DoutXout的整合 Tin按照Xin的标签值类别创建的待学习的Prompt值 Tout为了OOD样本所创建的Prompt值Prompt数量是可调节的超参数根据OOD样本的数量 预测标签的概率值模型预测出真实标签的概率值 分布外损失为了使 OOD 提示与异常值保持一致我们使用了交叉熵损失函数。值得注意的是在理想情况下每个类别都会有一个 ID 提示和一个 OOD 提示。但是为了节省计算资源并提高训练效率我们将 OOD 提示的数量固定为 100。因此当 OOD 提示不足以与 ID 类别建立一一对应关系时我们会最大限度地提高OOD 提示与异常值之间的整体相似性更加关注整体相似性而不是每一个类别的局部相似性。为此我们提出了以下损失 Lout 与一般损失函数不同点将异常值和整体OOD提示建立损失而不是一个异常值对应一个OOD提示 个人观点由于异常值数量不多难以做到让模型详细判断异常值所属的类别 。因此捆绑整体的异常值最终让模型做到能够识别出异常值即可不需要确定异常值所属的类别。 因此降低模型训练的资源以及数据量要求 提高整体相似性 整体loss拟合会考虑到其他所有OOD异常点的影响 正常的loss拟合仅仅考虑目前这个异常点对模型的影响 因此整体loss拟合每次的调整相对较小模型更容易收敛、平稳训练更容易。 此外我们还观察到在训练期间以下列形式实施 Lout 更有利于优化提示 虽然它们的优化目标相似但前者倾向于最大化 OOD 提示和异常值之间的相似性而后者倾向于最小化 ID 提示和异常值之间的相似性因此在训练过程中略有不同。 多样性正则化由于所有 OOD 提示都是随机初始化的并在公式 4 所示的相同目标下进行优化因此 OOD 提示之间存在过度相似的风险。相似的 OOD 提示可能会导致可检测的 OOD 类别数量减少。为了缓解这一问题并确保 OOD 提示语的多样性我们引入了额外的损失 Ldiv明确地最大化提示语之间的不相似性 houtOOD提示语构成的集合 确保OOD提示语多样性引入格外损失Ldiv通过最大化Ldiv来确保提示语之间的不同性 具有平衡超参数 λout 和 λdiv 的总体损失函数为 推理在执行分类任务时我们采用与 CLIP 相同的分类方法完全依靠 ID 提示进行分类。对于 OOD 检测我们将评分函数定义为 Ldiv要最大化Lout在调整后也是要最大化而Lin要求最小化。 因此在Lout和Ldiv前面添加调整的超参数这个参数应该为负值。 保证整体L要求是最小化。 4. 总结
如果想要学习更多深度学习论文大家可以点个关注并订阅持续学习、天天进步
你的点赞就是我更新的动力如果觉得对你有帮助辛苦友友点个赞收个藏呀~~~