大良商城网站建设,北京环球影城无限次快速通道,全网线报 实时更新,html5开发手机网站教程文章目录 Grounded Language-Image Pre-training摘要1.介绍2.相关工作3.方法3.1统一构建3.2.语言感知深度融合3.3.使用可扩展的语义丰富数据进行预训练 4.迁移到既定的基准4.1.COCO上的zero-shot和监督迁移学习4.2.LVIS上的zero-shot 迁移学习4.3.Flickr30K实体上的 phrase gro… 文章目录 Grounded Language-Image Pre-training摘要1.介绍2.相关工作3.方法3.1统一构建3.2.语言感知深度融合3.3.使用可扩展的语义丰富数据进行预训练 4.迁移到既定的基准4.1.COCO上的zero-shot和监督迁移学习4.2.LVIS上的zero-shot 迁移学习4.3.Flickr30K实体上的 phrase grounding4.4 分析 5 开放目标检测5.1数据的有效性5.2.一个模型适应所有任务 6 结论 Grounded Language-Image Pre-training
摘要
本文提出了一个基于的语言-图像预训练GLIP模型学习对象级语言感知语义丰富的视觉表示。GLIP将目标检测和phrase grounding统一起来进行预训练。统一带来两个好处1它允许GLIP从检测和grounding data两者学习以改进这两个任务并引导良好的grounding模型; 2GLIP可以利用大量的图像-文本对通过自训练的方式生成grounding边界框使得学习到的表示语义更加丰富。在我们的实验中我们在27百万 grounding数据上预训练GLIP其中包括3 百万人类注释和24 百万网络抓取的图像-文本对。学习的表示表现出强大的zero-shot和few-shot性能可转移到各种对象级识别任务。1)当在COCO和LVIS上直接评估时在预训练期间没有在COCO中看到任何图像GLIP分别达到49.8 AP和26.9 AP超过了许多监督基线。 2在COCO上进行微调后GLIP在val上达到60.8 AP在test-dev上达到61.5 AP超过了之前的SoTA。3)当转移到13个下游对象检测任务时1-shot的GLIP可与全监督动态头相媲美。代码发布于https://github.com/microsoft/GLIP。
1.介绍
视觉识别模型通常被训练来预测一组固定的预定对象类别这限制了它们在现实世界应用中的可用性因为需要额外的标记数据来推广到新的视觉概念和领域。CLIP [45]表明可以在大量原始图像-文本对上有效地学习图像级视觉表示。由于配对文本包含比任何预定义概念池更广泛的视觉概念集因此预训练的CLIP模型在语义上非常丰富可以在 zero-shot 下轻松地迁移到下游的图像分类和文本图像检索任务中。然而为了获得图像的细粒度理解如许多任务所需例如目标检测[3649]分割[740]人体姿势估计[5463]场景理解[163064]动作识别[20]视觉语言理解[832 - 354153557073]非常需要对象级视觉表示。
在本文中我们表明phrase grounding这是一个任务确定短语中的句子和对象或区域之间的细粒度的对应关系在图像中是一个有效的和可扩展的预训练任务学习对象级语言感知语义丰富的视觉表示并提出grounding语言图像预训练GLIP。我们的方法统一phrase grounding和目标检测任务目标检测可以被视为phrase grounding上下文无关的而phrase grounding可以被视为一个上下文相关的目标检测任务。我们强调我们的主要贡献如下
通过将目标检测重新表述为phrase grounding来统一检测和grounding。 改变了检测模型的输入不仅输入图像还输入 text prompt(包含检测任务的所有候选类别)。例如COCO目标检测任务的 text prompt 是由80个COCO对象类别名组成的文本字符串如图2(左)所示。通过将 object classification logits 替换为 word-region alignment 分数(例如视觉region和文本token的点积)任何 object detection 模型都可以转换为 grounding 模型如图2(右)所示。与仅在最后点积操作融合视觉和语言的CLIP不同GLIP利用跨模态融合操作具有了深度的跨模态融合的能力。如图2中所示对于学习高质量的语言感知视觉表示和实现上级的迁移学习性能至关重要。检测和grounding的统一还允许我们使用两种类型的数据进行预训练并使两项任务都受益。在检测方面由于groundong数据视觉概念池得到了显着丰富。在groundong方面检测数据引入了更多的边界框注释并帮助训练新的SoTA短语基础模型。
利用海量图像-文本数据扩展视觉概念。 给定 grounding 模型(teacher)可以自动生成大量图像-文本对数据的 grounding boxes 来扩充GLIP预训练数据其中 noun phrases 由NLP解析器检测图3为两个 boxes 的示例teacher模型可以定位到困难的概念如注射器、疫苗、美丽的加勒比海绿松石甚至抽象的单词(视图)。在这种语义丰富的数据上训练可以生成语义丰富的student模型。相比之下关于缩放检测数据的先前工作简单地不能预测教师模型的预定义词汇表之外的概念[77]。在这项研究中我们表明这种扩大grounding数据的简单策略在经验上是有效的带来了巨大的改进LVIS和13下游检测任务特别是在罕见类别第4.2节和第5节。当预训练的GLIPL模型在COCO上进行微调时它在COCO 2017val上达到了60.8 AP在测试开发上达到了61.5超过了当前的公共SoTA模型[1065]这些模型以各种方法扩大了对象检测数据。
GLIP迁移学习: one model for all GLIP 可以有效的迁移到各种任务中而只需要很少甚至不需要额外的人工标注。此外当特定于任务的标注数据可用时也不必微调整个模型只需微调特定于任务的 prompt embedding同时冻结模型参数。 图2.检测和grounding的统一框架。与预测每个检测到的对象的分类类的经典对象检测模型不同我们通过将每个区域/框与文本提示中的短语对齐来将检测重新表述为grounding任务。GLIP联合训练图像编码器和语言编码器以预测区域和单词的正确配对。我们进一步添加跨模态深度融合以早期融合来自两种模态的信息并学习语言感知的视觉表示。 图3.GLIP的预测。GLIP可以定位罕见的实体、带有属性的短语甚至是抽象的单词
2.相关工作
标准的目标检测系统被训练来定位在人群标记数据集中预定义的一组固定的对象类例如COCO [37]OpenImagesOI[30]Objects365 [50]和Visual GenomeVG[28]其中包含不超过2000个对象类。这种人工注释的数据扩大规模的成本很高[59]。GLIP提出了一个负担得起的解决方案通过重新制定一个phrase grounding字到区域匹配的问题目标检测从而使grounding和大量的图像文本配对数据的使用。虽然我们当前的实现是建立在动态头DyHead[10]上但我们的统一公式可以推广到任何对象检测系统[469101036484976]。
最近有一种趋势开发视觉和语言的方法来解决视觉识别问题其中视觉模型的训练自由形式的语言监督。例如CLIP [45]和ALIGN [21]对数十万或数千万的图像-文本对执行跨模态对比学习并且可以直接执行open vocabulary图像分类。通过将来自CLIP/ALIGN模型的知识提取到两阶段检测器中提出ViLD [14]来zero-shot目标检测。或者MDETR [23]在现有的多模态数据集上训练端到端模型这些数据集在文本中的短语和图像中的对象之间具有显式对齐。我们的GLIP继承了这一系列研究的语义丰富和语言感知属性实现了SoTA对象检测性能并显着提高了下游检测任务的可转移性。
本文重点研究了用于目标检测的域转移学习。我们的目标是构建一个预先训练好的模型以零次或少量的方式无缝地转移到各种任务和领域。我们的设置不同于zero-shot检测[11214464768]其中一些类别被定义为不可见/罕见并且不存在于训练集中。我们期望GLIP在稀有类别上表现良好第4.2节但我们没有明确地从训练集中排除任何类别因为基础数据在语义上非常丰富我们期望它们覆盖许多稀有类别。这类似于开放词汇表对象检测[68]中的设置该设置期望原始图像-文本数据覆盖许多罕见的类别。一系列的工作确定建立一个开放世界的对象建议框模块可以提出任何新的对象在测试时的关键挑战[2225607475]; GLIP提供了一个新的视角该模型不需要从开集中提出每一个可能的新对象;相反它只需要提出文本提示中提到的对象因为检测分支以该提示为条件。
除了稀有类别的性能之外我们还考虑了现实场景中的迁移成本即如何以最少的数据量、培训预算和部署成本实现最佳性能第5节。特别是我们表明GLIP支持提示调整[31]这与完全微调的性能相匹配但只调整了一小部分模型参数。我们还提出了一个新的发现在目标检测中提示调整是最有效的模型与深度视觉语言融合如GLIP而浅融合模型的效果要差得多。这与最近的研究工作形成了鲜明的对比这些研究只针对像CLIP这样的浅融合视觉语言模型进行提示调整。
3.方法
从概念上讲目标检测和phrase grounding有很大的相似性。它们都试图定位对象并将其与语义概念对齐。这种协同作用促使我们将经典的目标检测任务转换为grounding问题并提出一个统一的公式第3.1节。我们进一步提出在图像和文本之间添加深度融合使检测模型具有语言感知能力从而成为一个强大的grounding模型第3.2节。通过重构和深度融合我们可以在可扩展和语义丰富的grounding数据上预训练GLIP第3.3节。
3.1统一构建
背景物体检测。典型的检测模型将输入图像送到视觉编码器EncI中CNN [1856]或Transformer [396769]作为主干并提取区域/框特征O如图2所示底部。每个区域/框特征被送到两个预测头即分别用分类损失Lcls和定位损失Lloc训练的边界框分类器C和边界框回归器R 在两阶段检测器中使用具有RPN损失Lrpn的单独区域提议网络RPN来区分前景和背景并细化锚。由于Lrpn不使用对象类的语义信息我们将其合并到本地化损失Lloc中。在单级检测器中定位损耗Lloc也可能包含中心度损耗[57]。边界框分类器C通常是简单的线性层并且分类损失Lcls可以写为 其中O ∈ RN×d是输入图像的对象/区域/框特征W ∈ Rc×d是框分类器C的权重矩阵Scls ∈ RN×c是输出分类logitsT ∈ {01}N×c是从经典多对1匹配[9364849]或二分匈牙利匹配[41076]计算的区域和类之间的目标匹配。损失S; T通常是两级探测器的交叉熵损失和一级探测器的焦点损失[36]。
**目标检测 作为 phrase grounding.**我们没有将每个区域/框分类为c类而是将检测重新定义为grounding任务通过将每个区域与文本提示中的短语进行grounding/对齐参见图2。如何为检测任务设计文本提示给定对象类[人、自行车、汽车、…牙刷]一种简单的方法是Prompt “Detect人、自行车、汽车……、牙刷”其中每个类名是要grounding的候选短语。人们可以通过提供这些类的更具表达性的描述和/或通过利用预先训练的语言模型的偏好来设计更好的提示。例如当预训练的BERT模型[11]用于初始化我们的语言编码器EncL时提示“person.自行车。车。…牙刷”比上面描述的更人性化的提示效果更好。我们将在5.2节讨论提示设计。 在grounding模型中我们计算图像区域和提示中的单词之间的对齐分数 其中P ∈ RM×d是来自语言编码器的上下文单词/令牌特征并且起到与2中的权重矩阵W类似的作用如图2右所示。由图像编码器EncI和语言编码器EncL组成的基础模型通过最小化1和2中定义的损失来端到端地训练其中用3中的区域词对齐分数Srund简单地替换2中的分类logits Scls。
然而在2中我们现在有Logits S地面∈ RN×M和目标T ∈ {01}N×c。子单词标记M的数量总是大于文本提示中的短语c的数量原因有四个1一些短语包含多个单词例如“红绿灯”; 2一些单字短语被拆分成多个子字标记例如“牙刷”到“牙齿#”和“#刷”; 3一些是添加的令牌例如“Detect”“”语言模型中的特殊令牌以及4在令牌化序列的末尾添加[NoObj]令牌。当损失是焦点二进制S形损失我们在第4节和第5节中使用的损失时我们通过使所有子词正匹配如果短语是正匹配将原始目标矩阵T ∈ {01}N×c扩展到T ∈ {01}N×M并且所有添加的标记都与所有图像特征负匹配。有了这个变化损失接地; T保持不变。在推理过程中我们平均令牌概率作为短语概率。
检测与grounding等效通过上述重构我们可以将任何检测模型转换为grounding模型并且两个视图即检测和grounding在理论上对于训练和推理都是等效的。我们也从经验上验证了这一点具有Swin-Tiny骨架的SoTA DyHead检测器[10]在我们的重新配制之前和之后在COCO val 2017上提供相同的性能。讨论内容请参见附录。通过重构预训练的短语grounding模型可以直接应用于任何对象检测任务这要归功于语言编码器的自由形式输入。这使得有可能将我们的GLIP模型以zero-shot方式转移到任意检测任务。
相关工作我们的grounding公式受到MDETR [23]的启发并且我们的grounding损耗与MDETR的细粒度对比损耗具有相同的精神。我们比MDETR更进一步找到一种有效的方法来重新制定检测grounding和一个简单的统一的检测和grounding任务的损失。我们的grounding模型也类似于zero-shot检测的模型[114464775]。Bansal等人的开创性工作[1]通过使用预训练的Glove词嵌入[43]作为短语特征P ∈ Rc×d使检测模型能够进行zero-shot检测如果以3的形式编写。最近从预训练的深度语言模型中提取的短语特征被引入到开放词汇检测中[68]。GLIP与zero-shot检测的不同之处在于GLIP提供了检测和grounding的统一视图并且实现了两个关键成分即语言感知深度融合和与图像-文本数据的放大如下面将要描述的。
3.2.语言感知深度融合
在3中图像和文本由单独的编码器编码并且仅在最后融合以计算对准分数。我们称这种模型为后融合模型。在视觉语言文献[82332333541535573]中视觉和语言特征的深度融合对于学习phrase grounding模型是必要的。我们在图像和语言编码器之间引入深度融合它在最后几个编码层中融合图像和文本信息如图2中所示。具体地说当我们使用DyHead [10]作为图像编码器BERT [11]作为文本编码器时深度融合编码器是 其中L是DyHead [10]中DyHeadModules的数量BERTLayer是预训练BERT之上新添加的BERT层O 0表示来自视觉主干的视觉特征P0表示来自语言主干BERT的令牌特征。通过跨模态多头注意模块X-MHA4实现跨模态通信随后是单模态融合并在5和6中更新。在没有添加上下文向量用于视觉模态的Oi t2 i和用于语言模态的Pi t2 t的情况下模型被简化为后期融合模型。
在跨模态多头注意模块XMHA4中每个头部通过关注另一模态来计算一个模态的上下文向量 其中{W符号IW符号Lsymbol ∈ {qvout}}是可训练参数分别与Multi-Head SelfAttention [58]中的查询、值和输出线性层的作用类似。
深度融合编码器4-6带来两个益处。1)它改善了phrase grounding性能。2)它使学习的视觉特征具有语言感知性因此模型的预测以文本提示为条件。这对于实现一个模型服务于所有下游检测任务的目标至关重要见5.2节。
3.3.使用可扩展的语义丰富数据进行预训练
大量的研究致力于收集语义丰富、数量庞大的检测数据。然而人类注释已被证明是昂贵且有限的[1530]。先前的工作试图以自我训练的方式扩大规模[77]。他们使用教师预先训练的检测器从原始图像中预测边界框并生成伪检测标签来训练学生模型。但是生成的数据在概念池的大小方面仍然是有限的因为教师只能预测在现有数据集上构建的概念池中定义的标签。相比之下我们的模型可以在检测和更重要的phrase grounding数据上进行训练。我们表明phrase grounding数据可以提供丰富的语义以促进本地化并可以在一个自我训练的方式扩大。
首先grounding数据覆盖了比现有检测数据大得多的视觉概念词汇表。最大的尝试在扩大检测词汇仍然覆盖不超过2,000个类别[1528]。有了grounding数据我们扩展了词汇表几乎涵盖了grounding标题中出现的任何概念。例如Flickr 30 K [44]包含44518个唯一短语而VG Caption [28]包含110689个唯一短语数量级大于检测数据的词汇表。我们在第4.4节中提供了一项实证研究表明0.8Mgrounding数据比额外的2 M检测数据在检测稀有类别方面带来了更大的改进。
此外我们展示了一种获得语义丰富数据的有希望的途径而不是按比例增加检测数据放大grounding数据。我们使用一种简单的方法灵感来自自我训练。我们首先用人类注释检测和接地数据预训练教师GLIP。然后我们使用这个教师模型来预测网络收集的图像-文本数据的框其中名词短语由NLP解析器检测[2]。最后用黄金数据和生成的伪grounding数据训练学生模型。如图3所示教师能够为语义丰富的实体生成准确的框。
为什么学生模型可能优于教师模型虽然在自我训练文献[77]中的讨论仍然很活跃但在视觉基础的背景下我们认为教师模型正在利用语言背景和语言概括能力来准确地理解它可能不知道的概念。例如在图3中教师可能无法直接识别某些概念如疫苗和绿松石如果它们不存在于黄金数据中。然而丰富的语言背景如句法结构可以提供强有力的指导教师模型执行“有根据的猜测”。如果模型能定位一个小的细胞则该模型能定位疫苗;如果它能找到加勒比海它就能定位绿松石。当我们训练学生模型时教师模型的“有根据的猜测”变成了“监督信号”使学生模型能够学习疫苗和绿松石的概念。
4.迁移到既定的基准
经过预训练后GLIP可以轻松地应用于grounding和检测任务。我们在三个已建立的基准测试中显示出强大的直接域转移性能1MS-COCO对象检测COCO[37]包含80个常见对象类别; 2LVIS [15]覆盖超过1000个对象类别; 3Flickr 30 K [44]用于短语grounding。我们训练GLIP的5个变体表1来消融其三个核心技术1统一grounding损耗; 2语言感知的深度融合; 3以及使用两种类型的数据进行预训练。实施细节见附录。 GLIP-T (A) 基于SoTA检测模型Dynamic Head [10]我们的词区域对齐损失代替了分类损失。它基于Swin-Tiny主干并在O365Objects 365 [50]上进行了预训练O365包含0.66M图像和365个类别。如3.1节所述该模型可以被视为一个强大的经典zero-shot 检测模型[1]完全依赖于语言编码器来推广新概念。
GLIP-T (B) 通过语言感知深度融合进行增强但仅在O365上进行预训练。
GLIP-T © 在1O365和2GoldG上进行了预训练0.8M人类注释的黄金grounding数据由MDETR [23]策划包括Flickr30KVG Caption [28]和GQA [19]。我们已经从数据集中删除了COCO图像。旨在验证grounding数据的有效性。
GLIP-T 基于Swin-Tiny主干并根据以下数据进行预训练103652如GLIP-TC中的GoldG以及3Cap 4 M从具有由GLIP-TC生成的框的网络收集的4 M图像-文本对。我们还对现有的图像标题数据集进行了实验CC3 M数据的概念字幕[51]和SBU1 M数据[42]。我们发现CCSBU GLIP-T在COCO上的表现略好于Cap 4 M GLIP-T但在其他数据集上略差。为了简单起见我们在COCO上报告了两个版本但在其他任务中只报告了Cap 4 M模型。我们在附录中给出了完整的结果。
GLIP-L 基于Swin-Large并经过以下训练1四个OD266 M数据4个检测数据集包括Objects 365OpenImages [27]Visual Genome不包括COCO图像[28]和ImageNetBoxes [29]; 2GLIP-TC中的GoldG; 3CC 12 M SBU从网络上采集24 M图文数据生成框。 表2.COCO上的zero-shot转移和微调。GLIP在没有看到来自COCO数据集的任何图像的情况下可以实现与先前的监督模型例如Zero-Shot下的GLIP-T与在微调下faster -RCNN。当在COCO上进行充分微调时GLIP-L的性能超过了SoTA。
4.1.COCO上的zero-shot和监督迁移学习
我们在MS-COCO上进行实验以评估模型对常见类别的迁移能力。我们在两种设置下进行评估1zero-shot转移和2监督转移其中我们使用标准设置微调预训练模型。对于微调设置我们还测试了GLIP-L模型的性能其中我们将COCO图像包含在预训练数据中最后一行。具体来说我们将完整的GoldG接地数据和COCO train 2017添加到预训练数据中。请注意部分COCO 2017 val图像存在于GoldG [23]中。因此我们只报告该模型的测试开发性能。更多详情请参见附录。
我们引入一个额外的基线DyHead在Objects365上预训练。我们发现COCO 80类别在Objects365中完全覆盖。因此我们可以以“zero-shot”的方式评估在Objects365上训练的DyHead在推理过程中我们将模型限制为仅从COCO 80类进行预测而不是从365类进行预测。我们列出标准COCO检测模型供参考。我们还列出了两个用额外数据预训练的最先进的模型。
结果是出现在表2。总的来说,GLIP模型实现zero-shot和监督表现强劲。Zero-shot GLIP模型对手或超越的监督模式。最好的GLIP-T达到46.7,超过了faster-RCNN;GLIP-L达到49.8,超过了DyHead-T。在监督环境下,最好GLIP-T带来改进的标准DyHead (55.2 vs 49.7)。Swin-Large骨干,GLIP-L超过当前SoTA可可,达到60.8 test-dev 2017 val和61.5,之前没有一些SoTA[65]等模型,混合,标签平滑或soft-NMS。
我们分析了GLIP的zero-shot性能并发现三个影响因素Objects 365和COCO之间的紧密领域重叠深度融合和基础数据。由于Objects 365覆盖了COCO中的所有类别O365预训练的DyHead-T表现强劲达到43.6AP;将模型重新表示为grounding模型我们观察到轻微的性能下降GLIP-TA;增加深度融合使性能提高2APGLIP-TB;最大的贡献者是grounding数据利用该数据GLIP-TC达到46.7的zero-sho。虽然图像-文本数据的添加对COCO带来了轻微的改进或没有改进GLIP-T v.GLIP-TC我们发现它在推广到罕见的类因为我们在LVIS实验中显示。
4.2.LVIS上的zero-shot 迁移学习
我们评估该模型的能力以识别不同的和罕见的对象LVIS在零次设置。我们报告了MDETR中引入的包含5000张图像的MiniVal以及MDETR中引入的包含5000张图像的完整值MiniVal以及完整验证集v1.0。请参见附录中的评估详细信息。 结果示于表3中。我们列出了在LVIS的注释数据上训练的三个监督模型。GLIP在所有类别上都表现出强大的零次性能。GLIP-T与监督MDETR相当而GLIPL的性能远远优于监督RFS。使用grounding数据的好处是显而易见的。Gold接地数据比MiniVal APr提高了4.2个点型号C与型号模型B。添加图像-文本数据进一步将性能提高了3.1个点。我们的结论是grounding数据的语义丰富性显着帮助模型识别罕见的对象。 表3.zero-shot转移到LVIS。当不使用LVIS数据时GLIP-T/L优于强监督基线以灰色显示。grounding数据带来了很大的改善。 表4.Flickr 30 K实体上的短语grounding性能。GLIP-L在测试R1上比之前的SoTA高出2.8分。
4.3.Flickr30K实体上的 phrase grounding
我们评估了模型在Flickr30K实体上以自然语言接地实体的能力[44]。Flickr30K包含在grounding数据中因此我们在预训练后直接评估模型如MDETR [23]所示。我们使用MDETR中指定的任意盒协议。结果示于表4中。我们评估了三个版本的GLIP与不同的预训练数据。我们列出了SoTA接地模型MDETR的性能。MDETR在GoldG上训练包含1.3M数据GoldG是GoldG的子集不包括COCO图像。
采用GoldG的GLIP-T第3行实现了与采用GoldG的MDETR相似的性能这可能是由于引入了Swin Transformer、DyHead模块和深度融合。更有趣的是检测数据的添加有助于接地第4行对第5行。3再次显示了两项任务的协同作用和我们统一损失的有效性。图像-文本数据也有帮助第5行与4.最后按比例放大GLIP-L可以实现87.1 Recall1比之前的SoTA高出2.8个点。
4.4 分析
在本节中我们通过在不同数据源上预训练GLIP-T来进行消融研究表5。我们回答了两个研究问题。首先我们的方法假设使用检测数据集来引导模型。一个自然的问题是当与不同的检测数据配对时 grounding数据是否会带来改进。我们发现添加接地数据带来了与不同检测数据一致的改善行1-6。
其次我们已经证明了常见和罕见类别的grounding数据的有效性。一个正交方向是通过包括更多图像和类别来放大检测数据第3.3节。我们打算提供一个经验的比较按比例放大检测数据和grounding数据。我们提出了用4个公共检测数据集第8行训练的GLIP作为用人类注释扩展检测数据的极端尝试。该模型总共使用266万个检测数据进行训练对齐的词汇表超过1,500个类别。然而它仍然落后于LVIS的COCO和APr上的第6行其中第6行仅使用0.66M检测数据和0.8M黄金grounding数据进行训练。添加图像-文本数据进一步扩大了LVIS APr差距20.8与15.0。我们得出结论grounding数据确实更语义丰富是一个有前途的替代扩大检测数据。
5 开放目标检测
为了评估GLIP在不同现实任务中的可转移性我们策划了一个“野外目标检测”ODinW设置。我们在Roboflow 5上选择了13个公共数据集每个数据集都需要不同的本地化技能。许多数据集都是针对特定的应用目的设计的以模拟真实世界的部署场景。例如EgoHands需要定位人的手;坑洞涉及检测道路上的洞; ThermalDogsandPeople涉及在红外图像中识别狗和人。详情请参阅附录。
我们证明GLIP促进转移到这样不同的任务。(1)GLIP带来了很高的数据效率达到了相同的性能与基线相比特定于任务的数据明显减少第5.1节。(2)GLIP支持新的域转移策略在适应新任务时我们可以简单地改变文本提示而保持整个基础模型不变。这大大降低了部署成本因为它允许一个集中式模型服务于各种下游任务第5.2节。
5.1数据的有效性
我们改变了特定于任务的注释数据的数量从零次没有提供数据到X次每个类别至少提供X个示例[246266]再到使用训练集中的所有数据。我们根据提供的数据对模型进行微调并对所有模型使用相同的超参数。每个数据集都带有预先指定的类别名称。由于GLIP是语言感知的我们发现用更具描述性的语言重写一些预先指定的名称是有益的参见5.2节的讨论。我们与在Objects 365上预训练的SoTA检测器DyHead-T进行比较。我们使用标准的COCO训练的DyHead-T进行测试发现它具有类似的性能。为了简单起见我们只报告前者。我们还试验了缩放余弦相似性方法[61]但发现它的性能略低于香草方法因此我们仅报告后者。完整的统计数据请参见附录包括X射线实验的三次独立运行。
结果示于图4中。我们发现统一的接地重新表述深度融合接地数据和模型放大都有助于提高数据效率从底部红线Dyhead-T到上部紫线GLIP-L。因此GLIP表现出变革性的数据效率。零次GLIP-T优于5次DyHead-T而一次GLIP-L与完全监督的DyHead-T竞争。
我们在图5中进一步绘制了GLIP变体在5个不同数据集上的零次性能。我们发现grounding数据的引入在测试新概念的某些任务上带来了显着的改进例如在Pothole和EgoHands上没有grounding数据的模型A和B表现得很糟糕而有grounding数据的模型C则轻松超越了它们。
5.2.一个模型适应所有任务
随着神经网络模型的规模越来越大如何降低部署成本成为研究热点。最近关于语言模型[52]图像分类[72]和对象检测[61]的工作已经探索了将预训练模型适应新的领域但只改变最少的参数。这样的设置通常被表示为线性探测[26]、即时调整[72]或高效任务适配器[13]。我们的目标是让单个模型服务于各种任务每个任务只向预训练模型添加一些特定于任务的参数或不添加参数。这降低了培训和存储成本。在本节中我们将根据部署效率的度量来评估模型
手动提示的微调由于GLIP执行语言软件本地化即GLIP的输出很大程度上取决于语言输入我们提出了GLIP进行任务转移的有效方法对于任何新的类别用户可以在文本提示中使用富有表现力的描述添加属性或语言上下文以注入领域知识并帮助GLIP转移。例如在图6的左手侧模型未能定位新颖实体“黄貂鱼”的所有出现。但是通过将属性添加到提示符即“扁平和圆形”该模型成功地定位了所有出现的弦线。通过这个简单的提示更改我们将黄貂鱼的AP 50从4.6提高到9.7。这类似于GPT-3 [3]中的提示设计技术并且实际上很有吸引力因为它不需要注释数据或模型重新训练。详情请参阅附录。 图6.ODinW中Aquarium数据集的手动提示调优示例。给定一个有表情的提示“扁平和圆形”零镜头GLIP可以更好地检测到新的实体“黄貂鱼”。 提示微调我们进一步考虑这样的设置即我们可以访问特定于任务的训练数据但希望调整最少的参数以便于部署。对于经典检测模型Wang et al.[61]报告“线性探测”的有效性即仅训练箱回归和分类头。GLIP也可以是“线性探测”我们只微调盒头和区域之间的投影层和提示嵌入。由于语言感知的深度融合GLIP支持更强大但仍然有效的传输策略提示调谐[3152]。对于GLIP由于每个检测任务仅具有一个语言提示例如坑洞提示可以是“检测坑洞”。对于所有图像我们首先从语言主干中获得提示嵌入P0然后丢弃语言主干并仅微调P0作为特定于任务的输入第3.2节。
我们在三种设置下评估模型的性能图7线性探测、即时调整仅适用于GLIP和全模型调整。对于DyHeadT提示调优不适用因为传统的对象检测模型不能接受语言输入;线性探测和全模型调谐之间差距很大。GLIP-TA没有语言感知的深度融合;因此快速调谐和线性调谐实现了类似的性能并且明显滞后于全模型调谐。然而对于GLIP-T和GLIP-L即时调谐几乎匹配全调谐结果而不改变任何接地模型参数。有趣的是随着模型和数据大小的增长全模型调优和即时调优之间差距变得越来越小GLIP-L与GLIP-T与NLP文献中的结果相呼应[38]。
6 结论
GLIP统一了对象检测和短语基础任务以学习对象级别语言感知和语义丰富的视觉表示。经过预训练后GLIP在完善的基准测试和13个下游任务的零射击和微调设置上显示出令人鼓舞的结果。我们留下一个详细的研究如何GLIP规模与文本图像数据的大小以未来的工作。
致谢