博物馆门户网站建设方案,天猫优惠卷怎么做网站,WordPress主题预览封面,郑州建筑公司网站建设WHAT DO VISION TRANSFORMERS LEARN? A VISUAL EXPLORATION
文章地址 代码地址
摘要
视觉转换器( Vision Transformers#xff0c;ViTs )正在迅速成为计算机视觉的事实上的架构#xff0c;但我们对它们为什么工作和学习什么知之甚少。虽然现有研究对卷积神经网络的机制进…WHAT DO VISION TRANSFORMERS LEARN? A VISUAL EXPLORATION
文章地址 代码地址
摘要
视觉转换器( Vision TransformersViTs )正在迅速成为计算机视觉的事实上的架构但我们对它们为什么工作和学习什么知之甚少。虽然现有研究对卷积神经网络的机制进行了可视化分析但对ViT的类似探索仍然具有挑战性。在本文中我们首先解决在ViT上执行可视化的障碍。在这些解决方案的辅助下我们观察到用语言模型监督(例如, CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异我们发现Transformer和它们的卷积对应物一样检测图像背景特征但它们的预测对高频信息的依赖要小得多。另一方面两种建筑类型在特征从早期的抽象模式到后期的具体对象的过程中表现出相似的特征。此外我们表明ViT在除最后一层之外的所有层中都保持空间信息。与以前的工作不同我们表明最后一层最有可能丢弃空间信息表现为一个学习的全局池化操作。最后我们对包括DeiT、CoaT、ConViT、PiT、Swin和Twin在内的多种ViT变体进行大规模可视化以验证我们方法的有效性。
介绍
实验发现
1通过剖析和可视化Transformer架构中的内部表示我们发现patch tokens在除最后一个注意力块之外的所有层中都保留了空间信息。ViTs的最后一层学习类似于平均池化的token-mixing操作使得分类头在摄取随机token而不是CLS token时表现出相当的准确率。
2在探讨了空间信息的作用后我们深入探究了视觉通道和卷积神经网络的行为差异。在执行激活最大化可视化时我们注意到ViTs比CNNs持续生成更高质量的图像背景。因此我们尝试在推理过程中掩盖图像前景发现当仅暴露于图像背景时ViTs始终优于CNNs。这些发现支持Transformer模型从图像中提取多个源的信息在分布外泛化和对抗鲁棒性上表现出优越的性能的观察。此外卷积神经网络对图像中的高频纹理信息依赖较大。相比之下我们发现ViTs即使在从输入中移除高频内容时也表现良好。
3虽然只有视觉的模型包含与不同物理对象和形状相对应的简单特征但我们发现CLIP中的语言监督会导致响应复杂抽象概念的神经元。这包括响应与词性(如修饰语、形容词和介词)相关的视觉特征的神经元响应广泛视觉场景的音乐神经元甚至响应抽象的发病率概念的死亡神经元。
贡献
1我们观察到当将标准的特征可视化方法应用于基于Transformer的模型的相对低维组件如keysqueries或者values时会出现不可解释和对抗的行为。然而将这些工具应用于position-wise feedforward层的相对高维特征结果是成功的和信息丰富的可视化。我们对包括ViTs、DeiT、CoaT、ConViT、PiT、Swin和Twin在内的多种基于变压器的视觉模型进行大规模可视化以验证我们方法的有效性。
2我们表明针对ViT特征的patch-wise激活模式本质上类似于显著图突出了给定特征所关注的图像区域。这种行为即使在相对较深的层中也持续存在表明模型保留了块之间的位置关系而不是将它们用作全局信息存储。
3我们比较了ViTs和CNNs的行为发现ViTs更好地利用了背景信息对高频、纹理属性的依赖较小。这两种类型的网络在更深的层次上逐步建立更复杂的表示并最终包含负责检测不同对象的特征。
4我们研究了CLIP的自然语言监督对ViTs提取特征类型的影响。我们发现CLIP训练的模型包含了各种特征这些特征明显适合于检测与字幕文本对应的图像成分如介词、形容词和概念范畴。
实验
实验思路
技术路线基于在像素空间基于梯度做优化主要目的是观察输入和 feature map 的关系。 优化问题是 其中ak表示对x进行增强操作k表示第几次增强TV表示正则项让像素空间更锐化 主体思路从k次增强的图像中找到Lmain损失最大的Lmain损失其实就是将这个通道的特征图的所有位置相加里面的特征向量f是一个通道d上的所有元素的堆叠其中l表示是第几层p表示patch。
可视化结果
Querykey和value的可视化结果不好但是全连接层有更好的可视化结果因为它向量大小为4倍d表示更高维度。 解释我们发现可视化的前馈特征明显比其他层更具有可解释性。我们将其他层可视化的困难归因于ViTs将大量信息打包成仅有768个特征的特性。
ViT空间信息的保留layer 5有明显的空间信息黑色部分last layer就很平均了。如下图 ViT的某些通道是由背景激活的也有空间信息。图(a)的左边是识别草和雪右边的激活图是由背景块产生的如下图 说明对于每个图像三元组顶部的可视化显示了我们方法的结果优化结果左下角的图像是验证/训练集中最活跃的图像跟我们方法的结果最接近的图像右下角的图像显示了激活模式激活结果白色的激活效果更强。可视化结果表明ViTs与CNNs的相似之处在于当我们从浅层特征到深层特征的过程中ViTs表现出从纹理到零件到物体的特征递进。L5这些表示的是层数。
结论
为了剖析视觉转换器的内部工作原理我们引入了一个基于优化的特征可视化框架。然后我们确定了ViT的哪些组件最适合产生可解释的图像发现前馈层的高维内部投影是合适的而自注意力的键、查询和值特征则不适合。
将该框架应用于上述特征我们观察到ViTs在除最后一层外的所有层中都保留了patch的空间信息表明网络从头开始学习空间关系。我们进一步表明最后一个注意力层中定位信息的突然消失是由类似于平均池化的学习到的token混合行为造成的。
通过比较CNNs和ViTs时我们发现ViTs更好地利用了背景信息并且在仅暴露于图像背景时ViTs能够做出远优于CNNs的预测尽管ViTs对高频信息的丢失并不像CNNs那样敏感。我们还得出结论这两种架构有一个共同的属性即较早的层学习纹理属性而较深的层学习高级对象特征或抽象概念。最后我们表明经过语言模型监督训练的ViTs学习到更多的语义和概念特征而不是像典型的分类器那样学习对象特定的视觉特征。
感悟
学到了很多之前不知道的至少不是很玄学了主要是
ViT对高频信息不是很敏感ViT可以利用背景信息ViT跟CNN相同低层特征还是纹理高层特征就是体现对象特征了ViT的低维特征不好解释ViT中除了Transformer的最后一层外其他都保留了位置信息。