当前位置：首页 > news >正文

网站会员功能新万网站建设

news 2026/4/18 2:22:59

网站会员功能,新万网站建设,湖州网络推广竞价,传奇三端互通新开服网站我自己的原文哦~ https://blog.51cto.com/whaosoft/12663170 #InternVL 本文设计了一个大规模的视觉-语言基础模型#xff08;InternVL#xff09;#xff0c;将视觉基础模型的参数扩展到60亿#xff0c;并逐步与LLM对齐#xff0c;利用来自不同来源的网络规模的图像-文…我自己的原文哦~ https://blog.51cto.com/whaosoft/12663170 #InternVL 本文设计了一个大规模的视觉-语言基础模型InternVL将视觉基础模型的参数扩展到60亿并逐步与LLM对齐利用来自不同来源的网络规模的图像-文本数据。该模型可广泛应用于32个通用视觉-语言基准包括图像级别或像素级别的识别等视觉感知任务以及零样本图像/视频分类等视觉-语言任务并与LLM相结合以创建多模式对话系统。ViT-22B被取代了上海AI Lab等提出InternVL60亿视觉参数刷爆多模态榜单论文链接https://arxiv.org/abs/2312.14238 开源代码https://github.com/OpenGVLab/InternVL 大型语言模型LLMs在开放世界语言任务中展现出令人印象深刻的能力极大地推动了人工通用智能AGI系统的发展。它们的模型规模和性能仍在快速增长。利用LLMs的视觉大型语言模型VLLMs也取得了重大突破实现了复杂的视觉-语言对话和互动。然而与LLMs的快速增长相比视觉和视觉-语言基础模型的进展滞后。为了将视觉模型与语言模型LLMs进行联系现有的视觉语言联合模型VLLMs常常采用轻量级的“粘合”层例如QFormer或线性投影来对齐视觉和语言模型的特征。然而这种对齐存在以下几个局限性1参数规模的不一致。LLMs的参数规模已经达到1000亿而广泛使用的VLLMs的视觉编码器仍在10亿左右。这种差距可能导致LLMs的能力被低估。2表示的不一致。在纯视觉数据上训练的视觉模型或与BERT系列对齐的模型往往与LLMs存在表示上的不一致。3连接效率低下。粘合层通常是轻量级的和随机初始化的可能无法捕捉到多模态理解和生成所需的丰富的跨模态交互和依赖关系。简介在本研究中我们设计了一个大规模的视觉-语言基础模型InternVL将视觉基础模型的参数扩展到60亿并逐步与LLM对齐利用来自不同来源的网络规模的图像-文本数据。该模型可广泛应用于32个通用视觉-语言基准包括图像级别或像素级别的识别等视觉感知任务以及零样本图像/视频分类、零样本图像/视频-文本检索等视觉-语言任务并与LLM相结合以创建多模式对话系统。它具有强大的视觉能力可以成为ViT-22B的良好替代品。方法与模型如图所示与传统的仅使用视觉的backbone方法和双编码器模型不同本文提出的InternVL采用了一个视觉编码器InternViT-6B和一个语言中间件QLLaMA。具体地InternViT-6B是一个具有60亿参数的视觉Transformer通过自定义实现了性能和效率之间的良好平衡。QLLaMA是一个具有80亿参数的语言中间件初始化使用多语增强的LLaMA。它可以为图像-文本对比学习提供稳健的多语言表示或者作为连接视觉编码器和现成的LLM解码器的桥梁。为了使这两个具有模态和结构差异的大型组件对齐我们引入了一种渐进对齐训练策略。该训练策略逐步进行从大规模嘈杂数据上的对比学习开始逐渐过渡到精致和高质量数据上的生成学习。通过这种方式我们确保有效组织和充分利用来自各种来源的规模庞大的图像-文本数据。然后配备对齐的视觉编码器和语言中间件。 1 模型设计大规模视觉编码器:InternViT-6B 我们使用普通的视觉变换器ViT实现了InternVL的视觉编码器。为了与LLM的规模相匹配我们将视觉编码器扩展到了60亿个参数从而得到了InternViT-6B模型。为了在准确性、速度和稳定性之间取得良好的平衡我们对InternViT-6B进行了超参数搜索。我们在{32486480}的模型深度、{64128}的头部维度和{48}的MLP比率范围内进行变化。模型的宽度和头部数量是根据给定的模型规模和其他超参数计算得出的。我们在LAION-en数据集的一个1亿子集上使用对比学习来衡量具有不同配置的InternViT-6B变体的准确性、速度和稳定性。我们报告了以下发现(1)速度。对于不同的模型设置在计算未达到饱和状态时深度较小的模型每张图像的速度更快。然而当GPU计算得到充分利用时速度差异变得可以忽略(2) 准确性。在相同数量的参数下深度、头部维度和MLP比率对性能的影响很小。根据这些发现我们确定了我们最终模型的最稳定配置如表1所示。语言中间件:QLLaMA。语言中间件QLLaMA旨在对齐视觉和语言特征。QLLaMA是基于预训练多语言LLaMA开发的并添加了96个可学习的查询和交叉注意力层10亿个参数其随机初始化。通过这种方式QLLaMA可以将视觉元素平滑地整合到语言模型中从而增强了合并特征的一致性和有效性。 “瑞士军刀”模型:InternVL 通过灵活组合视觉编码器和语言中间件InternVL可以支持各种视觉或视觉语言任务。1对于视觉感知任务InternVL的视觉编码器即InternViT-6B可以作为视觉任务的主干。给定输入图像I ∈RH×W×3我们的模型可以为密集预测任务生成特征图F ∈RH/14×W/14×D或者通过全局平均池化和线性投影进行图像分类。2对于对比任务如图4ab所示我们引入了两种推理模式InternVL-C和InternVL-G分别使用视觉编码器或InternViT和QLLaMA的组合来编码视觉特征。具体而言我们对InternViT的视觉特征或QLLaMA的查询特征应用注意力汇聚计算全局视觉特征If。此外我们通过提取QLLaMA的[EOS]标记的特征来对文本进行编码得到Tf。通过计算If和Tf之间的相似度得分我们支持包括图文检索在内的各种对比任务。3对于生成任务与QLLAma相比QLLaMA具有更强大的图像字幕能力这得益于其参数的扩大。QLLaMA的查询对InternViT-6B的视觉表示进行重新组织并作为QLLaMA的前缀文本。随后的文本标记将逐个序列地生成。4对于多模态对话我们引入了InternVL-Chat将InternVL作为视觉组件连接到LLMs。为此我们有两个不同的配置。 2 Alignment Strategy InternVL的训练分为三个渐进阶段包括视觉-语言对比训练、视觉-语言生成训练和监督微调。这些阶段有效利用来自不同来源的公共数据包括来自网络的噪声图像-文本对到高质量的标题、视觉问答和多模态对话数据集。视觉-语言对比训练在第一阶段我们通过对比学习在网络规模上将InternViT-6B 与多语言的 LLaMA7B对齐使用包括LAION-en、LAION-multi、LAION-COCO、COYO和Wukong等多语言内容的公开数据集进行训练。我们使用这些数据集的组合并过滤掉一些极低质量的数据来训练我们的模型。原始数据集包含60.3亿个图像-文本对经过清理后剩下49.8亿个。在训练过程中我们采用LLaMA-7B编码文本为Tf并使用InternViT-6B 提取视觉特征If。遵循CLIP 的目标函数我们在一批次的图像-文本对的相似度得分上最小化对称的交叉熵损失。这一阶段使得InternVL在零样本图像分类和图像-文本检索等对比任务中表现出色而该阶段的视觉编码器也能在语义分割等视觉感知任务上表现良好。视觉-语言生成训练在训练的第二阶段我们将InternViT-6B 与 QLLaMA 相连接并采用生成性训练策略。具体来说QLLaMA 在第一阶段继承了LLaMA-7B 的权重。我们保持 InternViT-6B 和 QLLaMA 的权重不变只训练添加的可学习查询和交叉注意力层并使用经过筛选的高质量数据。可以看到我们进一步过滤了低质量标题的数据将其从第一阶段的49.8亿减少到10.3 亿。根据BLIP-2的损失函数这一阶段的损失由图像-文本对比ITC损失、图像-文本匹配ITM损失和图像引导文本生成ITG损失组成。这使得查询能够提取强大的视觉表示并通过有效的训练目标和大规模的以LLM为初始化的QLLaMA进一步对齐特征空间。监督微调为了展示InternVL在创建多模态对话系统方面的优点我们将其与现成的LLM解码器例如Vicuna或InternLM通过一个MLP层连接并进行监督微调SFT。我们收集了一系列高质量的指令数据总共约为 400万个样本。对于非对话数据集我们使用中描述的方法进行转换。由于QLLaMA和LLM解码器具有相似的特征空间即使冻结LLM解码器选择仅训练MLP层或同时训练MLP层和QLLaMA我们仍然可以实现强大的性能。这种方法不仅加快了SFT过程还保持了LLM的原始语言能力。实验与结果首先我们验证了InternVL的最核心组件InternViT-6B的视觉感知能力。我们使用ImageNet-1K数据集评估InternViT-6B生成的视觉表示的质量。遵循常见做法我们采用线性探测评估方法即在保持骨干网络冻结的同时训练线性分类器。除了在ImageNet-1K验证集上的性能指标外我们还报告了在几个ImageNet变体上的性能指标以评估其领域泛化能力。为了研究InternViT-6B的像素级感知能力我们在ADE20K数据集上进行了广泛的语义分割实验。除此之外我们还评估了InternVL在各种视觉语言任务中的固有能力。比如零样本图像分类零样本视频分类零样本图像-文本检索零样本图像字幕生成等。零样本图像-文本检索结果对比零样本图像分类结果零样本视频分类结果 12个基准方法的对比结果零样本图像描述结果 #SegRefiner 这里分享 NeruIPS 2023 论文SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process通过Diffusion实现高精度图像分割。为了实现高精度的图像分割来自北京交大、南洋理工、字节跳动等的研究者们引入了一种基于扩散模型Diffusion去逐步提高mask质量的方法。论文地址https://arxiv.org/abs/2312.12425开源代码https://github.com/MengyuWang826/SegRefiner 背景介绍尽管图像分割在过去得到了广泛研究和快速发展但获得细节上非常准确的分割 mask 始终十分具有挑战性。因为达成高精度的分割既需要高级语义信息也需要细粒度的纹理信息这将导致较大的计算复杂性和内存使用。而对于分辨率达到2K甚至更高的图像这一挑战尤为突出。由于直接预测高质量分割 mask 具有挑战性因此一些研究开始集中于 refine 已有分割模型输出的粗糙 mask。为了实现高精度的图像分割来自北京交大、南洋理工、字节跳动等的研究者们引入了一种基于扩散模型Diffusion去逐步提高mask质量的方法。现有方法 Model-Specific 一类常见的 Refinement 方法是 Model-Specific 的其通过在已有分割模型中引入一些新模块从而为预测 Mask 补充了更多额外信息从而增强了已有模型对于细节的感知能力。这一类方法中代表性的工作有 PointRendRefineMaskMaskTransfiner等。然而这些方法是基于特定模型的改进因此不能直接用于 refine 其他分割模型输出的粗糙 mask。 Model-Agnostic 另一类 Refinement 方法是 Model-Agnostic 的其只使用原始图像和粗糙mask作为输入信息如 BPRSegFixCascadePSPCRM 等。由于这类方法在 Refinement 过程中未使用已有模型的中间特征因此不依赖于特定分割模型可以用于不同分割模型的 Refinement。然而尽管这类方法能够有效地提升分割准确度但由于粗糙 mask 中存在多种多样的错误预测如下图所示导致模型无法稳定地修正粗糙 mask 中的全部预测错误。实现目标相比于 Model-Specific 的方法Model-Agnostic 的方法能够直接应用于不同分割模型的 Refinement从而有着更高的实用价值。更进一步地由于不同分割任务语意分割实例分割等的结果都可以被表示为一系列 binary mask具有相同的表征形式在同一个模型中统一实现不同分割任务的 Refinement 同样是可能的。因此我们希望实现能够应用于不同分割模型和分割任务的通用 Refinement 模型。如前所述已有分割模型产生的错误预测是多种多样的而想要通过一个通用模型一次性地更正这些多样性的错误十分困难。面对这一问题在图像生成任务中取得巨大成功的扩散概率模型给予了我们启发扩散概率模型的迭代策略使得模型可以在每一个时间步中仅仅消除一部分噪声并通过多步迭代来不断接近真实图像的分布。这大大降低了一次性拟合出目标数据分布的难度从而赋予了扩散模型生成高质量图像的能力。直观地如果将扩散概率模型的策略迁移到 Refinement 任务中可以使得模型在进行 Refinement 时每一步仅关注一些“最明显的错误”这将降低一次性修正所有错误预测的难度并可以通过不断迭代来逐渐接近精细分割结果从而使得模型能够应对更具挑战性的实例并持续纠正错误产生精确分割结果。在这一想法下我们提出了一个新的视角将粗糙 mask 视作 ground truth 的带噪版本并通过一个去噪扩散过程来实现粗糙 mask 的 Refinement从而将 Refinement 任务表示为一个以图像为条件目标为精细 mask 的数据生成过程。算法方案扩散概率模型是一种由前向和反向过程表示的生成模型其中前向过程通过不断加入高斯噪声得到不同程度的带噪图像并训练模型预测噪声而反向过程则从纯高斯噪声开始逐步迭代去噪最终采样出图像。而将扩散概率模型迁移到 Refinement 任务中数据形式的不同带来了以下两个问题由于自然图像往往被视作高维高斯变量将图像生成的过程建模为一系列高斯过程是十分自然的因此已有的扩散概率模型大多基于高斯假设建立而我们的目标数据是 binary mask通过高斯过程拟合这样一个离散变量的分布并不合理。作为一种分割 Refinement 方法我们的核心思想是将粗糙 mask 视为带有噪声的 ground truth并通过消除这种噪声来恢复高质量的分割结果。这意味着我们扩散过程的结尾应当收敛到确定性的粗糙 mask而非纯噪声这也与已有的扩散概率模型不同。针对上述问题我们建立了如下图所示的基于“随机状态转移”的离散扩散过程。其中前向过程将 ground truth 转换为“不同粗糙程度”的 mask并用于训练而反向过程用于模型推理SegRefiner 从给出的粗糙 mask 开始通过逐步迭代修正粗糙 mask 中的错误预测区域。以下将详细介绍前向和反向过程。前向过程反向过程模型结构算法评估由于 Refinement 任务的核心是获取细节精确的分割结果在实验中我们选取了三个代表性的高质量分割数据集分别对应Semantic SegmentationInstance Segmentation 和 Dichotomous Image Segmentation。 Semantic Segmentation 如表1所示我们在 BIG 数据集上将提出的 SegRefiner 与四种已有方法SegFixCascadePSPCRM 以及 MGMatting 进行了对比。其中前三个为语义分割的 Refinement 方法而 MGMatting 使用图像和 mask 进行 Matting 任务也可以用于 Refinement 任务。结果表明我们提出的 SegRefiner 在 refine 四个不同语义分割模型的粗糙 mask 时都在 IoU 和 mBA 两项指标上获得了明显提升且超越了之前的方法。 Instance Segmentation 实例分割中我们选择了之前的工作广泛使用的 COCO 数据集进行测试并使用了 LVIS 数据集的标注。与原始 COCO 标注相比LVIS 标注提供了更高质量和更详细的结构这使得 LVIS 标注更适合评估改进模型的性能。首先在表2中我们将提出的SegRefiner与两种 Model-Agnostic 的实例分割 Refinement 方法 BPR 和 SegFix 进行了比较。结果表明我们的 SegRefiner 在性能上明显优于这两种方法。然后在表3中我们将 SegRefiner 应用于其他7种实例分割模型。我们的方法在不同准确度水平的模型上都取得了显著的增强效果。值得注意的是当应用于三种 Model-Specific 的实例分割 Refinement 模型包括PointRend、RefineMask 和 Mask TransFiner时SegRefiner 依然能稳定提升它们的性能这说明 SegRefiner 具有更强大的细节感知能力。 Dichotomous Image Segmentation Dichotomous Image Segmentation 是一个较新提出的任务如下图所示其数据集包含大量具有复杂细节结构的对象因此十分适合评估我们 SegRefiner 对细节的感知能力。在本实验中我们将 SegRefiner 应用于6种分割模型结果如表4所示。可以看到我们的SegRefiner在 IoU 和 mBA 两项指标上都明显提升了每个分割模型的准确度。可视化展示 #codebook 技术史从 VAE 到 VQ/RQ-VAE 到 FSQ 本文详细介绍了变分自编码器VAE及其衍生模型VQ-VAE和RQ-VAE探讨了它们在图像生成和压缩中的原理和应用。文章还讨论了VAE的ELBO目标、KL散度、以及如何通过量化技术和残差量化提高模型性能和稳定性。 VAE VAE (variational autoencoder, 变分自编码器) 是一种强大的生成模型, Encoder 把数据编码到隐空间 , 其学习条件概率, Decoder把数据从隐空间中重建回来其学习另一个条件概率。VAE 额外有一个限制条件是让满足 Gaussian分布。这样做的好处就是训练结束后可以扔掉 Encoder, 直接从这个先验分布上随便采样 , 然后通过 Decoder 就能生成一个。 VAE 最主要的是这个 ELBO ELBO即evidence low boundevidence指的就是而 ELBO 表示 evidence 的最小期望。我们要让这个 lower bound 尽可能变大得到的模型就会更可能产生我们期望看到的。为解释 ELBO 是怎么来的我们一步一步来看。 K-L散度我们首先讲解 KL 散度为衡量模型生成的分布与原始分布的相似度常用的便是 K–L Kullback–Leibler 散度。定义如下对于两个具有概率密度函数和的分布 K–L 散度具有两个重要性质不对称性显然K–L 散度对于和来说是不对称的。Gibbs 不等式它总是【非负】的并且当且仅当和在每一处都相同时才为 0。为了理解这一点我们可以将 KL 散度分解为两部分第二项带有负号其对应的是的信息熵第一项也带有负号代表和之间的交叉熵。第一项始终不大于每个给定符号下的第二项这便是 Gibbs 不等式而 Gibbs 不等式的证明可以使用 Jensen 不等式若是凸函数则有设由于所以其为凸函数以及那么由 VAE 理论框架联合概率建模角度 VAE 框架可以从多个角度建立例如概率分布视角、贝叶斯视角以及联合概率视角这里我选用联合概率这一简单的方法来阐述假设原始数据样本为分布为我们希望借助隐变量标准正态分布来建模因此我们设立来逼近 : 是标准正态分布是我们的生成式模型此外还需明确的是是的原始分布是encoder生成的训练时要让其逼近正态分布。我们直接采用联合建模的角度原来我们的目的是让来逼近我们转变下思路变为让与越相近越好注意除了中也有参数 KL 散度便是我们的终极目标我们将从这个 KL 散度推导出最终的 ELBO 这里被我们拆开为两项第一项无论是什么它一定是确定的故第一项是常数第二项因此我们很快便得到了最终的 ELBO注意多了个负号。 ELBO ELBO 有两项分别为以及 - 这两部分可以理解为【重构误差项】以及【KL散度项】重构误差项这部分度量了模型生成数据的质量即解码器使用从编码器采样的来重构输入的准确性这是负对数似然表明给定潜在变量后重构原来的的概率有多大。目标是最大化这部分期望值即希望模型能生成与输入尽可能接近的数据。 KL散度项- 是后验分布和先验分布之间的负K–L 散度以此衡量编码器的输出分布与标准正态分布的差异。目标是最小化KL散度确保潜在变量 z 尽可能接近正态分布。至此我们推导出了VAE的损失函数了解了ELBO的原理。 VQ-VAE paper[Neural Discrete Representation Learning] https://arxiv.org/abs/1711.00937 paperNeural Discrete Representation Learning 背景 VAE中的隐变量 z 的每一维都是一个连续值而VQ-VAE 中的每一维都是离散的整数这些整数便可 index 到已训练好的 codebook码本本质上就是一批 embedding。这样做符合自然界模态的特点例如语言本质上就是由很多字符组成每个字符都可以是用数字索引到字符库里的某个字符NLP中可以理解为token_id索引到vocab里的某个token所以VQ-VAE可以理解为【图像tokenization】的过程事实上这种思想可以借鉴引用到很多领域例如广告推荐里将广告用一串索引表示。文章还指出VAE 存在后验坍塌Posterior Collapse 的问题这一般是由散度消失KL-Vanishinig导致的因此该问题也称为KL-vanishing。简单来说就是解码器太强模型的潜在空间latent space无效化即编码器退化为与先验相同的分布ELBO里的KL散度项为0而忽略了输入数据的信息。方法将隐变量离散化的关键操作是VQ, 即 vector quatization。图1. VQ-VAE 流程图图像输入至 encoder 中得到codebook 是一个K*D 的 table紫色方块将中每一维都映射为 codebook 中K个embedding之一全部替换后图中绿色的变为紫色的然后进行重构从到的变化可以理解为聚类如图中右子图所示由于变化后的embedding位于codebook内当然就可以只用整数来表示。训练 ELBO 损失项我们先看原有的 ELBO 这里p和q互换以与图示对应q代表encoderp代表decoder 这里后验分布里都是one-hot向量如下所示而非之前VAE里的正态分布由此预估的每一维都是codebook里每个embedding的概率我们假设采样的先验分布是均匀分布则每一维对于某个embedding选取概率有则有第一项表示one-hot中为1对应的那一维对KL散度的贡献第二项代表其他维的贡献。因此 ELBO 中第二项可以忽略只有重构损失项。那我们再看第一项损失可以简单写为然而包含了argmin这个操作是没有梯度的无法更新 encoderVQ-VAE 使用了一个很精巧也很直接的方法称为 Straight-Through Estimator称为“直通估计(https://papers.cool/arxiv/1308.3432)”。其思想是在前向传播的时候可以任意变量可以不可导而反向传播的时候直接跳过这个不可导的操作。对应图1中红色箭头表明跳过的操作。根据这个思想我们设计的目标函数是 sg 代表阻止梯度回传 codebook 损失项为使得与尽量接近设置损失这里我们理解下是编码器得到的是离得最近的embedding两者都有可训练的参数因此在实际训练时codebook相对自由宽松没什么限制条件而编码器生成的要保证重建效果我们更希望主要靠近并且因为的梯度等于以及梯度之和故可拆解为第一项可以理解为不变主要靠近第二项相反由此我们可以给第二项设置一个相对较小的权重来达到更希望主要靠近的效果。整体损失项文中指出实验发现设置[0,1]均具有鲁棒性故使用还可以使用滑动平均的方式更新下面阐述。滑动平均方法具体来说使用指数移动平均EMA来更新 codebook 设为编码器输出中最接近词典项的一组个元素那么可以将损失写为理论上可以求得的最优值可以通过封闭形式的解求得即该集合中所有元素的平均值这种更新方法通常用于 K-Means 等算法。然而当处理小批量minibatches时无法直接使用上述更新方式。因此我们可以采用指数移动平均作为该更新的在线版本其中的取值范围在 0 到 1 之间论文发现 0.99 是一个不错的选择。应用按照之前 VAE 的逻辑使用时去掉encoder在正态分布里采样即可生成图片那么VQ-VAE呢其假设先验分布为均匀分布然而并没有直接在均匀分布里采样而是使用 PixelCNN 来学习编码的分布这里非常奇怪在issue一节讨论即学习。简单介绍下PixelCNN 是一种采用自回归方式逐像素从左上角生成的图像生成模型其中使用了mask conv操作可以类比 GPT使用 mask self-attention 操作。所以最后我们通过 PixelCNN 来随机生成然后再用VQ-VAE的 Decoder 来生成最后的图片。 Issue VQ-VAE 到底是不是 VAE VAE 的核心是encoder学习一个先验分布最后只需要从这个先验分布里采样就可以用来生成然而VQ-VAE事实上并不行其假设先验分布为均匀分布但并不能从均匀分布里采样解码得到真实图像这就说明这就不过只是一个AE 类模型。那么问题出在哪了回顾 VQ-VAE 的设计发现并没有类似 VAE 里的 KL散度loss 来迫使先验分布逼近均匀分布。你可能会问假设分布是均匀分布KL散度是一个常数呀上面不是还推导了那么我们再回顾一下 KL散度是常数那么这一项就不会优化也就不存在要让更逼近的说法也就是不会被更新其生成的分布根本不可控。那么继续深究这一项为何会是常数原因就在于始终是一个one-hot分布无论怎么优化都是如此而one-hot分布和均匀分布的 KL散度始终是 logK因此 ELBO里的这一项毫无意义。其实本质上VQ-VAE 做的是【图像 tokenization】的工作生成模型部分交给自回归模型 PixelCNN 去负责了。此外苏神在博客评论里还指出 VQ-VAE里边从均匀分布采样离散的code直接传入decoder生成结果也不至于差得完全不可看还是勉强能看的比纯AE要好点但要保证质量还是得 pixelcnn。 VQ-VAE 的核心贡献核心贡献不在于其提出了一种新的 VAE 架构而在于提供了一个序列压缩技术。正如上所说其本质是一个利用codebook 做图像 tokenization 的工作然而这种 codebook 的思想不仅可以应用于图像音频、视频甚至短视频、广告都是可以的所以我们才看到VQ-VAE的思想应用于各个领域这才是VQ-VAE的魅力所在。 VQ-VAE-2 论文https://arxiv.org/pdf/1906.00446 主要变化就是把 VQ-VAE 的 encoder 和 decoder 都进行了分层, bottom层对local feature进行建模top层采取全局自注意力机制。 RQ-VAE paperhttps://arxiv.org/pdf/2203.01941 背景 VQ-VAE 的序列长度较长需要大量的codebook这势必会导致_codebook collapse码本摊缩_问题使得VQ-VAE的训练很不稳定而 RQ-VAE 则采取一种 _residual quantization残差量化_的新方法通过D轮迭代将feature map表示为D个堆叠的离散编码可以进一步减小feature map可以理解为经过encoder后的表示的spatial resolution例如从原始图像的256256变为88。这样进一步增加下采样因子减少分辨率使得 AR 模型能够减少计算成本、提高图像生成速度并更好地学习codebook中各向量之间的长依赖关系。方法 RQ v.s. VQ VQ 假设codebook表示为对于向量其映射为近邻向量的操作表示为给定图片输入为提取的 feature map 为通过映射后得到的code map为其中是feature map中(h,w)位置上的向量。假设 codebook 大小为 K那么整个feature map为个 bit根据_rate-distortion theory率失真理论_H和W每缩小一半K都要增加到因此说VQ-VAE需要大量的codebook。 RQ 在RQ里定义新的映射为近邻向量的操作可以看到并非之前单一的数字而是一个元组那么每一位的k如何选择首先初始化残差 \mathbf{r}_0\mathbf{z} 然后按照如下方法计算可以这么理解我要模拟但是我模拟的肯定和有差距我用表示出来这两者的差然后我继续模拟但是我模拟的肯定又和有差距我用表示出来...... 因此每个逐步相加理论上和要模拟的越来越逼近。可以看出VQ将空间分为K个簇而RQ将空间分为个簇来实现更精确的量化。共享codebook机制虽然我们可以为每一层深度 d 分别构建一个码本但在每个量化深度上使用的是单个共享码本。共享码本在构建 RQ 近似向量 z 时有两个优势使用单独的码本需要广泛的超参数搜索以确定每一层的码本大小而共享码本只需确定总码本大小 K。共享码本使得所有的 embedding 在每一层量化时都可用。因此每一层都可以使用相同的 embedding以最大化其效用。 RQ-Transformer 可以看出编码得到的 feature map 输入给 Transformer 来作为自回归任务的输入整个 RQ-Transformer 分为Spatial Transformer和 Depth Transformer 两部分。输入处理 RQ-VAE 提取的代码映射会按照栅格扫描顺序raster-scan order重新排列为二维数组其中。每一行包含 D 个代码自回归建模总公式为建模动机直接将 \mathbf{S} 展开为长度 TD 的序列并输入传统 Transformer 的方法存在不足无法利用导 RQ-VAE 降低后的长度 T的优势。此外这种直接展开会增加计算成本。由此设计为 Spatial Transformer和 Depth Transformer 两部分。空间 TransformerSpatial Transformer 首先空间 Transformer的输入为每个位置上的 feature各个残差项之和并加上位置编码PE如下整个 Spatial Transformer 表示为深度 Transformer (Depth Transformer) 深度 Transformer 的任务是在给定位置 t 自回归地预测 D 个残差项code即在深度 d 和位置 t 时Transformer 的输入被定义为之前深度的嵌入之和每个深度的预测基于之前所有深度的估计使得每一层的估计更加精细。是深度 d 的位置嵌入且在所有位置 t 上共享。整个 Depth Transformer 表示为训练 RQ-VAE 的训练损失函数包含两部分重构损失Reconstruction Loss 这个损失度量的是输入和重构结果之间的欧氏距离用于确保重构后的样本尽可能接近原始输入。这里同样会采用 Straight-Through Estimator。承诺损失Commitment Loss sg[·] 是 stop-gradient 操作符用于在反向传播时阻止梯度的传递该损失的作用是最小化每个维度 d 上的量化误差从而鼓励编码器的输出更接近量化后的值。论文内提及codebook会采用聚类特征的指数滑动平均来更新从而提升模型的训练效果和稳定性。 RQ-VAE 同时还采用了对抗训练Adversarial Training 以提高重构图像的感知质量。采用了基于 patch 的对抗损失和感知损失。负对数似然损失 (Negative Log-Likelihood, NLL) 用于训练 RQ-Transformer Trick 曝光偏差 (Exposure Bias) 曝光偏差是自回归AR模型中的常见问题。在训练和推断阶段由于预测错误的累积模型性能会下降。尤其是在 RQ-Transformer 中随着深度 D 的增加量化特征向量的估计变得更加困难误差也会累积。论文采用了软标签 (Soft Labeling) 和随机采样 (Stochastic Sampling)策略软标签Soft Labeling 基于 RQ-VAE 中代码嵌入之间的几何关系定义了一个温度参数控制的类别分布当时分布会收缩为一个 one-hot 分布软标签的作用利用嵌入之间的几何距离为目标代码的监督引入了软标签分布; 在位置和深度上假设特征向量为并令残差向量为。负对数似然NLL损失使用了该软分布作为监督。区别于 one-hot 标签该监督机制使用了软化后的分布。随机采样Stochastic Sampling 在原始的 RQ-VAE 中代码选择是确定性的。然而这里通过从软分布中进行采样来选择代码。当时随机采样等价于原始确定性代码选择。优势随机采样为特征映射提供了不同的代码组合从而缓解了训练和推断中的不一致性。 FSQ paperFinite Scalar Quantization: VQ-VAE Made Simple https://arxiv.org/abs/2309.15505 方法论文提出使用 FSQFinite Scalar Quantization 来替代 VQ-VAE中的“VQ”其离散化思路非常简单就是“四舍五入”。如上图所示假设最后要把x映射为d维图中d3我们把z的每一维用L个value表示图中L3然后将z的每一维的L个value四舍五入图中则变化为正方体的边线所在顶点处由此便离散化了。还有个区别图式中便是VQ里量化后的会用一个单独的数字代替表示codebook里的索引而FSQ里会用L个数字组成的元组例如(-1,0,1)来替代也表示索引整体codebook数量为L^d图里为9。方案对比如下具体来说给定一个 d -维表示我们的目标是将量化为有限的码字集。为此我们首先应用一个边界函数然后将结果四舍五入为整数。我们选择使得取得个唯一值之一例如上图的右子图可视化了这个转化由于tanh取值范围为(-11)由此z的范围是 () 故四舍五入后便是L个取值图中L5则有-2,-1,0,1,2这5个取值。由此我们得到其中便是码本且。为了在整个四舍五入操作中传播梯度使用了前述 STE直通估计技巧通过以下方式轻松实现“停止梯度sg”操作实验从图中可以看到编码表大小2^10是一个分界点在2^10左右时FSQ与VQ的效果接近超过2^10时FSQ占优反之小于2^10时VQ占优。文中建议并且d是个位数相比之下VQ-VAE中d是三位数。引用 ElijhaVQ-VAE解读(https://zhuanlan.zhihu.com/p/91434658) Variational Autoencoders(https://amaires.github.io/VAE/) 变分自编码器二从贝叶斯观点出发 - 科学空间|Scientific Spaces(https://spaces.ac.cn/archives/5343) VQ-VAE的简明介绍量子化自编码器 - 科学空间|Scientific Spaces(https://spaces.ac.cn/archives/6760) 简单得令人尴尬的FSQ“四舍五入”超越了VQ-VAE - 科学空间|Scientific Spaces(https://www.spaces.ac.cn/archives/9826) #ADPN-MM 视频片段定位 TSG一句话精准视频片段定位只需一句话描述就能在一大段视频中定位到对应片段比如描述“一个人一边下楼梯一边喝水”通过视频画面和脚步声的匹配新方法一下子就能揪出对应起止时间戳就连“大笑”这种语义难理解型的也能准确定位方法名为自适应双分支促进网络ADPN由清华大学研究团队提出。具体来说ADPN是用来完成一个叫做视频片段定位Temporal Sentence GroundingTSG的视觉-语言跨模态任务也就是根据查询文本从视频中定位到相关片段。 ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。相较其他利用音频的TSG工作PMI-LOC、UMTADPN方法从音频模态获取了更显著地性能提升多项测试拿下新SOTA。目前该工作已经被ACM Multimedia 2023接收且已完全开源。一起来看看ADPN究竟是个啥一句话定位视频片段视频片段定位Temporal Sentence GroundingTSG是一项重要的视觉-语言跨模态任务。它的目的是根据自然语言查询在一个未剪辑的视频中找到与之语义匹配的片段的起止时间戳它要求方法具备较强的时序跨模态推理能力。然而大多数现有的TSG方法只考虑了视频中的视觉信息如RGB、光流optical flows、深度depth等而忽略了视频中天然伴随的音频信息。音频信息往往包含丰富的语义并且与视觉信息存在一致性和互补性如下图所示这些性质会有助于TSG任务。 (a)一致性视频画面和脚步声一致地匹配了查询中的“走下楼梯”的语义(b)互补性视频画面难以识别出特定行为来定位查询中的“笑”的语义但是笑声的出现提供了强有力的互补定位线索。因此研究人员深入研究了音频增强的视频片段定位任务Audio-enhanced Temporal Sentence GroundingATSG旨在更优地从视觉与音频两种模态中捕获定位线索然而音频模态的引入也带来了如下挑战音频和视觉模态的一致性和互补性是与查询文本相关联的因此捕获视听一致性与互补性需要建模文本-视觉-音频三模态的交互。音频和视觉间存在显著的模态差异两者的信息密度和噪声强度不同这会影响视听学习的性能。为了解决上述挑战研究人员提出了一种新颖的ATSG方法“自适应双分支促进网络”Adaptive Dual-branch Prompted NetworkADPN。通过一种双分支的模型结构设计该方法能够自适应地建模音频和视觉之间的一致性和互补性并利用一种基于课程学习的去噪优化策略进一步消除音频模态噪声的干扰揭示了音频信号对于视频检索的重要性。 ADPN的总体结构如下图所示图2自适应双分支促进网络ADPN总体示意图它主要包含三个设计 1、双分支网络结构设计考虑到音频的噪声更加明显且对于TSG任务而言音频通常存在更多冗余信息因此音频和视觉模态的学习过程需要赋予不同的重要性因此本文涉及了一个双分支的网络结构在利用音频和视觉进行多模态学习的同时对视觉信息进行强化。具体地参见图2(a)ADPN同时训练一个只使用视觉信息的分支视觉分支和一个同时使用视觉信息和音频信息的分支联合分支。两个分支拥有相似的结构其中联合分支增加了一个文本引导的线索挖掘单元TGCM建模文本-视觉-音频模态交互。训练过程两个分支同时更新参数推理阶段使用联合分支的结果作为模型预测结果。 2、文本引导的线索挖掘单元Text-Guided Clues MinerTGCM 考虑到音频与视觉模态的一致性与互补性是以给定的文本查询作为条件的因此研究人员设计了TGCM单元建模文本-视觉-音频三模态间的交互。参考图2(b)TGCM分为”提取“和”传播“两个步骤。首先以文本作为查询条件从视觉和音频两种模态中提取关联的信息并集成然后再以视觉与音频各自模态作为查询条件将集成的信息通过注意力传播到视觉与音频各自的模态最终再通过FFN进行特征融合。 3、课程学习优化策略研究人员观察到音频中含有噪声这会影响多模态学习的效果于是他们将噪声的强度作为样本难度的参考引入课程学习Curriculum LearningCL对优化过程进行去噪参考图2(c)。他们根据两个分支的预测输出差异来评估样本的难度认为过于难的样本大概率表示其音频含有过多的噪声而不适于TSG任务于是根据样本难度的评估分数对训练过程的损失函数项进行重加权旨在丢弃音频的噪声引起的不良梯度。其余的模型结构与训练细节请参考原文。多项测试新SOTA 研究人员在TSG任务的benchmark数据集Charades-STA和ActivityNet Captions上进行实验评估与baseline方法的比较如表1所示。 ADPN方法能够取得SOTA性能特别地相较其他利用音频的TSG工作PMI-LOC、UMTADPN方法从音频模态获取了更显著地性能提升说明了ADPN方法利用音频模态促进TSG的优越性。表1Charades-STA与ActivityNet Captions上实验结果研究人员进一步通过消融实验展示了ADPN中不同的设计单元的有效性如表2所示。表2Charades-STA上消融实验研究人员选取了一些样本的预测结果进行了可视化并且绘制了TGCM中”提取“步骤中的”文本 to 视觉“T→V和”文本 to 音频“T→A注意力权重分布如图3所示。可以观察到音频模态的引入改善了预测结果。从“Person laughs at it”的案例中可以看到T→A的注意力权重分布更接近Ground Truth纠正了T→V的权重分布对模型预测的错误引导。图3案例展示总的来说本文研究人员提出了一种新颖的自适应双分支促进网络ADPN来解决音频增强的视频片段定位ATSG问题。他们设计了一个双分支的模型结构联合训练视觉分支和视听联合分支以解决音频和视觉模态之间的信息差异。他们还提出了一种文本引导的线索挖掘单元TGCM用文本语义作为指导来建模文本-音频-视觉交互。最后研究人员设计了一种基于课程学习的优化策略来进一步消除音频噪音以自感知的方式评估样本难度作为噪音强度的度量并自适应地调整优化过程。他们首先在ATSG中深入研究了音频的特性更好地提升了音频模态对性能的提升作用。未来他们希望为ATSG构建更合适的评估基准以鼓励在这一领域进行更深入的研究。论文链接https://dl.acm.org/doi/pdf/10.1145/3581783.3612504 仓库链接https://github.com/hlchen23/ADPN-MM #RTMO~ RTMO 是基于 MMPose 的单阶段实时人体姿态估计模型它结合了坐标回归与 YOLOX 检测框架在多人场景下实现了领先的速度与精度。RTMO 在 CrowdPose 数据集上首次达到了 80 的 AP是多人拥挤场景当前效果最好的实时模型。实时多人在图像中的姿态估计面临着在速度和精度之间实现平衡的重大挑战。尽管两阶段的上下文方法在图像中人数增加时会减慢速度但现有的单阶段方法往往无法同时实现高精度和实时性能。这是一个单阶段姿态估计框架通过在YOLO架构中使用双一维 Heatmap 来表示关键点实现与自上而下方法相当的准确度同时保持高速度。作者提出了一种动态坐标分类器和一种定制的损失函数用于 Heatmap 学习专门针对坐标分类和密集预测模型之间的不兼容性。RTMO在单阶段姿态估计器中超过了最先进的方法在COCO上实现了1.1%更高的AP同时使用相同的基础架构约9倍的速度。作者的最大模型RTMO-l在COCO val2017上达到了74.8%的AP并在单个V100 GPU上实现了141 FPS证明了其效率和准确性。实时高精度的单阶段人体姿态估计算法 RTMO 正式开源RTMO 结合了坐标回归策略与 YOLOX 检测框架克服了现有的单阶段人体姿态估计模型精度与速度难以兼得的难题。RTMO 具有两个突出的优势在密集的多人场景中速度和精度均领先。相比传统的二阶段模型如 RTMPoseRTMO 的速度受画面中的人数的影响可以忽略不计。同时它在多个多人密集场景的数据集上获得了最高精度如在 CrowdPose 数据集上取得83.8 AP较以往最佳模型提升 5.3 AP。模型简单易部署。作为端到端的单阶段模型RTMO 可以一条命令完成推理和部署无需额外的人体检测器网络大大简化了使用流程。项目主页https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo 论文链接https://arxiv.org/abs/2312.07526 效果展示让我们一起先看看 RTMO 在多人场景中的检测效果latency 为 NVIDIA 3090 TensorRT-FP16 测试结果图1 推理效果图1 图2 推理效果图2 实时姿态估计模型的性能对比现有的实时姿态估计模型主要包括二阶段 top-down 架构的轻量级模型例如 RTMPose以及基于 YOLO 架构的单阶段模型例如 YOLO-Pose, YOLOv8-Pose。我们在 CPU 和 GPU 上分别比较了它们的速度和精度。图3 CPU 上实时姿态估计模型的速度-精度对比图图4 GPU 上实时姿态估计模型的速度-精度对比图相较其他实时单阶段模型RTMO 在性能上全面领先达到了和二阶段模型 RTMPose 差不多的精度。而相比二阶段模型RTMO 在画面中人数较多时有速度优势。在相同精度要求下当画面中人数超过 4(cpu)/2(gpu) 时RTMO 的推理速度就已经超越了 RTMPose。多人场景下的领先性能多人加拥挤场景一直是姿态估计领域的难题。RTMO 在训练过程中使用了 MixUp 数据增强模拟了拥挤的场景在正负样本分配的过程中考虑了姿态估计的准确度减少了关键点错位造成的误差再加上 MMPose 多数据集训练的加持。因此RTMO 在多人拥挤场景下依旧有很高的精度。在针对这类场景的 CrowdPose 和 OCHuman 两个数据集上RTMO 都取得了当前最高的精度。图5 CrowdPose 测试集 SOTA 模型精度在 CrowdPose 上RTMO-l 取得了 83.8 的 AP相比之前的最佳模型有 5.3 AP 的提升。谁能想到这是一个能跑 100 FPS 的轻量级模型呢图6 OCHuman 数据集 SOTA 模型精度在 OCHuman 上RTMO 同样取得了当前最高的精度不使用标注检测框的情况下。便捷的推理接口得益于 MMPose 框架便捷的推理接口只需要一行代码我们就可以调用 RTMO 模型进行推理。图7 一行代码用 RTMO 完成多人姿态估计在 OpenXLab 应用平台上RTMPose 应用也已集成 RTMO。无需本地安装在浏览器中就能在线使用 RTMO 处理图像、视频。 RTMPose 应用链接https://openxlab.org.cn/apps/detail/mmpose/RTMPose 图8 在线试用 RTMO 多平台部署支持对于需要在业务侧部署模型的小伙伴RTMO 也带来了福音。不同于二阶段姿态估计模型RTMO 无需使用人体检测器预先获取人体检测框因此它的部署相比 RTMPose 要更加简单。RTMO 项目主页介绍了如何使用 MMDeploy 部署 RTMO 模型无论是用 ONNX 还是 TensorRT 后端都可以一键搞定。图9 RTMO 部署教程此外我们还提供了开箱即用的轻量推理库 rtmlib https://github.com/Tau-J/rtmlib 无需安装 mmcvmmenginemmpose 等一系列训练库有 opencv 就能推理超级友好简洁的推理和可视化接口自动下载和缓存 onnx 模型支持 RTMPose 全系列官方及衍生模型RTMPoseDWPoseRTMORTMW etc. 代码样例 import cv2from rtmlib import Body, draw_skeletondevice cpu # cpu, cuda backend onnxruntime # opencv, onnxruntime, openvino img cv2.imread(./demo.jpg)openpose_skeleton False # True for openpose-style, False for mmpose-stylebody Body(posertmo,to_openposeopenpose_skeleton,modebalanced, # balanced, performance, lightweightbackendbackend,devicedevice)keypoints, scores body(img)# visualize# if you want to use black background instead of original image, # img_show np.zeros(img_show.shape, dtypenp.uint8)img_show draw_skeleton(img_show, keypoints, scores, kpt_thr0.5)cv2.imshow(img, img_show) cv2.waitKey() One More Thing RTMPose 家族的全身姿态估计模型 RTMW 也进行了全面更新基于 DWPose 蒸馏方案同样已集成在 MMPose 中进行了加强相较于 alpha 版本中 RTMW-x 取得 70.2 mAP 精度蒸馏得到的 RTMW-l 用 60% 的计算量取得了 70.1 mAP。图10 DWPose (上) 与 RTMW (下) 效果对比动图图11 DWPose (上) 与 RTMW (下) 效果对比静图总结 RTMO 是基于 MMPose 的单阶段实时人体姿态估计模型它结合了坐标回归与 YOLOX 检测框架在多人场景下实现了领先的速度与精度。RTMO 在 CrowdPose 数据集上首次达到了 80 的 AP是多人拥挤场景当前效果最好的实时模型。作为单阶段模型RTMO 推理部署简单方便。我们还提供了 Python 推理接口、多平台部署方案开发者可以快速上手使用。诚挚欢迎对人体姿态估计感兴趣的小伙伴来试用 RTMO提出宝贵意见项目主页https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo 1 Introduction 多人姿态估计MPPE在计算机视觉领域中至关重要应用范围涵盖增强现实到体育分析等领域。实时处理对于需要即时反馈的应用尤其关键例如为运动员定位提供指导。尽管已经出现了许多实时姿态估计技术但实现速度与精度之间的平衡仍然具有挑战性。当前实时姿态估计方法可分为两类自上而下方法Top-down和一阶段方法One-stage。自上而下方法利用预训练的检测器为目标创建边界框然后对每个个体进行姿态估计。关键限制在于它们的推理时间与图像中的人数成正比参见图1。另一方面单阶段方法直接预测图像中所有个体的关键点位置。然而当前实时单阶段方法在精度方面与自上而下方法相比仍存在差距参见图1。这些方法依赖于YOLO架构直接回归关键点的坐标这会阻碍性能因为这种技术类似于使用每个关键点的狄拉克δ分布忽略了关键点固有的歧义和不确定性。另一种方法是坐标分类方法使用双一维 Heatmap 来增加空间分辨率通过将关键点位置的概率分布在跨越整个图像的两组bin上。这可以提供更准确的目标检测同时计算成本最小。然而将坐标分类直接应用于密集预测场景如单阶段姿态估计会导致由于图像和每个人占据的区域不同bin利用率低下。此外传统的Kullback-Leibler散度KLD损失将所有样本视为同等这在单阶段姿态估计中是不最优的因为在不同网格中实例的难度显著不同。在这项工作中作者克服了上述挑战并将坐标分类方法集成到基于YOLO的框架中从而导致了实时多人单阶段姿态估计模型的开发。RTMO引入了一个动态坐标分类器DCC该分类器包括动态bin分配定位到边界框和可学习bin表示。此外作者提出了一种基于最大似然估计MLE的新颖损失函数以有效地训练坐标 Heatmap 。这种新的损失函数允许学习每个样本的不确定性自动调整任务难度并平衡硬样本和易样本之间的优化从而实现更有效和协调的训练。因此RTMO实现了与实时自上而下方法相当的准确性并超过了其他轻量级单阶段方法如图1所示。此外RTMO在处理图像中的多个实例时表现出优越的速度超过了具有相似准确度的自上而下方法。值得注意的是RTMO-1模型在COCO val2017数据集上达到了74.8%的平均精度AP并在NVIDIA V100 GPU上以每秒141帧的速度运行。在CrowdPose基准测试中RTMO-1实现了73.2%的AP为单阶段方法创造了新的最先进水平。本工作的关键贡献包括针对密集预测场景的一种创新坐标分类技术利用坐标bin进行精确的关键点定位同时解决实例大小和复杂性带来的挑战。提出一种新的实时单阶段多人姿态估计方法无缝集成坐标分类与YOLO架构实现了现有自上而下和单阶段多人姿态估计方法中性能与速度的最佳平衡。 2 Related Works One-Stage Pose Estimator 受到单阶段目标检测算法进步的启发一系列单阶段姿态估计方法出现了。这些方法在单次前向传播中执行MPPE并直接从预定的根位置回归实例特定关键点。替代方法如PETR和ED-Pose将姿态估计视为一组预测问题建立了端到端的全流程框架进行关键点回归。除了回归解决方案外技术如FCPose, InsPose和CID利用动态卷积或注意力机制生成实例特定 Heatmap 以进行关键点定位。与两阶段姿态估计方法相比单阶段方法消除了预处理例如对于自上而下方法的人体检测和后处理例如对于自下而上方法的关键点分组的需要。这导致了两项好处一致的推理时间与图像中的实例数量无关简化了一条 Pipeline 便于部署和实际应用。尽管具有这些优势但现有的单阶段方法在平衡高精度和实时推理方面仍然存在困难。高精度模型[42, 46]通常依赖于资源密集的 Backbone 网络例如HRNet或Swin这使得实时估计变得具有挑战性。相反实时模型[30, 33]在性能上妥协。作者的模型解决了这一权衡既提供了高精度又提供了快速的实时推理。 Coordinate Classification SimCC和RTMPose都采用了坐标分类进行姿态估计。这些方法根据水平轴和垂直轴上的子像素bin对关键点进行分类实现空间区分而无需依赖高分辨率特征图。这有效地平衡了准确度和速度。然而对于密集预测方法将bin跨越整个图像是不切实际的因为需要大量bin以减小量化误差这会导致许多bin对于单个实例是多余的从而降低效率。DFL在预定义的 Anchor 点周围设置bin这可能不包括大型实例的关键点并且对于小型实例可能会导致显著的量化误差。作者的方法根据每个实例的大小分配bin将它们放置在局部区域内优化bin利用率确保覆盖关键点并最小化量化误差。 Transformer-Enhanced Pose Estimation 基于Transformer的结构在姿态估计中变得无处不在利用最先进的Transformer Backbone 网络以提高准确性如ViTPose或结合Transformer编码器与CNN以捕获空间关系。TokenPose和Poseur证明了基于 Token 的关键点嵌入在 Heatmap 和回归方法中都是有效的利用视觉线索和解剖学约束。 PETR和ED-Pose将Transformer引入端到端多人在图像中的姿态估计RTMPose将自注意力与基于SimCC的框架相结合进行关键点依赖分析这种方法也被RTMO所采用。虽然位置编码是注意力的标准作者创新性地将其用于为每个空间bin形成表示向量以计算bin-keypoint相似性这有助于提高准确的局部化预测。 3 Methodology 动态坐标分类器通过生成一维 Heatmap 预测的详细过程可以在第3.1节中找到, 而基于MLE的 Heatmap 损失则可以在第 3.2 节中找到。完整的训练和推理过程可以在第 3.3 节中找到。 Dynamic Coordinate Classifier 每个网格单元与对应的姿态特征包含了关键点相对于网格的位移。以前的工作直接回归这些位移因此性能较差。作者的研究探讨了将坐标分类与单阶段姿态估计框架集成以提高关键点定位准确性的方法。现有坐标分类方法的一个显著局限性在于它们的静态bin分配策略。为了解决这个问题作者引入了Dynamic Coordinate Classifier (DCC)该方法在两个一维 Heatmap 中动态分配范围并为bin形成表示从而有效地解决了密集预测环境中坐标分类的兼容性问题。动态bin分配在自上而下的姿态估计器中使用的坐标分类技术将bin分配到整个输入图像。这种方法导致了单阶段方法中的bin浪费因为每个主体只占据了图像的一小部分。DFL在预定义的 Anchor 点附近设置bin这可能会遗漏大型实例的关键点并在小型实例中导致严重的量化误差。DCC通过动态地为每个实例的边界框分配bin来解决这个问题确保局部覆盖。边界框最初使用点卷积层进行回归然后通过一个1.25的因子扩展以覆盖所有关键点即使在不准确的预测情况下也是如此。这些扩展的边界框沿着水平和垂直轴均匀地划分成bin。每个水平bin的x坐标使用以下公式计算 MLE for Coordinate Classification 与KLD不同, 作者的MLE损失允许可学习的方差, 表示不确定性。这种不确定性学习框架会自动调整各种样本的难度。对于困难的样本, 模型预测较大的方差以促进优化。对于简单的样本, 它预测较小的方差, 有助于提高准确性。采用可学习的方差在KLD中是有问题的 - 模型倾向于预测较大的方差以压缩目标分布, 因为这将简化学习。 Training and Inference 4 Experiments Settings 数据集实验主要在COCO2017 Keypoint Detection基准测试上进行包括约25万个包含17个关键点的实例。在val2017和测试-dev集上与最先进的方法进行了性能比较。为了探索模型性能的极限训练还扩展到了其他数据集CrowdPoseAICMPIIJHMDBHalpe和PoseTrack18。这些标注被转换为COCO格式。RTMO还在CrowdPose基准测试上进行了评估该测试由于场景复杂拥挤且受阻碍而闻名包括20万张图像和大约8万个包含14个关键点的实例。OKS-based平均精度AP作为两个数据集的评估指标。实现细节 RTMO Pose被用于比较 RTMDetno一个高度高效的目标检测模型作为自上而下模型的目标检测器。由于自上而下模型在图像中人数增加时会变慢作者将COCO val2017集按人数划分并相应地评估自上而下模型的速度。如图3所示RTMO系列在性能和速度上都优于可比轻量级单阶段方法。与自上而下模型相比RMO-m和RMO-l的准确性与RTMPose-m和RTMPose-l相当且在图像中人数更多时更快。使用ONNXRuntimeRMO与RTMPose在速度上相当大约有四个人时。使用TensorRT FP16RMO在有两或更多人时更快。这证明了RMO在多行人场景中的优势。重要的是尽管图像中处理标记的数量随人数变化推理延迟的差异微乎其微。例如RMO-l在GPU子集上的延迟比在只有一个人的子集上高约0.1 ms占总延迟的约0.5%。在COCO test-dev上作者对RTMO与领先的单阶段姿态估计器进行了评估结果如表1所示。RTMO在速度和精度方面取得了显著的进步。具体来说RTMO-s使用ResNet-50 Backbone 网络比PETR快十倍同时保持相似的准确性。与轻量级模型KAPAO和YOLO-Pose相比RTMO在不同的模型大小上始终优于其他模型。当在COCO train2017上进行训练时RTMO-l在所有测试模型中表现第二好。性能最好的模型是ED-Pose使用Swin-L Backbone 网络但非常沉重不适合部署。使用相同的ResNet-50 Backbone 网络RTMO-l比ED-Pose提高了1.1%的AP并且更快。此外将ED-Pose转移到ONNX格式导致其延迟比PyTorch模型慢约1.5秒/帧。相比之下RTMO-l的ONNX模型仅需19.1ms处理一张图像。通过进一步在额外的多人姿态数据集上进行训练RTMO-l在单阶段姿态估计器中准确度方面最佳。为了评估RTMO在具有挑战性的场景下的性能作者在CrowdPose基准测试上对其进行了测试该基准测试的特征是密集人群、重要的人重叠和遮挡。结果如表2所示。在自下而上和单阶段方法中RTMO-s的准确度与DEKR相当但仅使用15%的参数。当在CrowdPose数据集上进行训练时RTMO-l超过了使用Swin-L Backbone 网络的ED-Pose尽管具有较小的模型大小。值得注意的是RTMO-l在中等和困难样本上的性能超过了ED-Pose表明该模型在具有挑战性的情况下非常有效。此外通过使用额外的训练数据RTMO-l达到了最先进的81.7% AP突显了该模型的能力。 Quantitative Results RTMO采用坐标分类方法并在具有挑战性的多行人场景中表现出强大的性能其中个体相对较小且经常发生遮挡。图4揭示了在如此困难的情况下RTMO能够生成空间准确的heatmap从而为每个关键点提供稳健和上下文敏感的预测。 Ablation Study 分类与回归为了评估坐标分类与回归的有效性作者将模型的1D heatmap生成替换为全连接层进行回归并使用OKS损失进行监督。表3比较了性能。使用DCC模块和MLE损失坐标分类在COCO上的回归性能比回归提高了2.1%的AP。坐标分类的损失与其他具有坐标分类的姿势估计方法相比作者的研究认为KLD不适合RTMO。表3中的证据表明与作者的MLE损失相比使用KLD的准确度较低。作者将这种改进归因于MLE损失函数中包含可学习的方差这有助于在硬样本和易样本之间平衡学习。具体来说在一阶段姿势估计器框架中每个网格的难度水平不同并受到多个因素的影响包括分配给网格的实例姿势和大小以及网格和实例之间的相对位置。KLD无法考虑这种可变性因此在这个上下文中效率较低。坐标分类的动态策略作者首先采用了一种类似于DFL的静态坐标分类策略其中每个网格周围的bin在固定范围内分布。这种方法在COCO数据集上优于回归方法但在CrowdPose上表现不佳。将Dynamic Bin Allocation (DBA)策略引入到这种 Baseline 中导致两个数据集上的性能均下降。这是合理的因为每个样本的bin语义在不同样本上不同且没有相应的表示调整。这个问题通过引入Dynamic Bin Encoding (DBE)得到了解决。使用DBE作者的DCC方法在两个数据集上都超过了静态策略的有效性。此外如果没有动态bin编码DBE相邻空间位置的概率可以显著变化这与相邻空间位置应该具有相似概率的预期相反。相反结合DBE可以导致更平滑的输出heatmap表明通过启用能够更好地捕捉相邻位置相似性的表示向量解码器训练得到了改善。特征图选择。特征金字塔利用多尺度特征检测不同大小实例较深的特征通常检测较大物体。作者的初始模型受到YOLOX的启发使用了P3、P4、P5特征步长分别为8、16和32像素。然而P3在模型头中贡献了78.5%的FLOPs而仅占10.7%的正确检测率。为了提高效率作者关注P4和P5。如表4所示省略P3导致了速度显著提高但准确性损失很小表明仅P4和P5对于多行人姿态估计是有效的。这表明P3在检测较小实例中的作用可以通过剩余特征得到充分补偿。 5 Conclusion 总之作者的RTMO模型显著提高了单阶段多行人姿态估计中的速度与精度权衡。通过将坐标分类集成到YOLO基于的框架中作者实现了实时处理和高精度。作者的方法具有动态坐标分类器和基于最大似然估计的损失函数有效地提高了密集预测模型中的位置精度。这一突破不仅增强了姿态估计而且为未来在密集预测视觉检测任务方面的进一步发展奠定了坚实的基础。 #ViTs~ 这里提出了一种比较分析各种自监督视觉TransformerViTs重点关注它们的局部代表性。受大型语言模型的启发作者研究了ViTs在几乎不需要微调的情况下执行各种计算机视觉任务的能力。作者设计了一个评估框架用于分析在稀疏语义分割、实例识别、目标检索和跟踪等背景下局部表示的质量。在本文中提出了一种比较分析各种自监督视觉 Transformer ViTs重点关注它们的局部代表性。受大型语言模型的启发作者研究了ViTs在几乎不需要微调的情况下执行各种计算机视觉任务的能力。作者设计了一个评估框架用于分析在稀疏语义分割、实例识别、目标检索和跟踪等背景下局部即块级表示的质量。作者发现对比学习方法如DINO生成的通用块表示可以立即应用于下游任务而无需参数调优相比之下Mask图像建模方法。后者方法例如在Mask自动编码器中学习的嵌入具有高方差特征这些特征会损害基于距离的算法如k-NN并且对大多数下游任务不包含有用信息。此外作者证明了通过移除这些高方差特征可以提高k-NN并对本文中的基准和Scale-MAE这是Mask自动编码器的最新扩展进行了分析。最后作者发现一个目标实例检索设置在这个设置中预训练在两个数量级更多的数据上的DINOv2模型其性能不如计算量较小的DINO模型。 1 Introduction 自然语言处理领域的最新进展催生出了通用模型这些模型在经过大规模预训练后可以在没有针对特定任务的微调的情况下执行各种与语言相关的任务。基于自监督 Transformer 的语言模型在提示或通过在上下文中学习的方式只需几个例子上实现了在翻译、问答和常识推理等任务上的竞争性能。自监督 Transformer 在计算机视觉领域也变得越来越受欢迎。两种截然不同的自监督学习范式已经证明在视觉 Transformer ViTs上具有良好的性能基于对比学习的例如MOCO或DINO和基于Mask图像建模的例如MAE或SimMIM。这些模型是否具有计算机视觉任务的通用能力类似于自然语言处理模型中观察到的能力仍然是一个未回答的问题。由于ViTs没有文本输入因此评估它们在下游任务上的零样本能力具有挑战性。大多数ViTs为整个图像通常为[CLS]Token生成一个嵌入向量并为每个局部块生成一个嵌入向量。在本论文中关注的是需要局部意识的视觉任务如图像分割和目标跟踪。作者提出了利用块表示的少量样本评估方法。为了最小化特定任务的参数调优作者采用了两种方法无需调整参数的k最近邻k-NN和具有单层可训练参数的线性检测。预训练ViTs对于图像 Level 的任务如图像分类的全图像表示在文献中得到了相对较好的探索。除了相对较大的任务特定head之外对整个backbone进行微调仍然可以获得优越的分割和跟踪性能。对这些模型的分析超出了本文的范围因为它们的出色性能不仅来自自监督预训练而且还受到head架构和用于fine-tuning的数据的影响。本文的重点在于通过使用仅有的几个Token样本暴露出自监督ViTs的固有能力。作者发现尽管Mask图像建模产生的backbone具有较好的fine-tuning性能但预训练的块嵌入却远不如对比学习方法学习的近邻方法的好。作者深入研究了这一现象并确定了大约200个与作者的下游任务相关的无关数据集特征。这些特征与直觉相反不包含作者考虑的下游任务所需的有用信息但在所有特征中具有最高的方差。移除这些特征可以提高大多数任务上的k-NN性能。作者进一步探索了块嵌入在多个图像中识别同一目标实例的有用性。在一个卫星图像数据集上进行了实验并在几种图像变换下测量块嵌入的质量。作者发现DINO意外地超过了其新兄弟DINOv2。此外在区分细粒度目标类别方面测量了块嵌入的质量。最后在多目标跟踪数据集上进行了目标关联实验。作者发现DINO和DINOv2显著优于Mask图像模型和监督ViTs使其成为视频中最适合的目标检索。主要贡献如下设计了一个评估框架和少样本数据集来分析预训练视觉 Transformer 在局部意识任务中的内在能力。作者在作者的框架上使用五个代表性的ViTs在三个任务块分类、实例和细粒度检索以及视频帧中的目标关联上进行分析比较。作者发现与Mask图像建模相比对比预训练可以产生显著更多的通用块嵌入这些嵌入可以在不需要微调的情况下直接应用于下游任务。作者识别出基于k-NN的方法中MAE类似模型性能不佳的原因。在移除高方差特征在作者的实验中为200个后MAE类似模型在k-NN上的性能显著提高。作者证明移除这些特征不仅对作者所提出的基准有益还对其他研究中提出的基准有益。例如Scale-MAE [25]它评估了一个在航空图像上训练的类似MAE的网络在不同的分辨率和使用k-NN在计算出的表示无论是所有块的平均值还是[CLS]Token上与其他最先进的算法进行比较。作者观察到同样的高方差特征问题并在移除200个这样的特征后展示了优越的性能。作者发现在20倍未标注数据的训练下DINOv2在大多数场景中超过了所有其他ViTs包括在图像腐败的块分类的鲁棒性方面。令人惊讶的是它在识别变换图像中覆盖相同目标实例的块时表现不如大多数ViTs这表明盲目增加更多的数据可能并不能普遍提高所有结果。 2 Related work 视觉 Transformer ViT的出现及其在许多下游任务中的应用为计算机视觉开辟了新的方向包括图像分割、图像分类和目标检测。与语言模型不同ViT的大小没有达到175B参数因此扩展ViTs并不容易。两项工作DINOv2和ViT-22B声称他们的核心技术贡献在于稳定训练大规模ViTs在数百万张图像上的训练。 Park和Kim 分析了多头自注意力MSA和ViTs的几个属性。他们发现MSAs将损失函数平坦化从而减轻了其非凸性问题的影响。他们还观察到MSAs和卷积层互补表明MSAs可以作为低通滤波器而卷积层则可以作为高通滤波器。Park等人[21]分析了基于对比学习CL和Mask图像建模MIM的ViT方法之间的差异并比较了它们在下游任务上的性能。他们证明CL方法比MIM方法更有效地捕获长程全局模式例如物体形状。其次他们证明基于CL的方法更倾向于形状而基于MIM的方法更倾向于纹理。Raghu等人[24]对ViTs和CNNs在几个图像分类基准上的内部表示结构进行了分析。他们证明ViTs的网络层具有比CNN更均匀的表示这主要是由于自注意力的作用它可以使信息在早期聚合以及ViT的残差连接它们也可以将特征从较低 Level 传播到较高 Level 。其他工作专注于分析ViTs的鲁棒性。Bhojanapalli等人[2]研究了ViT模型对输入和模型扰动的鲁棒性用于图像分类。Bhojanapalli等人[2]表明 Transformer 对几乎任何单个层的删除都具有鲁棒性并且当预训练在足够大的数据集上时ViTs在各种扰动下表现出不逊于ResNet对应物的好结果。Paul和Chen[22]分析了ViTs对几种常见的破坏、扰动、分布转移和自然对抗样本的鲁棒性。他们还分析和演示了ViTs在各种方面的优越鲁棒性例如遮蔽、能量/损失函数分析和在鲁棒分类数据集上的对高频伪迹的敏感性。[17]研究了Transformers在分类任务中对严重遮挡、扰动和域转移的鲁棒性。他们的发现表明ViTs与CNNs相比对局部纹理的偏见显著较小。另一种有助于模型普遍性的研究并使零样本图像分类可能还有其他视觉任务成为可能涉及视觉语言模型包括对比模型如CLIP和自回归模型如CM3Leon。对这些模型的分析超出了本文的范围。虽然不是完全相同的现象但[8]中也分析了一种类似的现象即在特征图中出现伪迹。该研究表明在监督和自监督的视觉 Transformer ViTs中推理过程中会在图像的低信息背景区域出现一些伪迹。值得注意的是作者对MAE的观察是特征方差较大的特征的存在而[8]观察到某些Token出现了伪迹。作者的工作分析了并比较了不同ViTs关于它们在局部表示图像的能力。作者探索并比较了从使用不同自监督或监督策略训练的ViTs中获得的局部块表示。为此作者在少量样本设置下探究了块级特征的质量用于密集块分类、细粒度检索和跟踪。 3 Can Transformers Recognize Semantics of Patches? 在本文中作者使用了五个ViT模型。MAE和SimMIM被用作Mask图像建模的代表模型。对比模型由DINO 和其对应模型DINOv2表示与本工作中使用的所有其他ViTs不同DINOv2是在比ImageNet更大的数据集上进行预训练的。作者使用监督ViT作为 Baseline 并在一个设置中使用iBOT它像DINO一样在ImageNet上进行训练但使用类似于DINOv2的损失项。这些模型在附录A.1中详细描述。为了分析ViT模型的局部表示作者首先研究了它们在块级分类方面的能力。为此在Cityscapes数据集上设置了一个少样本块级分类实验。城市景观Cityscapes[6]的训练集包括18个城市中的2975张图像。除非另有说明作者使用每个城市4张图像的训练数据集总共72张图像。后来作者还探索了通过增加或减少这个数量的训练样本对性能的影响。城市景观数据集的原验证集包含500张图像这些图像来自3个不同的城市。对于作者进行分析作者选择了每个城市的10张图像总共30张图像。作者将城市景观数据集的像素密集分割标签转换为块级类别通过在每个块中选择最常见类别。作者通过测量像素准确率和分割mIoU来评估表示的质量。由于作者在分析中使用的ViT模型作为输入图像大小为224x224作者将大小为1024x2048的图像分割成256x256的块并将每个块视为单独的图像。这些块被重新缩放到224x224并传递给预训练的 Transformer 。作者提取并存储所有图像训练和验证以及所有ViTs的对应块的表示。作者使用两个简单的分类器来分析潜在的表示k-NNk1和拟合线性softmax分类器。这两种方法都在少量训练集的块表示上进行训练。选择这两个基本方法的动机是了解给定物体类别的块是否在表示空间中与其他物体类别线性可分或聚类。在MAE的情况下作者遵循[15]它反过来引用了[10]的建议在线性层之前对提取的特征进行批归一化。作者注意到使用批归一化进行线性检测可以获得几乎2.5倍更好的结果。作者没有在SimMIM中使用批归一化因为添加它会使性能变差。对于线性模型训练集的大小很重要而对于k-NN它的重要性较小。在图1中展示了不同训练集大小时k-NN和线性分类器的性能。作者首先发现线性模型通常比k-NN获得更好的结果尤其是在有更多的训练数据时。然而对于DINO版本和监督ViTk-NN和线性分类器之间的性能相当。相反MAE表示获得的k-NN性能令人惊讶地差。虽然它的线性结果只略低于其DINO对应物但k-NN分类器导致大约4倍更差的表现。接下来对图2中网络不同层上提取的表示进行详细分析以了解k-NN块分类性能。在有监督ViT和DINO之间表现非常相似。从第一层到第八层性能逐渐提高然后趋于饱和。最后两层性能稍微下降这在有监督ViT中更为明显。 DINOv2的行为相当不同。在第一层它的性能比DINO差。对于最容易的五种目标类别_road_, vegetation, sky, car, _building_其性能在最后层赶上。对于其他更难的目标类别DINOv2在第十层与DINO和有监督ViT持平然后在第十一层和第十二层显著超过它们。特别是_bus_类别的IoU从第九层的0.059跳到第十二层的0.729。因此DINOv2的优势主要来自更难的类别。再次作者观察到在MAE的情况下k-NN性能较差。SimMIM另一个用于重构图像的ViT在中间层表现比MAE好但只在中间层。对于更容易的目标类别这个差异更加显著。最后三层的质量与MAE相似。根据[19]DINOv2在与其他预训练视觉 Transformer ViTs的比较中通过在ImageNet的域转移版本上的性能被认为是非常鲁棒的。在本小节中作者将这种分析扩展到图像块表示层面。有人可以声称对各种退化的鲁棒性可能归因于训练过程中使用的增强。具体来说使用颜色增强增强的模型被假设表现出更高的对那些退化的抵抗力模糊、高斯噪声等。然而根据[15]基于颜色抖动的增强会降低其性能。这表明性能和对退化的鲁棒性之间可能存在权衡。由于计算限制进一步研究这个假设留给了未来的工作。图3表明与DINO和监督ViT相比DINOv2在最小模糊半径下相对更具鲁棒性。对于更强的模糊版本这三个模型降级几乎相同。MAE降级相对较快。kNN的结果与线性检测的结果相似除了MAE对于MAE即使是最小的降级也会导致预测崩溃kNN预测所有块通常为_vegetation_或_sky_的同一类别。根据[21]基于Mask的方法如MAE更依赖于高频特征而基于对比训练的方法包括DINO更依赖于低频特征。这意味着DINO表示相对于高频噪声应该更鲁棒而MAE表示在低频噪声下应该表现更好。在作者的实验中MAE在所有噪声频率下表现都更差。相反监督ViT对高频噪声具有100%的鲁棒性。这可以解释为其目标学习整个图像的目标类别使其最后层忘记无关的高频信息。类似的现象在[16]中也有报道。作者在ADE20K上得到了类似的结果。作者创建了一个类似的小样本ADE20K训练数据子集它由训练集每个类别4张图像总共600张和验证集300张中的600张图像组成大小为672x448。对于k-NN和线性检测作者在作者测试的ViTs见附录A.3中的表2之间得到了相似的相对性能。 4 Enhancing k-NN Accuracy in Masked Image Modeling 在这个部分作者解决了一个与基于MIM的k-NN任务相关的挑战。问题在于与其它特征相比某些特征具有显著更高的方差。作者提出了一种解决方案然后更深入地研究了这些特征所包含的信息。 Why MIM-based models have poor k-NN performance. 在作者的实验中作者发现MAE的块嵌入在线性检测上表现得相当好但在k-NN上却失败了。作者假设MAE的块嵌入在某些维度上可能具有很高的方差这可能会极大地增加同一类别块之间的距离从而损害k-NN而不会影响可能是小边缘线性模型的性能。 MAE和SimMIM的特征方差非常多样化。作者计算了所有模型的每个特征的方差。在图4(a)中作者按降序排列所有768个特征的方差。作者观察到监督ViT和DINO的所有特征的方差相对均匀。然而对于MAE和SimMIM有多个特征具有非常高的方差并且存在接近零方差特征的长尾巴。 Simple Remedy 作者删除了具有最高方差的前m个特征并使用缩短的嵌入进行了k-NN和线性检测的少量样本分割性能测量。如图4(b)所示仅删除m10个特征MAE的k-NN性能从0.058跃升到0.170而线性检测的性能并未受到影响。当m200时k-NN性能进一步增加到0.295。之后k-NN和线性检测的得分开始下降。这一发现表明对于线性模型和k-NN大约四分之一MAE嵌入特征对于块级图像分割是不利的。另一方面这些特征构成了嵌入特征的近似所有方差。作者选择了一个最近基于MIM的算法它采用k-NN进行性能比较与最先进的算法进行比较。作者通过删除其m200个高方差特征进行了实验。 Scale-MAE的训练方式是具有一个有意义的[CLS]Token可以与块Token的平均值一起用作图像表示。作者使用[CLS]Token表示进行图像分类使用k-NN并显示它超过了MAE。作者复制了结果并确认块向量的平均值确实比[CLS]差。然而在从[CLS]中删除200个高方差特征后在UCMerced和RESISC数据集的几乎所有地面采样距离GSD值下平均块表示超过了利用[CLS]表示的方法。结果如图4所示。作者观察到从[CLS]中删除200个高方差特征并不显著改变结果然而一旦作者使用图像块的平均向量并在块表示中删除200个高方差特征它们就超过了利用[CLS]表示的方法。 What information do these features hold? 一个假设是, 这些特征对于在同一类别中识别特定实例的物体或区分细粒度的物体类别是必要的。在第五节中, 作者提供了对此假设的否定证据删除高方差特征可以大大改善检索性能,以至于失去一些实例特定信息的负面影响, 如果这是真的, 是无法检测到的。作者对所有其他ViTs进行了类似的分析并将其结果可视化在图4(c)上。当删除高方差特征时提高k-NN性能的现象仅存在于使用像素级重建目标的模型中。对于其他ViTs删除高方差特征不会提高k-NN性能但也不会损害它。线性检测性能在这些删除中也保持稳健。对于MAE特征归一化具有类似的效果但对于SimMIM却不是这样。作者通过将线性模型的预训练批归一化层应用到MAE嵌入中并在将其传递给k-NN分类器之前创建了另一个版本的MAE嵌入。它通过删除m200个特征的方式几乎同样地提高了k-NN性能。它还提高了SimMIM的k-NN性能但线性检测却严重恶化。作者得出的结论是特征归一化是减少高方差特征负面影响的一种替代策略但不是完全相同的方法。作者确定了从Cityscapes、ADE20K和FAIR1M数据集中提取的块表示的200个高方差特征。其中196个特征在Cityscapes和ADE20K之间共享而在Cityscapes和FAIR1M之间共享192个特征。总之高方差特征不包含语义或全局信息它们存储了一些有用的像素级细节这些细节在图像重构中是有益的并且在所有基于MIM的方法和数据集中都被一致检测到。 5 At Which Granularity Transformers Detect Objects? 在第3节中分析了ViTs在目标 Level 的少样本语义分割任务上的性能。这涉及将预定义的目标如飞机和汽车分配给每个包含这些目标的块。这导致了下一个问题即ViTs是否可以学习区分同一类别但不同类型的目标如汽车类型或飞机类型或者当有其他实例可用时ViTs是否可以很好地区分同一确切的目标。方法论。作者使用FAIR1M这是一个设计用于细粒度目标检测的大型卫星图像数据集。请注意作者测试的ViTs中没有一个是在卫星图像上预训练的甚至DINOv2据作者所知它也没有在卫星图像上预训练。FAIR1M中的物体根据5个超级类别进行标注飞机、船、车辆、法院和公路以及37个细粒度类别飞机类型、船舶类型等。标注形式为旋转边界框不具有像素精度。然而据作者所知所有物体实例都出现在同一张图像上。对于这些实验包括最近的一个MAE的扩展即Scale-MAE它专门针对卫星图像进行了训练。为了测试作者的假设即高方差特征会影响基于距离的指标作者还将使用MAE-200和Scale-MAE-200。这些变体从表示向量中删除了200个高方差特征。这些图像的大小各不相同通常比1000x1000像素大。作者将所有图像都裁剪到224x224像素的块并保留每个细粒度类别中的每个块的8个实例。这确保了作者的数据集包含每个类别中的至少8个实例但实际上它包含更多常见物体的实例。附录中的表3列出了数据集统计信息。作者有196个图像每个ViT-B/16模型有196个块而DINOv2有256个块。接下来作者创建了所有图像的变换版本。对于第一组实验作者应用了水平位移123和4像素。对于第二组实验作者将图像逆时针旋转51015和20度。对于第三组实验作者按0.80.91.1和1.2的比例缩放图像。对于第四和第五组实验作者应用了模糊和高斯噪声降质。作者计算了所有这些图像的块表示。这创建了许多具有相同物体实例的图像。对于每个覆盖有标注目标的变换图像的块作者从原始图像块的完整集合中检索最近的块。理想情况下最近的块应该是未经过模糊、噪声或位移的原始块。否则最佳选择应该是同一细粒度类别的另一个实例第三好的选择是同一超级类别的物体块。最坏的情况是最近的块属于另一个类别或背景块。对于每个模型和图像变换 Level 作者计算了哪些块的最近块属于所提到的类别。图像降级会导致所有指标降低。结果如6所示。当目标块变换较小例如具有10像素标准差的高斯噪声时对于所有模型最接近的块几乎总是原始块。对于MAE在约40-50%的块中最接近的块是正确的但对于剩下的块最接近的块是背景块。随着变换的增强所有模型的正确块比例降低剩余块中有超过一半是与同一细粒度目标类别的块再次除了MAE。对于涉及图像平移、旋转和缩放等实验第一级评估称为相同块并不简单因为立即不清楚哪个块对应原始块。作者定义相应的块为包含旋转块中心点的块。作者还注意到几个靠近旋转块角落的块可能没有对应的块这限制了相同块检索的准确度。结果和上限一起显示在图6中。作者观察到对于旋转和缩放所有模型在5度旋转和少量缩放下表现出显著的较低鲁棒性与尝试的最高模糊半径或噪声水平相比。模型性能的顺序与其他图像变换一致DINO表现最好其次是MAE以及去除了200个高方差特征的Scale-MAE然后是DINOv2和监督ViT其中MAE作为远离突出物。值得注意的是Scale-MAE显著优于MAE然而删除其200个高方差特征也显著提高了其性能。 DINO是最鲁棒的一个。在测试的所有ViTs中DINO在所有变换下都是最鲁棒的。令人惊讶的是DINOv2在所有指标下都不如DINO鲁棒且与监督ViT类似。为了验证DINOv2的这种劣势是否来自块级损失项或者模型和数据集的规模对iBOT嵌入进行了相同的分析。iBOT比DINO执行得更好附录中的图11这意味着块级损失不能成为借口。作者注意到大多数检索到的块来自同一图像块。一个可能的解释是块嵌入包含图像级信息。作者重复这个实验将原始图像的块从可用块的集合中删除。在这种设置下最近的块可以是同一细粒度类别、同一超类别、错误的超类别也可以是背景块。在这里DINOv2处于领先地位监督ViT和DINO稍逊一筹而MAE表现不佳图7。改进MAE的性能。作者重复了这个实验使用了缩短的MAE和Scale-MAE去掉了200个最高方差特征。这个版本的MAE和Scale-MAE的性能显著优于原始的MAE和Scale-MAE版本并超过了DINOv2和监督ViT仅次于DINO。这个结果表明删除MAE嵌入的高方差特征不仅有助于语义分割而且有助于在变换图像中识别特定目标实例。另一方面这也增加了高方差特征不能提供识别实例所需任何独特信息的证据因为几乎在所有小变形块上图6都表现出了理想性能。 6 How Well ViTs Track Objects? 目标跟踪需要在一个视频中识别同一目标实例在不同帧之间。在本节中分析了块嵌入的鲁棒性, 因为目标会经历外观变化。作者在MOT17数据集上重复实验, 并看到类似的行为。对比学习方法在基于Mask图像建模的 ViTs上明显优于ViTs。结果见附录A.3。 7 Conclusion and Limitations 作者对自监督ViT模型提取的局部块嵌入的质量及其属性进行了全面的分析和比较。作者观察到对比学习基础的DINO系列在监督和Mask图像建模方法上都优于其他方法。此外作者识别并研究了MAE的低kNN分类性能限制了其在没有微调的情况下的使用。作者发现具有相对较高方差的特征对块分类或检索任务不具有信息量而它们的删除可以提高kNN性能同时不影响线性检测。局限性。由于计算成本高作者无法重新训练网络从而无法分析在讨论的视觉 Transformer ViTs中的架构选择或损失组成部分。因此作者的比较仅限于现有的预训练网络。 The Choice of Self-supervised Vision Transformers 作者使用了以下预训练视觉 Transformer 进行作者的分析。 DINO是一个自监督的视觉 Transformer 它利用一个自蒸馏学生-老师框架。相同图像的不同增强版本通过老师网络和学生网络学生网络被优化为产生与老师相同的[CLS]向量。然后老师权重从学生的权重中使用指数移动平均进行更新。 Mask自动编码器MAE是一种用于重建原始图像的模型它利用部分观测进行训练。在训练过程中输入图像的大随机部分被遮挡。只有可见的块被编码器应用。一个相对轻量级的解码器将编码器的输出作为输入并将[MASK]Token作为被遮挡的块的输入并尝试重建原始图像。作者使用预训练的编码器作为块的特征提取器。 SimMIM是另一个使用Mask图像建模的视觉 Transformer 框架。与MAE的主要区别在于SimMIM在编码器输出之上使用了一个简单的线性解码器。在一个实验中作者分析了iBOT这是另一个老师-学生框架它还针对学生网络遮挡了一些块。除了DINO的目标之外它还有一个损失项强迫学生网络在未遮挡图像上生成与老师相似的被遮挡块的块表示。 DINOv2是iBOT的一个较新的扩展它在一个更大的数据集上进行训练。该数据集包括来自ImageNet-2Mapillary SLS和Google Landmarks v2的1700万张图像以及从大量网络爬取图像中检索的1250万张相似于预选的27个公开可用数据集的图像。主模型具有超过10亿参数这迫使作者使用多种正则化技术来稳定训练。他们还提供了主模型的精馏版本这是作者工作中使用的版本。最后作者使用一个在ImageNet-1k上训练的带有图像级标签的监督 Baseline 。在[CLS]Token之上训练了一个线性层。在本论文中它将被称为监督ViT。所有方法都应用于多种大小的ViTs。在本工作中只关注一个对所有方法都可用的大小ViT-B/16它有8600万个参数。DINOv2是唯一没有ViT-B/16版本的模型。相反作者使用了最接近的一个ViT-B/14它是从ViT-g/14模型中提炼出来的。这是DINOv2与其他方法之间的另一个区别块稍小图像大小为224x224px的图像有更大的DINOv2块数量。这些模型在预训练期间使用的数据增强类型也有所不同。MAE只使用了简单的缩放和翻转。DINO还额外使用了颜色抖动和模糊并且在老师和学生网络之间存在一些差异。监督ViT使用RandAugment的一部分技巧并使用了Mixup。DINOv2的增强方法类似于DINO。更多信息可以在表1中找到。作者将图像传递给这些ViTs并从第12层提取所有块嵌入。所有ViTs在这些嵌入之上应用层归一化[1]。为了保持一致性作者在提取ViTs内部层的嵌入时也应用层归一化。 Data Augmentations used in ViTs 作者测试的所有ViTs在预训练阶段都使用了数据增强。在本节中, 作者将讨论使用的不同增强策略之间的差异。在DINO和DINOv2中, 一张图像被裁剪成两个全局裁剪或视图, 用于老师网络, 多个局部视图用于学生网络。它们为不同的视图应用不同的增强。MAE只应用裁剪增强。请参阅表1以获取更多信息。对于缩放裁剪, 所有模型都选择 224 作为输出大小。监督ViT采用了以下技术进行数据增强。在表1中, 作者总结了增强的详细信息。 Results on more datasets 作者还在ADE20K上进行了块分类实验。如表2所示各种ViTs在k-NN和线性检测设置下的排名相似。图9显示了在MOT17数据集上进行跟踪实验的结果。 Statistics of the Few-shot Version of FAIR1M Dataset 作者创建了FAIR1M训练集的一个子集确保每个细粒度目标类别至少出现8张图像。作者将原始图像裁剪成224x224像素的块并为每个块保留包含的目标类别列表。作者定义类别A在块中存在如果至少有一个类型为A的旋转边界框其面积至少为块的1/3。对于每个细粒度类别作者选择了包含该类别的8张图像。然后作者从队列中删除这些图像并继续处理下一个目标类别。这样作者收集了37x8-1图像因为有一个特定的细粒度类别_bus_只有7个块。表3显示了作者的295张图像的每个类别的块数。请注意DINOv2每个图像有256个块而其他所有模型每个图像有196个块。 Reconstruction Error Analysis for MAE 为了理解MAE的高方差特征中存储了什么信息如果删除它们不会损害块分类或块检索性能作者进行了图像重建实验。假设被删除的特征在某些重建属性中发挥了作用。使用MAE的预训练解码器在两种设置下进行实验当没有块被遮挡时以及当75%的块被遮挡时。如表4所示当高方差特征用零填充时重建指标略有恶化。这表明这些特征包含关于如何重构图像的知识但对于大多数其他下游任务并不是必要的。使用均方误差MSE、峰值信噪比PSNR和结构相似性指数SSIM指标评估重建准确性。 Frequency Noise Computation 在图3中展示了一些针对各种降质包括基于频率的随机噪声的降解分析及其结果。在本节中将简要介绍这些实验并说明它们的设置。 Additional Experiments on FAIR1M a.7.1 DINO vs. iBOT vs. DINOv2 第5节中最令人惊讶的结果是与DINOv2相比DINO表示在给定一个损坏的块时检索最接近的块方面表现更好。DINOv2与DINO之间存在一系列差异这些差异可以分为两类与损失项相关的差异和与模型和数据集规模的差异相关的差异。DINOv2的新的块级损失项首次出现在iBOT中。在这里在iBOT上进行了与DINO和DINOv2相同的实验以比较它们。如图11所示iBOT至少与DINO一样好。这意味着新的损失项不能归因于DINOv2的检索性能较差。 Discussion on Tiling 有许多处理这种图像的方法, 包括将它们缩放到较小的尺寸, 将它们分割成较小的块进行实验 (然后将这些块组合在一起以重构原始图像大小), 或者强迫ViT处理完整的图像, 通过插值位置嵌入。将图像分割成较小的块的风险是, 较小的块可能会失去图像的全局上下文, 这在 Transformer 架构中是一个重要因素。在本文的所有实验中, 作者选择了块化方法。在这里,作者探索使用完整尺寸图像的影响。 a.8.1 Cityscapes 总之, 尽管预期图像的全局上下文会包含更多的信息, 但输入大小对性能的降解太强了。 a.8.2 Tracking 作者还进行了类似的实验来研究目标跟踪设置。请注意在这个设置中将所有边界框内的块表示进行平均。如果目标被分成多个相同图像的块则平均发生在来自不同块的块表示上。如图12所示作者看到了DINO和DINOv2对于分块图像的上述现象块化图像表现更好。对于MAE作者看到了一个令人惊讶的结果从完整图像的块表示中提取的目标表示表现更好。请注意本文中所有目标跟踪实验的结果都是在BDD-100k数据集中的4个视频中报告的。 Sample Predictions on Cityscapes 在图13中展示了基于本文中使用的ViTs进行语义分割的结果。作者固定了Cityscapes数据集中的两个图像。第一和第三张图展示了原始图像及其对应的原始Mask第二和第四张图分别展示了ViTs对于对应实例的语义分割Mask。第一行第一列到第三列和第五列到第七列分别对应k-NN预测和线性检测预测的语义分割Mask。在这些图中可以定性确认作者的观察结果即MAE几乎完全无法正确分割k-NN预测的块。然而它的性能与线性检测相当。作者还观察到去掉MAE中最大方差前200个特征后的MAE在k-NN预测方面的性能超过MAE并且与线性检测预测的MAE几乎相同。正如作者所预期的DINO和DINOv2在定性上优于所有其他方法。 #Morph Studio “发光的水母从海洋中慢慢升起”在 Morph Studio 中继续输入想看到的景象“在夜空中变成闪闪发光的星座”。文生视频“黑马”来袭好用、1080P 、7秒时长还免费几分钟后Morph Studio 生成一个短视频。一只水母通体透明闪闪发光一边旋转着一边上升摇曳的身姿与夜空繁星相映成趣。视频发不了... 输入“ joker cinematic ”曾经席卷全球的那张脸又回来了。近期专注于 text-to-video 生成技术与社区的初创公司 Morph Studio 对模型进行了一次重要更新。这些视频正是模型更新后的作品画面清晰细节生动。 Morph Studio 是世界第一个推出公众可随意测试 text-to-video 产品的团队比 Runway 开放 Gen2 公测的时间还早。和一些炙手可热的 text-to-video 产品仅提供 720P 的免费服务不同Morph Studio 从一开始就提供默认 1080P 以及最长 7 秒生成时间的免费服务。更高分辨率、更长生成时长、更好的意图表达是我们认为 text-to-video 的三个最关键的指标三个指标上 Morph 都做到了行业 SOTA 。好莱坞电影单镜头平均时长有 6 秒将生成时长拉到 7 秒可以解锁更多用户的创作需求。体验 Morph Studio 的模型很简单注册 discord 即可免费使用。画面红色方框部分中带有“pro”字样的模型就是更新后的模型也是本文体验的对象。摄像机运动是视频制作的基础语言也是一种强大的叙述手段。Morph 提供几种常规的摄像机语言包括变焦、平移上、下、左、右、旋转顺时针或逆时针和静态镜头。 Morph 还提供控制视频运动的 MOTION 功能1-10。数值越大动作越剧烈、夸张设置的数值越小动作越微妙、平滑。帧率FPS提供从8 -30 的调整幅度值越高视频越流畅尺寸也越大。例如-FPS 30 将生成最流畅但也是最大的视频。默认情况下所有视频均以每秒 24 帧的速度创建。视频长度默认为 3 秒生成 7 秒视频可以在命令中输入 -s 7。另外模型还提供 5 种视频比例供选择。如果你对镜头、帧率和视频长度等细节有要求请在输入内容性提示后继续输入相应参数。目前仅支持英文输入。我们体验了一把更新后的模型服务强烈感受到 1080P 带来的视觉震撼。直到最近人类才有了第一张雪豹在星空下漫步的照片人类拍摄到的第一张雪豹在星空下漫步的照片。我们想知道Morph Studio 的模型能不能生成这种比较罕见的动物视频呢同样的 prompt 我们将 Morph Studio 的作品放在了视频上部分将用 Pika 生成的作品放在视频下部分。 Morph Studio 的答卷文本理解准确。1080P 画面中雪豹毛发细节丰富栩栩如生。背景中可以看到银河和星星。不过雪豹走动幅度不明显。 Pika 的作业中雪豹确实在步行但夜空似乎被理解成飘着鹅毛大雪的夜。无论是雪豹风格还是细节还有画面清晰度都还有差距。再看看人物生成的效果。 Morph Studio 生成的作品中高分辨率带来极为细腻的面部轮廓和微表情黎明光照下发丝细节清晰可见。受制于分辨率和色彩、光线层次的缺乏Pika 生成的画面整体偏青人物面部细节也不太尽如人意。人物、动物都感受过了再来看看建筑人造物的生成效果。和 Pika 作品更偏绘画质感的画面相比Morph Studio 的作品比较好地平衡了梵高元素和现实元素光线层次非常丰富特别是云海的流动细节Pika 作品里的天空几乎是静止的。最后体验一下自然风景创作。你可能会怀疑 Morph Studio 的作品是不是人类摄影师在自然条件下的真实拍摄。 Pika 生成的视频因为缺乏细腻的光影层次海浪、沙滩显得平板一块海浪拍打沙滩的动作比较呆板。除了高分辨率带来的震撼体验同样的 prompt 生成视频比如动物、建筑、人物和自然风景主题对手多少会在某些生成任务中“失手”Morph Studio 的发挥相对更稳定一些corner case 相对少一些能更准确预测用户意图。从一开始这家初创公司对文生视频的理解就是视频要能非常精准地描述用户输入所有优化工作也是朝着这个方向在走。Morph Studio 的模型结构对文字意图理解比较深刻这次更新做了一些结构上的改变还特地对一些数据做了更详尽的标注。除了比较好的文本理解能力画面的细节处理并未被高分辨率输出难倒。事实上模型更新后画面动作内容更丰富这也反应在我们用 Morph Studio 生成的作品中。 1080P 意味着模型要处理更多的像素给细节生成带来更大的挑战但从结果看画面不但没有拉垮掉反而因为丰富的层次细节而更有表现力。这是我们用模型生成的一组自然景观既有壮观的巨浪和火山喷发也有花朵的细腻特写。高分辨率输出给用户带来更好的视觉享受但也拉长了模型输出的时间影响到体验。 Morph Studio 现在生成速度为 3 分半生成 1080p 视频和 Pika 生成 720P 的视频速度一样。初创公司算力资源有限Morph Studio 一直保持 SOTA实属不易。另外视频风格上除了电影写实Morph Studio 模型也支持漫画、3D 动画等常见风格。 Morph Studio 专注的 text-to-video 技术被视为 AI 行业竞赛的下一个阶段。 “即时视频可能代表 AI 技术的下一次飞跃”《纽约时报》在一篇科技报道的标题中称并认为它将与网络浏览器、iPhone 一样重要。 2022 年 9 月Meta 的机器学习工程师团队推出了一款名为 Make-A-Video 的新系统用户输入对场景的粗略描述系统就会生成一个对应的短视频。 2022 年 11 月清华大学和北京人工智能研究院 BAAI 的研究人员也发布了 CogVideo。当时这些模型生成的视频除了模糊比如 CogVideo 生成的视频分辨率只有 480 x 480 画面也比较失真还存在许多技术限制。但它们仍然代表了 AI 内容生成领域的重大发展。表面上看视频只是一连串的帧静止的图像以一种给人运动错觉的方式组合在一起。然而保证一系列图像在时间、空间上的一致性难度要大得多。扩散模型的出现加速了技术的进化。研究人员尝试将扩散模型推广到其他领域如音频、3D 和视频视频合成技术取得显著进步。基于扩散模型的技术主要是让神经网络通过梳理数海量规模的图像、视频和文字说明自动学习一些模式。当你输入内容需求时这个神经网络会生成一个列表囊括所有它认为创建图像可能用到的特征比如猫耳朵的轮廓、手机的边缘。然后第二个神经网络也就是扩散模型负责创建图像并生成这些特征所需要的像素并将像素转换为连贯的图像。通过分析数以千计的视频AI 可以学会以类似的连贯方式将许多静止图像串在一起。关键在于要训练一个能真正理解每一帧之间关系和一致性的模型。 “这是我们在过去一百年中建立的最令人印象深刻的技术之一” Runway CEO Cristóbal Valenzuela 曾对媒体表示“你需要让人们真正使用它。” 2023 年被一些业内人士视为视频合成的突破之年。1 月还不见公开的 text-to-video 模型一年行将结束之际已经有几十个类似产品和数百万用户。 a16z合伙人Justine Moore在社交平台上分享的文生视频模型的时间轴我们可以从中看到除了大厂还有很多创业公司另外技术迭代的速度非常快。目前的 AI 文生视频并没有形成类似 LLM 统一明确的技术范式关于怎样生成稳定的视频业界还处于探索阶段。但研究人员相信当用越来越多的数据训练他们的系统时这些缺陷都能消除。最终这项技术会使创建视频像写句子一样简单。国内一位资深的 AI 行业投资人告诉我们文生视频技术的几篇最重要的论文都是 2022 年 7-8 月出来的类比文生图的产业化进程这项技术临近产业化的节点会出现在一年后也就是 2023 年 7-8 月。整个视频技术的发展特别快技术越来越成熟这位投资人士说根据之前在 GAN 领域的投资经验他们预测未来半年到 1 年会是 text-to-video 技术的产品化时期。 Morph 团队汇集了视频生成领域最优秀的年轻研究者们经过过去一年日以继夜地密集研发创始人徐怀哲与联合创始人李峰、殷子欣、赵世豪、刘少腾等核心技术骨干一起攻克了 AI 视频生成难题。除了技术团队外Morph Studio 最近也加强了其产品团队的实力猫眼电影签约制作人、上海国际电影节评委前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。海辛表示Morph Studio 在技术研究上在整个行业里都占据着领先的位置团队扁平、沟通效率和执行力都特别高每位成员都对行业充满热情。她最大的梦想曾是加入一个动画公司。AI 时代来临后她很快意识到未来的动画行业将会发生变革过去数十年动画底座是 3D 引擎很快将迎来全新的 AI 引擎时代。未来的皮克斯会在一家 AI 公司中诞生。而 Morph 就是她的选择。创始人徐怀哲表示Morph 正在积极布局 AI 视频赛道我们立志于做 AI 视频时代的 Super App为用户实现梦境。 2024 年这个赛道会迎来自己的 Midjourney 时刻他补充说。 PS: 体会原汁原味的免费1080P视频生成乐趣请移步至 https://discord.com/invite/VVqS8QnBkA

查看全文

http://www.hkea.cn/news/14308876/