c 网站开发如何每天10点执行任务,莱芜论坛莱芜话题吕金梦,app开发网站建设包含项目,域名绑定网站提示正在建设RingMo: A Remote Sensing Foundation Model With Masked Image Modeling 与自然场景相比#xff0c;RS图像存在以下困难。
1#xff09;分辨率和方位范围大#xff1a;受遥感传感器的影响#xff0c;图像具有多种空间分辨率。此外#xff0c;与自然图像的实例通常由于重…RingMo: A Remote Sensing Foundation Model With Masked Image Modeling 与自然场景相比RS图像存在以下困难。
1分辨率和方位范围大受遥感传感器的影响图像具有多种空间分辨率。此外与自然图像的实例通常由于重力而具有固定方向不同遥感图像中的物体从鸟瞰角度来看具有很大的角度分布范围。因此由于尺度和角度的多样性同一物体在不同的RS图像中具有不同的特征。
2许多密集和小物体大部分自然图像包含少量物体。例如ImageNet 数据集每个图像平均包含少于三个对象实例 [33]。如图1所示遥感图像通常大而宽覆盖数百公里。 RS图像中存在许多小物体而且它们通常分布较密集这在一定程度上影响了物体级解释的精度。
3背景复杂由于RS图像包含较大的场景除了感兴趣的物体外图像还包含大量的背景信息导致图像的信噪比较低。物体的边界和背景模糊干扰物体分类。而且遥感图像容易受到天气、光线、云、雾等外界因素的干扰影响成像质量。 本文的贡献可以概括为四个方面。
1我们提出RS领域第一个生成式自监督基础模型框架RingMo。该框架利用大量遥感数据来获取一般特征表示并提高各种遥感解释任务的准确性。
2为了增强基础模型对遥感数据的处理能力我们根据遥感图像的特性设计了一种自监督方法改善了之前的掩模策略可能忽略复杂遥感场景中密集和小物体的情况。
3在没有任何人类监督的情况下我们收集了包含 200 万张图像的 RS 数据集这些图像是从卫星和空中平台捕获的涵盖六大洲的不同物体和场景。这种包含大量且多样化的遥感图像的数据集提高了基础模型对不同场景的适应性。
4) 在收集的数据集上使用 RingMo 训练方法推导基础模型后我们在四个典型的 RS 任务上对其进行微调。实验表明我们的方法在八个下游数据集上实现了 SOTA并验证了我们的 RS 基础模型在各种应用上的有效性和泛化性。 模型 PIMask Strategy: 如图 4 中左侧红色补丁所示我们没有完全屏蔽图像补丁而是随机保留屏蔽补丁中的一些像素。采用这种掩模策略可以有效保留小目标的部分像素信息。就像图 4 中的蓝色补丁所示我们增加了掩模补丁的数量以保持总掩模比率不变。此外为了更好地利用这些保留像素采用多层卷积来实现块嵌入。一些相关研究人员通过实验证明在ViT中添加早期卷积层可以帮助模型更好地学习图像特征[67]。具体来说在卷积过程中我们让卷积核只在每个patch内部计算这不能打破模型的mask约束。与传统的嵌入结果不同多层卷积后的所有标记都具有特征信息这进一步提高了编码器的学习效率。