网站的html代码在哪,阿里邮箱企业版登录入口,怎样在网上卖东西,上街免费网站建设众所周知#xff0c;DUSt3R只适合做稀疏视角重建#xff0c;与sapnn3r的目的类似#xff0c;这篇文章以并行的方法#xff0c;扩展了DUSt3R在多视图重建中的能力。
abstract 多视角三维重建仍然是计算机视觉领域的核心挑战#xff0c;尤其是在需要跨不同视角实现精确且可… 众所周知DUSt3R只适合做稀疏视角重建与sapnn3r的目的类似这篇文章以并行的方法扩展了DUSt3R在多视图重建中的能力。
abstract 多视角三维重建仍然是计算机视觉领域的核心挑战尤其是在需要跨不同视角实现精确且可扩展表示的应用中。当前的主流方法如DUSt3R采用了一种基于成对处理的方式即对图像进行两两处理并需要通过昂贵的全局对齐程序来实现多视角重建。我们提出了Fast3R这是对DUSt3R的一种新颖的多视角扩展通过并行处理多个视角实现了高效且可扩展的三维重建。Fast3R基于Transformer的架构在一次前向传播中处理N张图像避免了迭代对齐的需求。通过在相机姿态估计和三维重建上的大量实验Fast3R展示了最先进的性能在推理速度上显著提升并减少了误差累积。这些结果表明Fast3R是多视角应用中的一个强大替代方案在不牺牲重建精度的前提下提供了更强的可扩展性。
1. Introduction 传统的重建流程例如基于运动恢复结构SfM[44]和多视角立体视觉MVS[18]的方法主要依赖于图像对来重建三维几何。但它们需要大量的工程来实现特征提取、对应匹配、三角测量和全局对齐等顺序阶段从而限制了其可扩展性和速度。 DUSt3R[61通过将成对重建问题转化为点图的回归问题能够直接从RGB图像中预测三维结构。并放宽了传统投影相机模型的硬约束[61]在具有挑战性的视角下展现了令人印象深刻的鲁棒性。这代表了三维重建领域的一次根本性转变因为端到端可学习的解决方案不仅减少了流程中误差的累积还显著简化了操作。 然而DUSt3R的根本是重建两幅图像输入的场景。为了处理多于两幅图像DUSt3R需要计算O(N²)对点图并执行全局对齐优化过程。这一过程计算成本高昂随着图像数量的增加其扩展性较差。例如在A100 GPU上仅处理48个视角就可能导致内存溢出OOM。另外两两重建这一过程限制了模型的上下文信息既影响了训练期间的学习效果也限制了推理阶段的最终精度。从这个意义上说DUSt3R与传统SfM和MVS方法一样面临着成对处理的瓶颈问题。 Fast3R是一种新型的多视图重建框架旨在克服上面提到的局限性。 FAST3R在Dust3R的基础上利用Transformer-based架构[56]并行处理多个图像允许在单个正向过程中重建。 每个帧可以同时参与重建过程中输入集中的所有其他帧大大减少了误差的积累。 并且Fast3R推理的时间也大大减少。
总结
1Fast3R是一种基于Transformer的多视角点图估计模型无需全局后处理在速度、计算开销和可扩展性方面实现了显著提升。
2通过实验证明模型性能随着视角数量的增加而提升。在相机姿态定位和重建任务中当模型在更大规模的视角集上训练时其性能会得到改善。在推理过程中使用更多视角时每个视角的精度会进一步提高并且模型能够泛化到远超训练时所见视角数量的场景。
3我们展示了在相机姿态估计任务中的最先进性能并显著提升了推理时间。在CO3Dv2数据集[39]上Fast3R在15度误差范围内的姿态估计精度达到99.7%与经过全局对齐的DUSt3R相比误差减少了14倍以上。
2. Related Work 现代三维重建方法都是基于MVG分为多个顺序阶段特征提取、寻找成对图像对应关系、通过三角测量生成三维点及成对相机相对姿态以及全局捆绑调整bundle adjustment。然而任何流程化方法都容易累积误差尤其是在手工设计的组件中。此外顺序处理的特性阻碍了并行化从而限制了速度和可扩展性。MVG方法自计算机视觉早期就已存在并且至今仍在使用的理由是当它们没有灾难性失败时可以非常精确。最新的多视角几何流程如COLMAP[44]或OrbSLAM2[30]融合了近60年的工程改进但这些方法在静态场景如ETH-3D[52]中仍然有超过40%的概率会灾难性失败而这类场景由于图像覆盖密集实际上可以被认为是相对简单的情况。 DUSt3R通过点图回归来替换MVG流程中直到全局成对对齐的所有步骤。直接为成对图像在共享坐标系中预测三维点图。其他MVG组件任务如相对相机姿态估计和深度估计可以从生成的点图表示中恢复。然而DUSt3R存在很大局限性即只能完成稀疏视角重建上述也提到了DUSt3R的局限性。 然而DUSt3R具有启发意义MASt3R在每个解码器输出上添加了一个局部特征头而MonST3R[69]则对动态场景进行了数据驱动的探索但两者本质上仍然是成对方法。特别是MASt3R并未对全局对齐方法进行任何改动。与我们同期的工作Spann3R[57]将图像视为有序序列例如来自视频并使用成对滑动窗口网络以及学习的空间记忆系统逐步重建场景。这扩展了DUSt3R以处理更多图像但Spann3R的增量成对处理无法修复早期帧的重建这可能导致误差累积。作者提出的Fast3R的Transformer架构使用了all-to-all注意力机制使模型能够同时并联合地推理所有帧而无需假设图像顺序。Fast3R消除了顺序依赖性从而在单次前向传播中实现了跨多个设备的并行推理。
3. Model
3.1. Problem definition 如图2输入N个无序无pose的RGB图像Fast3R预测对应的pointmap以及confidence map来重建场景不过这里的有两类一种是全局pointmap另一种是局部pointmapconfidence map也一样全局置信图局部置信图比如在MASt3R中是在视角1的坐标系下就是当前相机坐标系 3.2. Training Objective-Fast3R的loss设计 Fast3R的预测与GT的loss是DUST3R的一个广义版本即归一化 3D 逐点回归损失的置信加权 首先我们回顾DUST3R的点图loss 在此基础上使用confidence-ajusted loss 我们的直觉是置信度加权有助于模型处理标签噪声。与DUST3R类似我们在真实世界的扫描数据上进行训练这些数据通常包含底层点图标签中的系统性误差。例如在真实激光扫描中玻璃或薄结构通常无法正确重建[4, 67]而相机配准中的误差会导致图像与点图标签之间的错位[66]。
3.3. Model architecture Fast3R的结构设计来源于DUSt3R包括三部分image encoding, fusion transformer, and pointmap decoding并且处理图片的方式是并行的。
1Image encoder 与DUST3R一样对于任意的图片encoder部分使用CroCo ViT里面的即分成patch提取特征最后得到其中记作 然后在fusion transformer之前往patch 特征H里面添加一维的索引嵌入image index positional embeddings索引嵌入帮助融合Transformer确定哪些补丁来自同一图像并且是识别的机制而定义了全局坐标系。使模型能够从原本排列不变的标记集中隐式地联合推理所有图像的相机pose。
2Fusion transformer Fast3R 主要的计算在Fusion transformer过程中我们使用的是与ViTB [12] 或 BERT类似的12层transformer还可以按照比例放大在此过程中直接执行all-to-all的自注意力这样Fast3R获得了包含整个数据集的场景信息。
3pointmap decoding Fast3R的位置编码细节也很讲究这个细节大家感兴趣可以仔细看看可以达到训练20张图推理1000张图的效果。最后使用DPT-Large的decoder得到点图以及置信图下面简单介绍一下DPT-L。 DPT探讨了如何将视觉Transformer应用于密集预测任务如语义分割、深度估计等。通过引入层次化特征提取、多尺度特征融合以及专门的密集预测头改进了ViT架构使其能够有效处理高分辨率输入并生成像素级预测。 4. Experiments baseline是DUSt3RMASt3RSpann3R所以训练数据与他们保持一致包括object-center和scene scan两类在 64 个 A100 GPU 上训练 6.13 天
4.1. Inference Efficiency 表2显示了随着视角数量增加推理时间和内存使用情况的变化。Fast3R能够单次处理多达1500个视角而DUSt3R在超过32个视角时就会耗尽内存。Fast3R的推理时间也显著更快且随着视角数量的增加其优势更加明显。 4.2. Pose Estimation 受DUSt3R[61]的启发我们从预测的全局点图中估计焦距、相机旋转和相机平移。我们首先基于图像分辨率初始化一组随机焦距猜测然后使用RANSAC-PnP根据猜测的焦距和全局点图估计相机的旋转和平移。RANSAC-PnP的离群点数量用于对每个猜测的焦距进行评分越低越好并选择得分最高的焦距来计算相机的内参和外参矩阵。 表1中显示了15°阈值下的相对旋转精度RRA预测的相机旋转与真实旋转之间的误差小于15°的比例和相对平移精度RTA30°阈值下的平均精度mAA多个误差阈值通常从0°到30°下的平均精度以及模型的每秒帧数FPS。在Co3D数据集上Fast3R在RRA和mAA指标上超越了所有其他方法实现了接近完美的RRA同时在RTA上保持竞争力。重要的是速度比DUSt3R快200倍比MASt3R快700倍。 图4和图5显示Fast3R的预测随着视角数量的增加而改进表明该模型能够利用多张图像的额外上下文信息。 4.3. 3D Reconstruction 在场景级基准测试7-Scenes [47] 和 Neural RGB-D [3]以及物体级基准测试DTU [1]上评估了Fast3R的三维重建性能。 使用ICP迭代最近点算法将每张图像的局部点图独立对齐到全局点图并使用对齐后的局部点图进行评估。Fast3R在与DUSt3R和MASt3R等其他点图重建方法的比较中表现出了竞争力同时速度显著更快如表3和表4所示。我们相信随着更好的重建数据、更多的计算资源以及更优的训练策略Fast3R的性能将进一步提升。 5. Conclusion 我们提出了Fast3R这是一种能够在单次前向传播中直接预测所有像素在统一参考系中三维位置的Transformer模型。通过用端到端训练的通用架构取代整个SfM运动恢复结构流程Fast3R及类似方法有望受益于Transformer的常规扩展规律随着数据质量的提升和参数规模的增加性能持续改进。由于Fast3R采用全局注意力机制它避免了现有系统中因瓶颈而导致的两个潜在人为扩展限制。首先图像对重建的瓶颈限制了模型可用的信息量。其次成对全局优化只能部分弥补这一问题且无法通过增加数据来改进。 通过我们的高效实现Fast3R能够以超过250 FPS的速度运行并在一次前向传播中处理1500张图像远超其他方法同时在三维重建和相机姿态估计基准测试中取得了具有竞争力的结果。另外Fast3R继承了未来工程改进的优势能够高效地服务于和训练基于Transformer的大型模型。例如像Deepspeed-Inference [38]和FlashAttention [7, 8]这样的工具包提供了融合内核、模型并行化和数据并行化功能。这些功能加速了推理并减少了内存需求使每个设备能够处理更多图像且图像数量随设备数量的增加而扩展。 Fast3R的架构允许并行处理多个视角其位置嵌入设计使得在视角上下文长度上能够实现“短训练长测试”。然而我们观察到对于重建区域非常大的场景当视角数量变得极端例如超过200个时某些视角的点图特别是那些置信度得分较低的视角开始表现出漂移行为。目前解决这一问题的一种方法是丢弃置信度得分较低的帧。在密集重建中这种方法通常不会对重建质量造成太大影响。