当前位置：首页 > news >正文

常德网站建设要点网咯鸟深圳网站建设

news 2026/5/8 22:13:37

常德网站建设要点,网咯鸟深圳网站建设,东莞外贸建站及推广,企业建网站有这个必要吗一、论文研究领域#xff1a;全监督3D语义分割#xff08;室内#xff0c;室外RGB#xff0c;kitti#xff09;论文#xff1a;RandLA-Net: Efﬁcient Semantic Segmentation of Large-Scale Point Clouds CVPR 2020 牛津大学、中山大学、国防科技大学论文链接论文gi…一、论文研究领域全监督3D语义分割室内室外RGBkitti论文RandLA-Net: Efﬁcient Semantic Segmentation of Large-Scale Point Clouds CVPR 2020 牛津大学、中山大学、国防科技大学论文链接论文github 二、论文概要 2.1 主要思路现有的语义分割网络几乎所有都限于极小的3D点云例如4k个点或1×1米块并且不能直接扩展到更大的点云即使最近有工作已经开始解决直接处理大规模点云的任务他们的预处理和体素化步骤的计算量太大部署在实时应用程序。现有大规模点云语义分割方法的预处理和体素化步骤的计算量太大大规模点云语义分割已经有人实现但消耗内存且计算量很大 RandLA-Net中我们的目标是设计一个内存和计算效率高的神经架构它能够直接处理大规模的3D点云而不需要任何预/后处理步骤如体素化块分区或图形构建。我们的方法的关键是使用随机点采样。虽然计算和存储效率非常高但随机采样可能会偶然丢弃关键特征。为了克服这一点我们引入了一种新的局部特征聚合模块以逐步增加每个3D点的感受野从而有效地保留几何细节。 2.1.1 实现步骤给定一个具有数百万个点的大规模点云跨越数百米要用深度神经网络处理它不可避免地需要在每个神经层中对这些点进行渐进和有效的下采样而不会丢失有用的点特征。在RandLA-Net的每一层中大规模的点云被显著地下采样但能够保留精确分割所必需的特征。随机点采样随机采样从原始N个点中均匀地选择K个点。它的计算复杂度是O1这与输入点的总数无关即它是恒定时间且因此固有地可缩放。与FPS和IDIS相比无论输入点云的规模如何随机采样都具有最高的计算效率。处理10^6个点只需要0.004s。新的局部特征聚合模块局部特征聚合模块并行应用于每个3D点它由三个神经单元组成局部空间编码LocSE、注意池化、扩张的残余块 ① Local Spatial Encoding 1Finding Neighbouring Points 对于第i个点它的相邻点通过简单的K近邻KNN算法计算得到 2 Relative Point Position Encoding 对于中心点pi的最接近的K个点{p1 i · · · pk i · ·pKi}中的每一个我们如下明确地对相对点位置进行编码 3 Point Feature Augmentation 对于每个相邻点pk i将编码的相对点位置rki与其对应的点特征fki连接从而获得增强的特征向量fki。 LocSE单元的输出是一组新的相邻特征Fi {f1 i · · ·fk i · ·fKi}其明确地编码中心点pi的局部几何结构。 ② Attentive Pooling 1Computing Attention Scores 给定局部特征集合Fi {f1 i · · · ·fk i · · ·fK i }设计一个共享函数g来学习每个特征的唯一注意力分数。基本上函数g由共享MLP和softmax组成。其正式定义如下 2Weighted Summation 这些特征被加权求和如下给定输入点云P对于第i个点pi我们的LocSE和注意力池单元学习聚合其K个最近点的几何图案和特征并最终生成信息特征向量~ fi。 ③ Dilated Residual Block 残差块由于大的点云将被大幅下采样显著增加每个点的感受野使得即使一些点被丢弃输入点云的几何细节也更可能被保留。 2.2 主要贡献 RandLA-Net在三个方面有所区别 1它仅依赖于网络内的随机采样从而需要少得多的存储器和计算; 2所提出的局部特征聚合器通过显式地考虑局部空间关系和点特征可以获得连续更大的感受野从而对学习复杂的局部模式更加有效和鲁棒; 3整个网络仅由共享的MLP组成而不依赖于任何昂贵的操作例如图构建和核化因此对于大规模点云非常有效。 2.3 实验表现 Semantic 3D上不同方法的定量结果 SemanticKITTI上不同方法的定量结果 S3DIS 上不同方法的定量结果消融实验结果: 三、论文全文 RandLA-Net大规模点云的高效语义分割摘要研究了大规模三维点云数据的高效语义分割问题。由于依赖于昂贵的采样技术或计算量大的预/后处理步骤大多数现有方法只能在小规模点云上进行训练和操作。在本文中我们介绍了RandLA-Net这是一种高效且轻量级的神经架构可以直接推断大规模点云的逐点语义。我们的方法的关键是使用随机点采样而不是更复杂的点选择方法。虽然计算和存储效率非常高但随机采样可能会偶然丢弃关键特征。为了克服这一点我们引入了一种新的局部特征聚合模块以逐步增加每个3D点的接收场从而有效地保留几何细节。大量的实验表明我们的RandLA-Net可以在单次通过中处理100万个点比现有方法快200倍。此外我们的RandLA-Net在两个大型基准Semantic 3D和SemanticKITTI上明显超过了最先进的语义分割方法。 Introduction 大规模三维点云的有效语义分割是实时智能系统如自动驾驶和增强现实的基本和必要能力。一个关键的挑战是深度传感器获取的原始点云通常是不规则采样的、非结构化的和无序的。尽管深度卷积网络在结构化2D计算机视觉任务中表现出出色的性能但它们不能直接应用于这种类型的非结构化数据[下图参考]。最近开创性的工作PointNet [43]已经成为直接处理3D点云的有前途的方法。它使用共享多层感知器MLP学习每点特征。这在计算上是高效的但无法捕获每个点的更广泛的上下文信息。为了学习更丰富的局部结构许多专用的神经模块随后被迅速引入。这些模块通常可分类为1相邻特征池化[4432217069]2图形消息传递[5748555652234]3基于内核的卷积[4920602923245438]以及4基于注意力的聚合[61686642]。尽管这些方法实现了对象识别和语义分割的令人印象深刻的结果但是它们中的几乎所有都限于极小的3D点云例如4k个点或1×1米块并且不能直接扩展到更大的点云例如数百万个点和高达200×200米而无需预处理步骤如块分割。这种限制的原因有三方面。 1)这些网络常用的点采样方法要么计算量大要么内存效率低。例如广泛采用的最远点采样[44]需要超过200秒才能对100万个点中的10%进行采样。 2)大多数现有的局部特征学习器通常依赖于计算昂贵的核化或图构造从而无法处理大量的点。 3)对于通常由数百个对象组成的大规模点云现有的局部特征学习器要么无法捕获复杂结构要么效率低下因为它们的感受野大小有限 PointNet 只能处理小规模点云共享多层感知器Shared Multi-Layer Perceptron, Shared MLP是一种常见的神经网络结构在多个任务共享一个神经网络时经常使用。这个网络结构可以使每个任务共享相同的特征提取层从而提高训练效率和泛化性能。在共享 MLP 中每个任务都有自己的输出层但是多个输出层共享相同的网络权重。共享 MLP 的主要作用是减少网络中需要学习的参数数量因为每个任务只需要拥有自己的输出层而特征提取层和中间层的参数是在多个任务之间共享的因此可以减少每个任务需要学习的参数量。同时由于多个任务共享相同的特征提取层可以有效地利用不同任务之间相同的特征从而提高神经网络的泛化性能。除了共享 MLP神经网络中还有其他一些可以在多个任务之间共享的神经网络结构如共享卷积层的卷积神经网络Shared Convolutional Neural Network, Shared CNN等。这些共享网络结构相较于单任务网络和每个任务单独拥有网络结构的多任务网络具有更高的效率和更好的性能。最近的一些工作已经开始解决直接处理大规模点云的任务。SPG [26]在应用神经网络学习每个超点语义之前将大型点云预处理为超级图。FCPN [45]和PCT [7]都联合收割机了体素化和点级网络来处理大量点云。虽然它们实现了体面的分割精度预处理和体素化步骤的计算量太大部署在实时应用程序。在本文中我们的目标是设计一个内存和计算效率高的神经架构它能够直接处理大规模的3D点云在一个单一的通行证而不需要任何预/后处理步骤如体素化块分区或图形构建。然而这项任务极具挑战性因为它需要 1存储器和计算上高效的采样方法以逐步下采样大规模点云以适应当前GPU的限制以及2有效的局部特征学习器以逐步增加感受野大小以保留复杂的几何结构。为此我们首先系统地证明了随机采样是深度神经网络有效处理大规模点云的关键因素。然而随机采样可能会丢弃关键信息特别是对于具有稀疏点的对象。为了对抗随机采样的潜在不利影响我们提出了一个新的和有效的本地特征聚合模块来捕获复杂的局部结构逐渐变小的点集。现有方法的预处理和体素化步骤的计算量太大在现有的采样方法中最远点采样和逆密度采样最常用于小规模点云[4460337015]。由于点采样是这些网络中的一个基本步骤我们在第3.2节中研究了不同方法的相对优点在那里我们看到常用的采样方法限制了对大型点云的扩展并成为实时处理的一个重要瓶颈。然而我们认为随机采样是迄今为止最适合大规模点云处理的组件因为它速度快扩展效率高。随机采样不是没有成本的因为突出的点特征可能会被偶然丢弃并且它不能直接用于现有网络而不引起性能损失。为了克服这个问题我们在第3.3节中设计了一个新的局部特征聚合模块该模块能够通过逐步增加每个神经层中的感受野大小来有效地学习复杂的局部结构。具体地对于每个3D点我们首先引入局部空间编码LocSE单元来显式地保留局部几何结构。其次我们利用细心的池自动保持有用的本地功能。第三我们堆叠多个LocSE单元和注意力池作为一个扩张的残留块大大增加了每个点的有效感受野。注意所有这些神经组件都被实现为共享的MLP因此具有显著的存储器和计算效率。最远点采样和逆密度采样最常用于小规模点云随机采样是迄今为止最适合大规模点云处理的组件因为它速度快扩展效率高随机采样会使得突出的点特征可能会被偶然丢弃设计了一个新的局部特征聚合模块该模块能够通过逐步增加每个神经层中的感受野大小来有效地学习复杂的局部结构总的来说基于简单随机采样和有效的局部特征聚合器的原则我们的高效神经架构RandLA-Net不仅比现有的大规模点云方法快200倍而且还超过了Semantic 3D [17]和SemanticKITTI [3]基准测试中最先进的语义分割方法。图1显示了我们的方法的定性结果。我们的主要贡献是我们分析和比较现有的采样方法确定随机采样作为最合适的组件有效地学习大规模点云。我们提出了一个有效的局部特征聚合模块通过逐渐增加每个点的感受野来保留复杂的局部结构。我们在基线上展示了显着的内存和计算增益并在多个大规模基准测试中超越了最先进的语义分割方法。 Related Work 为了从3D点云中提取特征传统方法通常依赖于手工制作的特征[11472518]。最近的基于学习的方法[164337]主要包括基于投影基于体素和基于点的方案这里概述了这些方案。基于投影的网络。为了利用2D CNN的成功许多作品[3086327]将3D点云投影/展平到2D图像上以解决对象检测的任务。然而在投影期间可能丢失几何细节。基于体素的网络可以将点云体素化为3D网格然后在[142810399]中应用强大的3D CNN。虽然它们在语义分割和目标检测方面取得了领先的结果但其主要局限性是计算量大尤其是在处理大规模点云时。基于点的网络。受PointNet/PointNet [4344]的启发许多最近的作品引入了复杂的神经模块来学习每个点的局部特征。这些模块通常可以被分类为1相邻特征池化[32217069]2图形消息传递[574855565223431]3基于内核的卷积[4920602923245438]以及4基于注意力的聚合[61217069]。68、66、42]。虽然这些网络在小的点云上显示出有希望的结果但由于其高计算和内存成本它们中的大多数不能直接扩展到大的场景。与它们相比我们提出的RandLA-Net在三个方面有所区别 1它仅依赖于网络内的随机采样从而需要少得多的存储器和计算; 2所提出的局部特征聚合器通过显式地考虑局部空间关系和点特征可以获得连续更大的感受野从而对学习复杂的局部模式更加有效和鲁棒; 3整个网络仅由共享的MLP组成而不依赖于任何昂贵的操作例如图构建和核化因此对于大规模点云非常有效。学习大规模点云。 SPG [26]将大型点云预处理为超点图以学习每个超点语义。最近的FCPN [45]和PCT [7]应用基于体素和基于点的网络来处理大量点云。然而图分区和体素化两者在计算上都是昂贵的。相比之下我们的RandLA-Net是端到端可训练的不需要额外的前/后处理步骤。 RandLA-Net Overview 如图2所示给定一个具有数百万个点的大规模点云跨越数百米要用深度神经网络处理它不可避免地需要在每个神经层中对这些点进行渐进和有效的下采样而不会丢失有用的点特征。在我们的RandLA-Net中我们建议使用简单快速的随机采样方法来大大降低点密度同时应用精心设计的局部特征聚合器来保留突出的特征。这允许整个网络在效率和有效性之间实现极好的权衡。在RandLA-Net的每一层中大规模的点云被显著地下采样但能够保留精确分割所必需的特征。 The quest for efficient sampling 现有的点采样方法[44331512160]可以大致分为启发式和基于学习的方法。然而仍然没有标准的采样策略是适合于大规模的点云。因此我们分析和比较它们的相对优点和复杂性如下。启发式抽样最远点采样FPS为了从具有N个点的大规模点云P中采样K个点FPS返回度量空间{p1 · · · pk · · · pK}的重新排序使得每个pk是距离前k − 1个点最远的点。FPS在[443360]中被广泛用于小点集的语义分割。虽然它有一个很好的覆盖整个点集其计算复杂度为ON2。对于大规模点云N 106FPS在单个GPU上处理需要200秒1。这表明FPS不适合大规模点云。逆密度重要性抽样IDIS为了从N个点中采样K个点IDIS根据每个点的密度对所有N个点进行重新排序然后选择前K个点[15]。其计算复杂度约为ON。根据经验处理106个点需要10秒。与FPS相比IDIS更有效但对离群值更敏感。然而它对于在实时系统中使用仍然太慢。随机采样RS随机采样从原始N个点中均匀地选择K个点。它的计算复杂度是O1这与输入点的总数无关即它是恒定时间且因此固有地可缩放。与FPS和IDIS相比无论输入点云的规模如何随机采样都具有最高的计算效率。处理106个点只需要0.004s。 Learning-based Sampling 基于发生器的采样GSGS [12]学习生成一个小的点集来近似表示原始的大点集。然而FPS通常用于在推理阶段将生成的子集与原始集合进行匹配从而产生额外的计算。在我们的实验中对106个点中的10%进行采样需要长达1200秒。基于连续松弛的采样CRSCRS方法[166]使用重新参数化技巧将采样操作放松到连续域以进行端到端训练。特别地基于全点云上的加权和来学习每个采样点。当使用一遍矩阵乘法同时对所有新点进行采样时它会导致大的权重矩阵从而导致无法负担的存储器成本。例如估计需要超过300GB的内存占用来对106个点的10%进行采样。基于策略梯度的采样PGSPGS将采样操作公式化为马尔可夫决策过程[62]。它顺序地学习概率分布来采样点。然而当点云较大时由于极大的探索空间学习概率具有较高的方差。例如对106个点的10%采样探索空间是C105 106并且不太可能学习有效的采样策略。我们经验发现如果PGS用于大的点云网络是难以收敛。总体而言FPS、IDIS和GS在计算上过于昂贵不能应用于大规模点云。CRS方法具有过多的内存占用PGS很难学习。相比之下随机抽样具有以下两个优点 1它是显著的计算效率因为它对输入点的总数是不可知的 2它不需要额外的存储器用于计算。因此我们安全地得出结论随机采样是迄今为止最适合的方法处理大规模点云相比所有现有的替代方案。然而随机采样可能导致许多有用的点特征被丢弃。为了克服这个问题我们提出了一个强大的本地特征聚合模块在下一节中介绍。 3.3. Local Feature Aggregation局部特征聚合如图3所示我们的局部特征聚合模块并行应用于每个3D点它由三个神经单元组成 1局部空间编码LocSE 2注意池化 3扩张的残余块提出的局部特征聚合模块。顶部面板示出了提取特征的位置空间编码块以及基于局部上下文和几何形状对最重要的相邻特征加权的注意池化机制。下图示出了这些组件中的两个如何链接在一起以增加残余块内的感受野大小。 Local Spatial Encoding 给定点云P连同每点特征例如原始RGB或中间学习特征该局部空间编码单元显式地嵌入所有相邻点的x-y-z坐标使得对应的点特征总是知道它们的相对空间位置。这允许LocSE单元显式地观察局部几何图案从而最终有利于整个网络有效地学习复杂的局部结构。特别地该单元包括以下步骤 1 Finding Neighbouring Points 对于第i个点它的相邻点首先通过简单的K近邻KNN算法收集效率。KNN基于逐点欧氏距离。 2 Relative Point Position Encoding 对于中心点pi的最接近的K个点{p1 i · · · pk i · ·pKi}中的每一个我们如下明确地对相对点位置进行编码其中pi和pki是点的x-y-z位置是级联操作并且||·||计算相邻点和中心点之间的欧几里得距离。似乎rk i是从冗余点位置编码的。有趣的是这往往有助于网络学习本地特征并在实践中获得良好的性能。 3 Point Feature Augmentation. 对于每个相邻点pk i将编码的相对点位置rki与其对应的点特征fki连接从而获得增强的特征向量fki。最后LocSE单元的输出是一组新的相邻特征Fi {f1 i · · ·fk i · ·fKi}其明确地编码中心点pi的局部几何结构。我们注意到最近的工作[36]也使用点位置来改进语义分割。然而在[36]中位置用于学习点得分而我们的LocSE显式地编码相对位置以增强相邻点特征。 Attentive Pooling 该神经单元用于聚合相邻点特征的集合Fi。现有作品[4433]通常使用最大/平均池化来硬集成相邻特征导致大部分信息丢失。相比之下我们转向强大的注意力机制来自动学习重要的局部特征。特别是受[65]的启发我们的专注池单元包括以下步骤。 1 Computing Attention Scores. 给定局部特征集合Fi {f1 i · · · ·fk i · · ·fK i }我们设计一个共享函数g来学习每个特征的唯一注意力分数。基本上函数g由共享MLP和softmax组成。其正式定义如下其中W是共享MLP的可学习权重。在机器学习中注意力机制是一种常见的神经网络技术可以为每个输入特征赋予不同的权重从而使得网络更加关注对于当前任务更为重要的特征。其中的注意力分数指为每个特征分配的权重它可以体现每个特征对于当前任务的重要性程度。共享函数g学习每个特征的唯一注意力分数说明该函数能够学习到每个特征应该被分配的权重并将这些权重应用于网络的后续计算中从而提高网络的性能。 Attentive Pooling是一种神经网络结构常用于处理自然语言处理NLP任务中的文本序列数据。它的主要作用是在池化阶段融入注意力机制从而使神经网络更加关注重要的信息提高模型性能。在传统的池化操作中通常使用简单的聚合函数如平均或最大池化将一定范围内的输入信息聚合成一个代表性的输出。但在实际应用中不同位置或不同时间的输入信息对于模型的判断和输出可能是不同的因此简单的池化操作可能会丢失一些重要的信息。 Attentive Pooling通过引入注意力机制来解决这个问题。它通过将输入序列中的每个元素与一个可学习的权重向量相乘并将结果归一化得到每个元素的注意力分数。然后将这些分数作为权重加权聚合并将聚合结果作为神经网络的输出。这种方式使网络能够自适应地选择重要的信息同时减少池化过程中对有用信息的丢失。通过使用Attentive Pooling神经网络能够更好地处理不同位置和时间的信息提高模型的准确性和性能。 Weighted Summation. 学习的注意力分数可以被视为自动选择重要特征的软掩模。形式上这些特征被加权求和如下总之给定输入点云P对于第i个点pi我们的LocSE和注意力池单元学习聚合其K个最近点的几何图案和特征并最终生成信息特征向量~ fi。 Dilated Residual Block 残差块由于大的点云将被基本上下采样因此期望显著地增加每个点的感受场使得输入点云的几何细节更可能被保留即使一些点被丢弃。如图3所示受成功的ResNet [19]和有效的扩张网络[13]的启发我们将多个LocSE和Attentive Pooling单元与跳过连接堆叠为扩张的残差块。感受野Receptive Field指的是神经网络中的某个神经元对于输入的局部感受范围即它能接受到的输入数据的区域大小。在卷积神经网络中每个卷积层的神经元都会通过卷积核在输入图像上扫描得到一个输出值同时也会受到前一层神经元输出的影响。由于神经网络在不同层次提取不同抽象层次的特征因此每一层的感受野大小不同通常随着网络层数增加而增大。具体来说感受野可以分为三种类型局部感受野、全局感受野和有效感受野。局部感受野是指单个神经元对于输入数据的局部区域全局感受野是指整个网络对于输入数据的完整感受范围而有效野可以理解为神经元实际上能够接受到的输入数据的范围通常比全局感受野要小。通过了解感受野的大小和类型可以更好地设计和优化神经网络的结构从而提高模型的性能。为了进一步说明我们的扩张残差块的能力图4示出了红色3D点在第一LocSE/Attentive Pooling操作之后观察K个相邻点并且然后能够从多达K2个相邻点即第二个之后的两个街区。扩张的残余块的图示其显著增加了每个点的感受野虚线圆彩色点表示聚合特征。L局部空间编码A注意力集中。这是一种通过特征传播扩大感受野和扩大有效邻域的廉价方式。从理论上讲我们堆叠的单位越多这个方块的威力就越大因为它的范围越来越大。然而更多的单元将不可避免地牺牲整体计算效率。此外整个网络很可能会过度装配。在我们的RandLA-Net中我们简单地堆叠两组LocSE和Attentive Pooling作为标准残差块实现了效率和有效性之间的满意平衡。总体而言我们的本地功能聚合模块的目的是有效地保留复杂的本地结构通过明确考虑相邻的几何形状和显着增加的感受野。此外该模块仅由前馈MLP组成因此计算效率高。 Implementation 我们通过堆叠多个本地特征聚合模块和随机采样层来实现RandLA-Net。详细的体系结构见附录。我们使用带有默认参数的Adam优化器。初始学习率被设置为0.01并且在每个时期之后降低5%。最近点的数量K被设置为16。为了并行训练我们的RandLA-Net我们从每个点云中采样固定数量的点105作为输入。在测试过程中整个原始点云被馈送到我们的网络中以推断每个点的语义而无需进行几何或块划分等预/后处理。所有实验均在NVIDIA RTX 2080 Ti GPU上进行。 Experiments Efficiency of Random Sampling 在本节中我们对现有采样方法包括FPS、IDIS、RS、GS、CRS和PGS的效率进行了实证评估这些方法已在第3.2节中讨论。具体地我们进行了以下4组实验。第1组。给定一个小规模的点云大约103个点我们使用每种采样方法对其进行逐步下采样。具体地点云通过五个步骤进行下采样其中在单个GPU上的每个步骤中仅保留25%的点即四倍抽取比。这意味着最后只剩下1/45 × 103个点。这种下采样策略模拟了PointNet [44]中使用的过程。对于每种采样方法我们总结其时间和内存消耗以进行比较。图5 不同采样方法的时间和内存消耗。虚线表示由于有限的GPU存储器而估计的值。第2/3/4组。点的总数向大规模增加即分别为104、105和106点。我们使用与第1组相同的五个采样步骤。图5比较了处理不同比例点云的每种采样方法的总时间和内存消耗。可以看出 1对于小规模点云103所有采样方法往往具有相似的时间和内存消耗并且不太可能引起沉重或有限的计算负担。 2)对于大规模的点云106FPS/IDIS/GS/CRS/PGS要么非常耗时要么占用内存。相比之下随机采样总体上具有上级的时间和内存效率。该结果清楚地表明大多数现有网络[443360367066]只能在小块点云上进行优化主要是因为它们依赖于昂贵的采样方法。基于此我们在RandLA-Net中使用了高效的随机采样策略。 Efficiency of RandLA-Net 在本节中我们系统地评估了我们的RandLA-Net在真实世界的大规模点云语义分割上的整体效率。特别地我们在SemanticKITTI [3]数据集上评估RandLA-Net获得我们的网络在Sequence 08上的总时间消耗其中共有4071个点云扫描。我们还评估了在同一数据集上最近的代表性作品[4344332654]的时间消耗。为了公平的比较我们馈送相同数量的点即81920从每个扫描到每个神经网络。此外我们还评估了RandLA-Net的内存消耗和基线。特别是我们不仅报告每个网络的参数总数而且还测量每个网络可以在单次传递中作为输入的最大3D点数量以推断每个点的语义。注意所有实验都在具有AMD 3700X3.6GHz CPU和NVIDIA RTX 2080 Ti GPU的同一机器上进行。表1定量地显示了不同方法的总时间和内存消耗。可以看出 1SPG [26]具有最少的网络参数但由于昂贵的几何划分和超级图构造步骤处理点云所花费的时间最长; 2PointNet [44]和PointCNN [33]在计算上也很昂贵主要是因为FPS采样操作; 3PointNet [43]和KPConv [54]无法获取非常大规模的点云例如106个点这是由于它们的存储器低效操作。 4)由于简单的随机采样和高效的基于MLP的本地特征聚合器我们的RandLA-Net花费最短的时间平均185秒平均4071帧→大约22 FPS来推断每个大规模点云最多106个点的语义标签。 Semantic Segmentation on Benchmarks 在本节中我们评估了RandLA-Net在三个大规模公共数据集上的语义分割室外Semantic 3D [17]和SemanticKITTI [3]以及室内S3 DIS [2]。 Evaluation on Semantic3D. Semantic3D数据集[17]由15个用于训练的点云和15个用于在线测试的点云组成。每个点云最多有10^8个点在真实世界的3D空间中覆盖160×240×30米。原始3D点属于8类并且包含3D坐标、RGB信息和强度。我们只使用3D坐标和颜色信息来训练和测试我们的RandLANet。所有类别的平均相交度mIoU和总体准确度OA被用作标准度量。为了进行公平比较我们仅包括最近发表的强基线结果[4525346695626]和当前最先进的方法KPConv [54]。表2给出了不同方法的定量结果。RandLA-Net在mIoU和OA方面明显优于所有现有方法。值得注意的是RandLANet还在八个类别中的六个类别上实现了上级的性能除了低植被和扫描艺术。表2. Semantic 3D上不同方法的定量结果减少-8[17]。只有最近公布的方法进行比较。于二零二零年三月三十一日查阅。 SemanticKITTI上不同方法的定量结果[3]。仅比较最近发表的方法并且从在线单扫描评估轨道获得所有分数。于二零二零年三月三十一日查阅。 RandLA-Net在SemanticKITTI [3]验证集上的定性结果。红色圆圈表示失败案例。 Evaluation on SemanticKITTI. SemanticKITTI [3]由属于21个序列的43552个密集注释的LIDAR扫描组成。每个扫描是一个大规模的点云包含10^5个点在3D空间中跨度高达160×160×20米。正式地序列00 07和09 1019130次扫描用于训练序列084071次扫描用于验证序列11 2120351次扫描用于在线测试。原始3D点仅具有3D坐标而不具有颜色信息。超过19个类别的mIoU分数被用作标准度量。表3显示了我们的RandLANet与两个最近方法家族的定量比较即1基于点的方法[4326494451]和2基于投影的方法[5859340]图6显示了RandLA-Net在验证分割上的一些定性结果。可以看出我们的RandLA-Net大大超过了所有基于点的方法[4326494451]。我们还优于所有基于投影的方法[5859340]但并不显著主要是因为RangeNet [40]在小对象类别如交通标志上实现了更好的结果。然而我们的RandLA-Net的网络参数比RangeNet [40]少40倍并且计算效率更高因为它不需要昂贵的前/后投影步骤。 Evaluation on S3DIS S3DIS数据集[2]由属于6个大区域的271个房间组成。每个点云都是一个中等大小的单间20×15×5米其中包含密集的3D点。为了评估我们的RandLA-Net的语义分割我们在实验中使用标准的6折交叉验证。比较了总共13个类别的平均IoUmIoU、平均类别准确度mAcc和总体准确度OA。如表4所示我们的RandLA-Net实现了与最先进的方法同等或更好的性能。注意这些基线[44337069576]中的大多数倾向于使用复杂但昂贵的操作或采样来优化小块上的网络例如1×1米的点云而相对较小的房间在它们的优势被分成小块。相比之下RandLA-Net将整个房间作为输入并且能够在单次传递中高效地推断每点语义。 S3DIS数据集上不同方法的定量结果[2]6倍交叉验证。仅包括最近公布的方法。 Ablation Study 消融研究由于在第4.1节中充分研究了随机采样的影响因此我们对局部特征聚合模块进行了以下消融研究。所有消融的网络都在序列00 07和09 10上训练并在SemanticKITTI数据集的序列08上测试[3]。 (1) Removing local spatial encoding (LocSE). 该单元使每个3D点能够明确地观察其局部几何形状。在移除locSE之后我们直接将局部点特征馈送到后续的关注池中。 (2∼4) Replacing attentive pooling by max/mean/sum pooling. 注意池化单元学习自动联合收割机所有局部点特征。相比之下广泛使用的最大值/平均值/总和池往往难以选择或联合收割机特征因此它们的性能可能是次优的。 (5) Simplifying the dilated residual block. 扩张的残余块堆叠多个LocSE单元和注意池基本上扩张每个3D点的感受野。通过简化该块我们每层仅使用一个LocSE单元和注意池化即我们不像在原始RandLA-Net中那样链接多个块。表5比较了所有消融网络的mIoU评分。由此可见 1最大的影响是由链式空间嵌入和注意池化块的移除引起的。这在图4中突出显示图4示出了使用两个链式块如何允许信息从更宽的邻域传播即大约K2点而不是只有K点。这对于随机采样尤其重要因为不能保证保留特定的点集。 2)局部空间编码单元的去除示出了对性能的下一个最大影响表明该模块对于有效地学习局部和相对几何上下文是必要的。 3)移除注意力模块由于不能有效地保留有用的特征而降低了性能。从这项消融研究中我们可以看到所提出的神经单元如何相互补充以达到我们最先进的性能。 Conclusion 在本文中我们证明了它是可能的有效地分割大规模的点云通过使用一个轻量级的网络架构。与依赖于昂贵的采样策略的大多数当前方法相反我们在我们的框架中使用随机采样来显着减少内存占用和计算成本。还引入了一个局部特征聚合模块以有效地保留有用的功能从广泛的邻里。在多个基准上的大量实验证明了我们的方法的高效率和最先进的性能。通过借鉴最近的工作[64]以及实时动态点云处理[35]扩展我们的框架用于大规模点云上的端到端3D实例分割将是有趣的。致谢这项工作得到了中国国家留学基金管理理事会CSC奖学金的部分支持。国家自然科学基金项目No. 61972435、广东省自然科学基金2019A1515011271、深圳市科技创新委员会。

查看全文

http://www.hkea.cn/news/14587014/