当前位置：首页 > news >正文

网站建设 9a网站建设营销话术

news 2026/4/29 4:21:50

网站建设 9a,网站建设营销话术,ceo是什么职位的简称,成都市建设工程质量协会网站0.摘要我们提出了一种新的方法#xff0c;用于高效、高质量的对象和场景图像分割。通过将经典的计算机图形学方法与像素标记任务中面临的过采样和欠采样挑战进行类比#xff0c;我们开发了一种将图像分割视为渲染问题的独特视角。基于这个视角#xff0c;我们提出了PointRe…0.摘要我们提出了一种新的方法用于高效、高质量的对象和场景图像分割。通过将经典的计算机图形学方法与像素标记任务中面临的过采样和欠采样挑战进行类比我们开发了一种将图像分割视为渲染问题的独特视角。基于这个视角我们提出了PointRend基于点的渲染神经网络模块一个在自适应选择的位置上执行基于点的分割预测的模块该位置是基于迭代细分算法选择的。PointRend可以灵活地应用于实例分割和语义分割任务通过构建在现有的最先进模型之上。虽然许多具体实现都是可能的但我们表明一个简单的设计已经可以实现出色的结果。在质量上PointRend在先前方法平滑过度的区域输出清晰的物体边界。在数量上PointRend在COCO和Cityscapes上为实例分割和语义分割带来了显著的收益。PointRend的效率使得输出分辨率比现有方法在存储器或计算方面都更加实用。代码已经在https://github.com/facebookresearch/detectron2/tree/master/projects/PointRend上开放。 1.引言图像分割任务涉及将在规则网格上采样的像素映射到相同网格上的标签地图或一组标签地图。在语义分割的情况下标签地图指示每个像素的预测类别。在实例分割的情况下预测每个检测到的对象的二进制前景与背景地图。这些任务的现代工具是建立在卷积神经网络CNN[24、23]上的。用于图像分割的CNN通常在规则网格上运行输入图像是像素的规则网格它们的隐藏表示是规则网格上的特征向量它们的输出是规则网格上的标签地图。规则网格很方便但不一定是适合图像分割的计算理想。这些网络预测的标签地图应该是大部分光滑的即相邻的像素通常取相同的标签因为高频区域被限制在对象之间稀疏的边界上。规则网格将不必要地过采样光滑区域同时欠采样对象边界。结果是在光滑区域中进行过度计算和模糊的轮廓图1左上角。图像分割方法通常在低分辨率规则网格上预测标签例如在语义分割中输入的1/8 [30]或在实例分割中的28×28 [17]以在欠采样和过采样之间进行折衷。类似的采样问题在计算机图形学中已经研究了几十年。例如渲染器将一个模型例如一个三维网格映射到光栅化图像即像素的规则网格。虽然输出是在规则网格上的但计算并不均匀地分配在网格上。相反一个常见的图形策略是在图像平面上计算自适应选择的点的不规则子集的像素值。例如[43]的经典细分技术产生了一种类似四叉树的采样模式可以有效地渲染高分辨率的抗锯齿图像。本文的核心思想是将图像分割视为渲染问题并从计算机图形学中借鉴经典思想以高效地“渲染”高质量的标签地图见图1左下角。我们将这个计算思想封装在一个新的神经网络模块中称为PointRend它使用细分策略来自适应地选择计算标签的非均匀点集。PointRend可以集成到流行的元架构中用于实例分割例如Mask R-CNN [17]和语义分割例如FCN [30]。它的细分策略使用比直接密集计算少一个数量级的浮点运算来高效地计算高分辨率的分割地图。 PointRend是一个通用模块可以有许多可能的实现方式。抽象地看一个PointRend模块接受一个或多个在规则网格上定义的典型CNN特征图f(xi,yi)并在更细的网格上输出高分辨率的预测p(x′i,yi′)。PointRend不会在输出网格上过度预测所有点而是仅在精心选择的点上进行预测。为了进行这些预测它通过插值f提取所选点的逐点特征表示并使用一个小的点头子网络从逐点特征中预测输出标签。我们将提供一个简单而有效的PointRend实现。我们使用COCO [26]和Cityscapes [8]基准测试来评估PointRend在实例分割和语义分割任务中的性能。在质量方面PointRend能够高效地计算对象之间的锐利边界如图2和图8所示。我们还观察到定量的改进尽管这些任务的标准交集联合比度量mask AP和mIoU偏向于对象内部像素并且相对于边界改进比较不敏感。PointRend显著地改进了强大的Mask R CNN和DeepLabV3 [4]模型。图2使用带有标准掩膜头的Mask R-CNN [17]左图与使用PointRend右图的示例结果对比使用ResNet-50 [18]和FPN [25]。请注意PointRend在物体边界周围预测具有更细致的细节的掩膜。 2.相关工作计算机图形学中的渲染算法输出像素的规则网格。然而它们通常在非均匀的点集上计算这些像素值。像细分[43]和自适应采样[33,37]这样的高效程序可以在像素值方差较大的区域中细化粗略的光栅化。射线追踪渲染器通常使用超采样[45]这是一种比输出网格更密集地采样某些点的技术以避免走样效应。在这里我们将经典的细分应用于图像分割。非均匀网格表示。在二维图像分析中基于规则网格的计算是主导范式但对于其他视觉任务来说并非如此。在三维形状识别中由于立方体缩放大型三维网格是不可行的。大多数基于CNN的方法不超过64×64×64的粗略网格[11,7]。相反最近的作品考虑更高效的非均匀表示例如网格[42,13]、符号距离函数[32]和oc树[41]。与符号距离函数类似PointRend可以在任何点计算分割值。最近Marin等人[31]提出了一种基于输入图像非均匀子采样的高效语义分割网络然后再使用标准语义分割网络进行处理。相比之下PointRend专注于输出时的非均匀采样。可能可以将这两种方法结合起来但是[31]目前尚未证明适用于实例分割。基于Mask R-CNN元架构[17]的实例分割方法在最近的挑战中占据了前几名[29,2]。这些基于区域的架构通常在一个28×28的网格上预测掩膜而不考虑物体的大小。这对于小物体已经足够但对于大物体它会产生不良的“blobby”输出过度平滑大物体的细节见图1左上角。另一方面自底向上的方法将像素分组形成对象掩膜[28,1,22]。这些方法可以产生更详细的输出但在大多数实例分割基准测试[26,8,35]中落后于基于区域的方法。TensorMask [6]是一种替代的滑动窗口方法使用复杂的网络设计来预测大物体的清晰高分辨率掩模但它的准确性也略低。在本文中我们展示了一个配备PointRend的基于区域的分割模型可以产生具有细节层次的掩膜同时提高了基于区域的方法的准确性。语义分割。全卷积网络FCNs[30]是现代语义分割方法的基础。它们通常预测输出比输入网格具有更低的分辨率并使用双线性上采样来恢复其余的8-16×分辨率。可以通过用一些下采样层替换膨胀/空洞卷积[3,4]来改进结果但代价是更多的内存和计算。替代方法包括编码器-解码器架构[5,21,39,40]其中编码器对网格表示进行下采样然后在解码器中进行上采样使用跳连接[39]来恢复过滤的细节。当前的方法将膨胀卷积与编码器解码器结构相结合[5,27]在应用双线性插值之前将输出产生在比输入网格稀疏4×的网格上。在我们的工作中我们提出了一种方法可以在与输入网格一样密集的网格上高效地预测细节层次。图3: PointRend应用于实例分割。标准的实例分割网络实线红箭头接受输入图像并使用轻量级分割头为每个检测到的对象红框产生粗略例如7×7的掩膜预测。为了细化粗糙的掩膜PointRend选择一组点红色点并使用小型MLP独立地对每个点进行预测。MLP使用从(1)主干CNN的细粒度特征映射和(2)粗略预测掩膜计算的这些点的插值特征虚线红箭头。粗略掩膜特征使MLP能够在包含两个或多个框的单个点上进行不同的预测。所提出的细分掩膜渲染算法见图4和§3.1迭代地应用这个过程以细化预测掩膜的不确定区域。 3.方法我们将计算机视觉中的图像分割对象和/或场景类比于计算机图形学中的图像渲染。渲染是关于将模型例如3D网格显示为像素的常规网格即图像。虽然输出表示是一个常规网格但底层的物理实体例如3D模型是连续的其物理占用和其他属性可以使用物理和几何推理如射线跟踪在图像平面上的任何实值点进行查询。类比地在计算机视觉中我们可以将图像分割看作是底层连续实体的占用地图并且从中“渲染”分割输出该输出是预测标签的常规网格。该实体被编码在网络的特征图中并且可以通过插值在任何点访问。一个参数化函数该函数通过这些插值点特征表示来训练预测占用的是物理和几何推理的对应项。基于这个类比我们提出了PointRend基于点的渲染作为使用点表示的图像分割方法。一个PointRend模块接受一个或多个C通道的典型CNN特征图f∈RC×H×W每个特征图都在一个常规网格上定义通常比图像网格粗略4到16倍并输出在不同可能更高分辨率的常规网格上的K类标签p∈RK×H′×W′的预测。PointRend模块由三个主要组成部分组成i点选择策略选择少量实值点进行预测避免高分辨率输出网格中所有像素的过度计算。ii对于每个选择的点提取点特征表示。实值点的特征是通过对f进行双线性插值计算得出的使用f的正常网格上的点的4个最近邻居。因此它能够利用编码在f的通道维度中的亚像素信息来预测具有比f更高分辨率的分割。iii点头一个小型神经网络训练预测每个点的标签。PointRend架构可以应用于实例分割例如Mask R-CNN [17]和语义分割例如FCN [30]任务。对于实例分割PointRend被应用于每个区域。它通过在一组选定的点上进行预测以粗到细的方式计算掩膜见图3。对于语义分割整个图像可以被视为单个区域因此在不失一般性的情况下我们将在实例分割的上下文中描述PointRend。接下来我们将详细讨论三个主要组成部分。 3.1.推理和训练的点选择我们方法的核心思想是灵活和自适应地选择图像平面上预测分割标签的点。直观地这些点应该位于高频区域附近更密集的位置例如物体边界类似于射线追踪中的抗锯齿问题。我们针对推断和训练开发了这个想法。推断。我们的推断选择策略受计算机图形学中自适应细分[43]的启发。该技术用于通过仅在可能值与其邻居显著不同的位置计算高分辨率图像例如通过射线追踪对于所有其他位置值是通过插值已经计算的输出值获得的从粗网格开始。对于每个区域我们以粗到细的方式迭代地“渲染”输出掩膜。最粗糙的级别预测是在常规网格上的点上进行的例如通过使用标准的粗糙分割预测头。在每次迭代中PointRend使用双线性插值上采样其先前预测的分割然后在这个更密集的网格上选择N个最不确定的点例如对于二进制掩膜概率最接近0.5的点。然后PointRend计算每个这些N个点的点特征表示稍后在§3.2中描述并预测它们的标签。该过程重复进行直到分割被上采样到所需的分辨率。该过程的一步在图4的玩具示例中说明。对于所需的输出分辨率为M×M像素和起始分辨率为M0×M0PointRend所需的点预测不超过N log2 MM0。这比M×M小得多使PointRend能够更有效地进行高分辨率预测。例如如果M0为7所需分辨率为M224则需要5个细分步骤。如果在每个步骤中选择N282个点PointRend仅对282·4.25个点进行预测这比2242小15倍。请注意总体选择的点数少于N log2 MM0因为在第一次细分步骤中只有142个点可用。在训练期间PointRend还需要选择点来构建用于训练点头的点特征。原则上点选择策略可以类似于推断中使用的细分策略。然而细分引入了顺序步骤不利于使用反向传播训练神经网络。相反在训练中我们使用基于随机采样的非迭代策略。采样策略在特征图上选择N个点进行训练。它旨在偏向于不确定区域的选择同时保持一定程度的均匀覆盖使用三个原则。(i)过度生成我们通过从均匀分布中随机采样kN个点k1来过度生成候选点。(ii)重要性采样我们通过在所有kN个点上插值粗糙预测值并计算特定任务的不确定性估计在§4和§5中定义来关注具有不确定粗略预测的点。从kN个候选点中选择最不确定的βN个点β∈[0,1])。(iii)覆盖剩余的1−β)N个点从均匀分布中采样。我们在图5中使用不同的设置说明了这个过程并将其与常规网格选择进行了比较。在训练时预测和损失函数仅在N个采样点除了粗糙分割上计算这比通过细分步骤反向传播更简单和更有效。这个设计类似于在Faster R-CNN系统[12]中并行训练RPN Fast R-CNN其推断是顺序的。图4一个自适应细分步骤的示例。对4×4网格的预测使用双线性插值上采样2×。然后PointRend对N个最模糊的点黑点进行预测以恢复更细网格上的细节。这个过程重复进行直到达到所需的网格分辨率。图5训练过程中的点采样。我们展示了使用不同策略采样的N142个点对应于相同的基础粗略预测。为了实现高性能每个区域只采样少量点采用轻微偏置的采样策略使系统在训练过程中更加高效。 3.2.点表示和点头 PointRend通过组合例如连接两种特征类型即细粒度和粗略预测特征在所选点上构建点特征下面进行描述。细粒度特征为了允许PointRend呈现细分割细节我们从CNN特征图中在每个采样点提取一个特征向量。因为一个点是一个实值2D坐标我们对特征图执行双线性插值来计算特征向量遵循标准实践[19,17,9]。特征可以从单个特征图例如ResNet中的res2中提取它们也可以从多个特征图例如res2到res5或它们的特征金字塔[25]对应项中提取并连接遵循Hypercolumn方法[15]。粗略预测特征细粒度特征使得分辨细节变得可行但在两个方面也存在缺陷。首先它们不包含区域特定的信息因此两个实例的边界框重叠的同一点将具有相同的细粒度特征。然而该点只能在一个实例的前景中。因此对于实例分割任务不同区域可能会为同一点预测不同的标签需要其他区域特定的信息。其次根据用于细粒度特征的特征图特征可能仅包含相对较低级别的信息例如我们将使用DeepLabV3中的res2。在这种情况下具有更多上下文和语义信息的特征源可能会有所帮助。这个问题影响实例和语义分割。基于这些考虑第二个特征类型是来自网络的粗略分割预测即表示K类预测的每个区域框中每个点的K维向量。通过设计粗略分辨率提供了更全局的上下文而通道传达语义类别。这些粗略预测类似于现有架构产生的输出并以与现有模型相同的方式在训练期间进行监督。对于实例分割粗略预测可以是例如Mask R-CNN中轻量级7×7分辨率掩模头的输出。对于语义分割它可以是例如来自步幅16特征图的预测。点头。给定每个选择点的点级特征表示PointRend使用简单的多层感知器MLP进行点级分割预测。这个MLP在所有点和所有区域之间共享权重类似于图卷积[20]或PointNet[38]。由于MLP为每个点预测分割标签因此可以通过标准的特定任务分割损失在§4和§5中描述进行训练。 4.实验实例分割数据集。我们使用两个标准的实例分割数据集COCO [26]和Cityscapes [8]。我们使用中位数报告COCO的3次运行和Cityscapes的5次运行的标准掩码AP度量[26]其方差较高。COCO具有80个具有实例级注释的类别。我们在train2017约118k张图像上进行训练并在val20175k张图像上报告结果。正如[14]中所述COCO的真实情况通常很粗糙数据集的AP可能无法完全反映掩码质量的改进。因此我们使用LVIS [14]的80个COCO类别子集进行AP补充表示为AP!。LVIS的注释质量显著更高。请注意对于AP!我们使用在COCO上训练的相同模型并使用LVIS评估API重新评估其预测以针对更高质量的LVIS注释进行评估。Cityscapes是一个自我中心的街景数据集具有8个类别2975个训练图像和500个验证图像。与COCO相比这些图像具有更高的分辨率1024×2048像素并且具有更精细更像素准确的地面实例分割注释。架构。我们的实验证明使用ResNet-50 [18] FPN [25]骨干网络的Mask R-CNN。Mask R-CNN中的默认蒙版头是区域级FCN我们将其表示为“4×conv”。2我们使用这个作为比较的基线。对于PointRend我们对这个基线进行适当的修改下面描述了这些修改。轻量级、粗略的掩码预测头。为了计算粗略的预测我们使用一个更轻量级的设计来替换4×conv掩码头类似于Mask R-CNN的框头并产生一个7×7的掩码预测。具体来说对于每个边界框我们使用双线性插值从FPN的P2级别中提取一个14×14的特征图。特征在边界框内的正则网格上计算这个操作可以看作是RoIAlign的简单版本。接下来我们使用一个步长为2的2×2卷积层具有256个输出通道后跟ReLU [34]将空间大小减小到7×7。最后类似于Mask R-CNN的框头应用一个具有两个1024宽隐藏层的MLP以产生每个K类的7×7掩码预测。在MLP的隐藏层中使用ReLU并将sigmoid激活函数应用于其输出。PointRend。在每个选择点处使用双线性插值从粗略预测头的输出中提取一个K维特征向量。PointRend还使用双线性插值从FPN的P2级提取一个256维的特征向量。这个级别相对于输入图像具有4个步长。这些粗糙预测和细粒度特征向量被连接起来。我们使用具有256个通道的3个隐藏层的MLP在选择点处进行K类预测。在MLP的每个层中我们使用K个粗略预测特征来补充256个输出通道以使输入向量用于下一层。我们在MLP内部使用ReLU并将sigmoid应用于其输出。训练。我们默认使用Detectron2 [44]的标准1×训练计划和数据增强完整的细节在附录中。对于PointRend我们使用k 3和β 0.75的偏置采样策略随机采样142个点。我们使用从粗糙预测中插值出的与地面实例分割类别概率的0.5之间的距离作为点级不确定度度量。对于具有地面实例分割类别c的预测框我们对142个点上c-th MLP输出的二元交叉熵损失进行求和。轻量级粗略预测头使用平均交叉熵损失来预测类别c的掩码即与基线4×conv头相同的损失。我们将所有损失相加没有任何重新加权。在训练期间Mask R-CNN并行应用框和掩码头而在推理期间它们作为级联运行。我们发现级联训练不会改善基线Mask R-CNN但PointRend可以从中受益因为它在更准确的框内采样点略微改善了整体性能约0.2AP绝对。推理。对于预测类别c的框在没有特殊说明的情况下我们使用自适应细分技术将类别c的粗略7×7预测优化到224×224需要5步。在每一步中我们基于预测值与0.5之间的绝对差异选择并更新最多N 282个最不确定的点。 4.1.主要结果我们在表1中将PointRend与Mask R-CNN中的默认4×conv头进行了比较。PointRend在两个数据集上都优于默认头。当使用LVIS注释评估COCO类别时AP以及在Cityscapes上差距更大我们将其归因于这些数据集中的优越注释质量。即使具有相同的输出分辨率PointRend也优于基线。28×28和224×224之间的差异相对较小因为AP使用交并比[10]因此严重偏向于对象内部像素对边界质量不太敏感。然而在视觉上边界质量的差异是显而易见的见图6。 Subdivision推理允许PointRend使用超过30倍的计算FLOPs和内存来产生高分辨率224×224预测而默认的4×conv头需要输出相同分辨率基于采用112×112 RoIAlign输入见表2。PointRend通过忽略物体的粗略预测足够的区域例如远离物体边界的区域使高分辨率输出成为Mask R-CNN框架中的可行方案。就墙钟运行时间而言我们的未优化实现以∼13 fps输出224×224掩码这与修改为输出56×56掩码通过加倍默认的RoIAlign大小的4×conv头具有大致相同的帧速率实际上这种设计与28×28的4×conv头相比COCO AP更低34.5vs.35.2。表3显示了在每个细分步骤中选择不同输出分辨率和点数的PointRend细分推理。在更高的分辨率上预测掩码可以改善结果。尽管AP饱和但在从较低例如56×56到更高例如224×224分辨率输出时视觉改进仍然显而易见见图7。由于点是首先在最模糊的区域中选择的因此随着每个细分步骤中采样的点数量增加AP也会饱和。额外的点可能会在已经足够粗略预测的区域中进行预测。然而对于具有复杂边界的物体使用更多的点可能是有益的。表1PointRend与Mask R-CNN [17]默认的4×卷积掩码头部的比较。报告了Mask AP。AP!是对更高质量的LVIS注释[14]进行的COCO掩码AP评估详见文本。COCO和Cityscapes模型均使用ResNet-50-FPN骨干网络。PointRend在数量和质量上都优于标准的4×卷积掩码头更高的输出分辨率导致更详细的预测见图2和图6。图6PointRend使用不同输出分辨率的推理。高分辨率掩码与物体边界对齐更好。表2224×224输出分辨率掩码的FLOPs乘加和激活计数。PointRend的高效子细分使224×224输出成为可能而标准的4×卷积掩码头则修改为使用112×112的RoIAlign大小。表3细分推理参数。更高的输出分辨率可以提高AP。尽管每个细分步骤采样的点数在下划线值下很快饱和但对于复杂对象质量结果可能会继续改善。AP!是对更高质量的LVIS注释[14]进行的COCO掩码AP评估详见文本。图7PointRend的抗锯齿。精确的对象勾 delin需要输出掩码分辨率与对象占据的输入图像区域的分辨率相匹配或超过。表4使用每个盒子142个点的训练时间点选择策略。轻微偏向于不确定区域的采样效果最好。重度偏向的采样甚至比均匀或常规网格采样效果更差表明覆盖率的重要性。AP!是对更高质量的LVIS注释[14]进行的COCO掩码AP评估详见文本。表5更大的模型和更长的3×调度[16]。PointRend受益于更先进的模型和更长的训练时间。PointRend与Mask R-CNN中的默认掩码头之间的差距保持不变。AP!是对更高质量的LVIS注释[14]进行的COCO掩码AP评估详见文本。 4.2.消融实验我们进行了许多分析来分析PointRend。总体而言我们注意到它对点头MLP的确切设计是稳健的。在我们的实验中其深度或宽度的变化没有显示出任何显着差异。训练期间的点选择。在训练期间我们按照偏倚的采样策略§3.1选择每个对象的142个点。仅采样142个点使训练具有计算和内存效率我们发现使用更多的点并不会改善结果。令人惊讶的是每个框仅采样49个点仍然保持AP尽管我们观察到AP的增加方差。表4显示了不同选择策略下PointRend的性能。在训练期间正则网格选择实现了类似于均匀采样的结果。而偏向于模糊区域的偏倚采样可以提高AP。然而过于偏向于粗略预测的边界的采样策略k10且β接近1.0会降低AP。总体而言我们发现广泛的参数2k5和0.75β1.0可以提供类似的结果。更大的模型更长的训练。使用1×调度在COCO上训练ResNet-50 FPN表示为R50-FPN会导致欠拟合。在表5中我们展示了PointRend相对于基线的改进在更长的训练计划和更大的模型上仍然有效详情请见附录。图8实例分割和语义分割的Cityscapes示例结果。在实例分割中更大的对象从PointRend产生高分辨率输出中受益更多。而对于语义分割PointRend可以恢复小对象和细节。 5.实验语义分割 PointRend不仅限于实例分割还可以扩展到其他像素级别的识别任务。在这里我们展示了PointRend如何受益于两个语义分割模型使用扩张卷积在更密集的网格上进行预测的DeeplabV3 [4]和简单的编码器-解码器结构SemanticFPN [21]。数据集。我们使用包含19个类别、2975张训练图像和500张验证图像的Cityscapes [8]语义分割集。我们报告了5次试验的中位数mIoU。实现细节。我们重新实现了DeeplabV3和SemanticFPN遵循它们各自的论文。SemanticFPN使用标准的ResNet-101 [18]而DeeplabV3使用[4]中提出的ResNet-103。我们遵循原始论文的训练计划和数据增强详细信息请见附录。我们使用与实例分割相同的PointRend架构。粗略预测特征来自语义分割模型的已经粗略的输出。细粒度特征从res2插值得到DeeplabV3从P2插值得到SemanticFPN。在训练期间我们采样与输入的stride 16特征图上的点数相同的点deeplabV3为2304SemanticFPN为2048。我们使用相同的k3β0.75点选择策略。在推理期间细分使用N8096即1024×2048图像的stride 16映射中的点数直到达到输入图像分辨率。为了衡量预测的不确定性我们在训练和推理期间使用相同的策略最自信和次自信类别概率之间的差异。在DeeplabV3中表6比较了DeepLabV3和带有PointRend的DeeplabV3。输出分辨率也可以通过在res4阶段使用扩张卷积将其增加2倍在[4]中进行了描述。与两者相比PointRend具有更高的mIoU。定性的改进也很明显见图8。通过自适应地采样点PointRend通过仅对32k个点进行预测就可以达到1024×2048分辨率即2M个点见图9。SemanticFPN。表7显示带有PointRend的SemanticFPN比没有PointRend的8×和4×输出步幅变体都有所改进。表6使用PointRend的DeepLabV3进行Cityscapes语义分割优于基准DeepLabV3。在推理期间扩大res4阶段会产生更大、更准确的预测但计算和存储成本要高得多仍然不如使用PointRend。图9用于语义分割的PointRend推理。PointRend为粗略预测不足的区域细化预测得分。为了可视化每个步骤的分数我们在给定分辨率下采用arg max而没有双线性插值。表7使用PointRend的SemanticFPN进行Cityscapes语义分割优于基准SemanticFPN。

查看全文

http://www.hkea.cn/news/14457115/