当前位置：首页 > news >正文

网站策划ps微信小程序开发框架

news 2026/5/4 10:58:23

网站策划ps,微信小程序开发框架,网站采集功能,c2c电子商务网站需具备哪些业务功能在雷达相机融合三维目标检测中#xff0c;雷达点云稀疏、噪声较大#xff0c;在相机雷达融合过程中提出了很多挑战。为了解决这个问题#xff0c;我们引入了一种新的基于query的检测方法 Radar-Camera Transformer (RCTrans)。具体来说#xff1a; 首先设计了一个雷达稠密… 在雷达相机融合三维目标检测中雷达点云稀疏、噪声较大在相机雷达融合过程中提出了很多挑战。为了解决这个问题我们引入了一种新的基于query的检测方法 Radar-Camera Transformer (RCTrans)。具体来说首先设计了一个雷达稠密编码器来丰富稀疏的有效的雷达token然后将它们与图像token拼接起来。通过这样做可以充分挖掘每个感兴趣区域的3D信息减少融合阶段空token的干扰。然后设计了一个剪枝顺序解码器根据获得的token和随机初始化的query来预测 3D 框。为了缓解雷达点云中高度测量值的歧义我们通过顺序融合结构逐步定位物体的位置。它有助于在token和query之间获得更精确和更灵活的对应关系。解码器采用剪枝训练策略在推理过程中可以节省很多时间抑制query失去独特性。在大规模nuScenes数据集上的大量实验表明了该方法的优越性获得了新的SOTA的雷达相机融合3D检测结果。项目链接https://github.com/liyih/RCTrans 文章目录 IntroductionMethodExperiments Introduction 引言和相关工作部分这里就不介绍了在原文中作者提出了雷达传感器的两个主要缺陷稀疏和噪声大这也是目前量产雷达最主要的痛点。导致非空的雷达pillars数量大概是激光雷达Pillars数量的10%。图一中作者比较了RCTrans模型和目前纯视觉以及相机雷达融合模型的对比可以看到同等配置下RCTrans都是优于RCBEVDet在推理速度上略慢于RCBEVDet。 Method RCTrans模型框图如图2所示首先使用两个并行分支雷达与图像分支提取多模态token。在雷达分支中我们将使用雷达稠密编码器来生成稠密有效的雷达特征。然后position embedding添加到token中。最后随机初始化的query将被发送到 Pruning Sequential Decoder 和token一起预测 3D 框。整个训练是一个端到端的过程不需要冻结任何参数模型具体细节可以参考StreamPETR和FUTR3D。这里介绍下雷达稠密编码器如下图所示。我们的目标是找到一个结构简单的网络可以自适应地填充每个BEV雷达网格和聚合多尺度信息以促进不同大小的目标检测。自适应填充每个 BEV 网格的最简单方法是使用全局自注意力机制。然而由于BEV网格数量较多该方法耗时较长。为了解决这个问题首先对原始的BEV特征进行下采样并在最小分辨率与它们交互。同时下采样过程可以大大减少无效网格的数量从而提高交互后获得的特征质量。受 U-Net的启发我们以相同的 BEV 分辨率连接不同感受野大小的特征有效地保留了不同大小的对象的特征这里做了三次下采样和三次上采样。对最小分辨率做自注意力时添加了2D position embedding。下面介绍下position embedding的生成对于图像position embedding我们使用PETR中提出的3D位置嵌入。给定一个图像token T i T_i Ti一系列点 p ( u , v ) p i ( u , v ) ( u × d i , v × d i , d i , 1 ) , i 1 , 2 , 。 . . , d p(u, v) p_i (u, v) (u \times d_i, v \times d_i, d_i, 1), i 1, 2,。.., d p(u,v)pi(u,v)(u×di,v×di,di,1),i1,2,。..,d 为定义在相机视锥空间中的点。这里 u u u 和 v v v 是token在图像空间中的索引 d d d 是沿深度轴的点数。之后通过下列公式计算图像位置嵌入 P E i m Φ i m ( K p ( u , v ) ) , P E_{i m}\Phi_{i m}(K p(u, v)), PEimΦim(Kp(u,v)), 其中 K K K是相机内参矩阵 Φ i m \Phi_{i m} Φim MLP网络。由于雷达无法获得物体的精确高度信息对于雷达位置嵌入我们使用二维BEV嵌入忽略BEV网格的高度信息。雷达位置嵌入由式下列公式计算而来 P E r a Φ r a ( Ψ ( h , w ) ) P E_{r a}\Phi_{r a}(\Psi(h, w)) PEraΦra(Ψ(h,w)) 其中 ( h , w ) (h, w) (h,w)为BEV网格的2D坐标 Φ r a \Phi_{r a} Φra为MLP网络 Ψ ( h , w ) \Psi(h, w) Ψ(h,w) 为正弦余弦函数。通过位置嵌入不同模态的信息可以隐式地与三维空间中的目标query对齐。关于本文提出的剪枝顺序解码器首先初始化了在3D空间可学习的n个query参考点对应query特征初始化为0。query位置投影到雷达空间可以用下面公式来投影 { r x i ′ r x i × ( x max ⁡ − x min ⁡ ) x min ⁡ r y i ′ r y i × ( y max ⁡ − y min ⁡ ) y min ⁡ r z i ′ r z i × ( z max ⁡ − z min ⁡ ) z min ⁡ \left\{\begin{aligned} r_{x i}^{\prime} r_{x i} \times\left(x_{\max }-x_{\min }\right)x_{\min } \\ r_{y i}^{\prime} r_{y i} \times\left(y_{\max }-y_{\min }\right)y_{\min } \\ r_{z i}^{\prime} r_{z i} \times\left(z_{\max }-z_{\min }\right)z_{\min } \end{aligned}\right. ⎩ ⎨ ⎧rxi′ryi′rzi′rxi×(xmax−xmin)xminryi×(ymax−ymin)yminrzi×(zmax−zmin)zmin 往图像上投影可以用下面的公式3D空间到视锥空间 R i m K − 1 R r a R_{i m}K^{-1} R_{r a} RimK−1Rra 对应的3D和2D position embedding可以用如下公式表示 P E 3 d Φ i m ( R i m ) , P E 2 d Φ r a ( Ψ ( R r a ) ) P E_{3d}\Phi_{im}(R_{im}), P E_{2d}\Phi_{ra}(\Psi(R_{ra})) PE3dΦim(Rim),PE2dΦra(Ψ(Rra)) 本文提出将单层decoder分成两个小的decoder并独立进行模态融合。在每个解码器层的末尾我们将预测query的位置。在下一层新的位置嵌入将根据更新的位置生成。给定更新后的查询 F q n 1 F^{n1}_q Fqn1 我们预测查询位置的偏移量 ΔR更新后的位置 R n 1 R_{n1} Rn1 可以通过 Rn ΔR 计算。在每一层中我们使用顺序结构来融合多模态信息这导致解码器层数比传统的解码器要多2倍会导致额外的推理时间。更重要的是随着我们在每个解码器层之后更新query的位置一些目标query可能逐渐位于同一个区域并失去特征独特性。这会导致某些区域的信息被忽略注意力机制可能无法学习有效的表示学习概念从而阻止模型实现预期的性能改进。为此我们提出了一种剪枝训练策略该策略在训练期间使用 6 层解码器在推理过程中仅使用 3 层解码器。 Experiments 实验部分作者使用的数据集是nuScenes数据集主要对比了3D检测指标和3D追踪指标。实验细节部分基于StreamPETR和 MMDetection3D代码库实现 RCTrans。和CRN一样将4帧历史帧的信息聚集到当前帧使用StreamPETR中提出的以目标为中心的时间建模来进行时间融合。训练时解码器层数设置为 6在推理过程中设置为3。在时间融合中将剪枝后最后一层的输出插入到内存队列中。query数量、内存队列大小和传播query的数量分别设置为 900、512 和 128。对于雷达和CRAFT一样聚集了6个过去雷达扫描帧并将雷达点的最大数量设置为 2048。雷达 BEV 的大小设置为 128×128。在8个NVIDIA A100 GPU 上训练网络训练epoch数量为90批量大小为 32。速度在单个NVIDIA RTX3090 GPU 上进行评估。学校率初始值为 1 0 − 4 10^{-4} 10−4优化器使用的是AdamW。下面是在验证集和测试集上3D检测任务的性能对比如表1所示本文们的方法在不同的图像主干网下取得了最好的性能时间消耗略有增加。例如当使用 Swin-T 作为主干网并将图像大小设置为 256×704 时与SOTA雷达相机解决方案 RCBEVDet 相比RCTrans将NDS 提高了 3.2%mAP 提高了 2.4%而延迟增加了大约 5 毫秒。多个主干网的实验结果表明RCTrans具有良好的适应性在实际应用中有利于模型部署和迁移。更重要的是RCTrans击败了所有纯视觉的检测方法包括我们的视觉基线模型 StreamPETR这证明了我们的方法可以有效地使用雷达信息来补充检测结果。在nuScenes测试集上如表2所示RCTrans取得了64.7%的NDS和57.8%的mAP优于所有其它方法。值得注意的是RCTrans在mAVE上获得了巨大的性能提升证明了模型从雷达数据中提取有用的速度补偿信息。如表3所示将RCTrans与nuScenes测试集上现有的相机和雷达相机跟踪解决方案进行了比较。总体而言我们的方法产生了最好的结果。与CRN相比我们的方法显着提高了 AMOTA、FP、FN 和 IDS。我们比较的跟踪结果都是基于CenterPoint中基于速度的最近距离匹配获得的因此跟踪性能的提高主要是由于我们的方法更准确地预测速度。下面是消融实验图像骨干网是ResNet50分辨率是256x704。如表 4 所示每个模块都可以持续提高性能。与单模态相比使用多模态输入可以显着提高模型性能。与常用的BEV编码器如SECOND相比使用提出的雷达稠密编码器(RDE)可以获得1.3%的NDS和1.6%的mAP提高。更重要的是剪枝顺序解码器 (PSD) 将 NDS 提高了 2.2%mAP 提高了 2.7%。在训练期间将解码器的数量设置为 6在推理过程中仅使用前3层会导致出色的性能同时将推理时间减少了17.7毫秒同时将 NDS 提高了 0.2%。造成这种现象的原因是在每一层之后重新计算position embedding可以快速获得准确的对齐和更快的收敛但会使一些query集中在同一个区域。此外通过顺序结构在每一层融合不同的模态信息将导致更多transformer层数在推理过程中减少解码器层的数量可以加快推理过程而不会降低性能。最后是模型鲁棒性分析如表6所示RCTrans在不同的传感器故障情况下优于所有现有的方法。具体来说与 RCBEVDet 相比RCTrans 在相机出现故障的条件下将 mAP 分别提高了 5.0%、15.3% 和 3.8%。值得注意的是当丢弃的相机数量为3时RCTrans 仍然可以得到接近空丢弃一个相机的效果这是对过去方法的重要改进。上述现象表明我们的模型可以在传感器故障情况下实现更稳定的效果。

查看全文

http://www.hkea.cn/news/14527224/