当前位置：首页 > news >正文

采集网站文章做网站国家大学科技园郑州

news 2026/4/26 13:43:15

采集网站文章,做网站国家大学科技园郑州,sqlite wordpress,h5在线编辑器端到端的强势来袭#xff0c;好久了~~~ 简单翻译#xff1a;端到端真的需要感知任务嘛#xff1f; code https://github.com/PeidongLi/SSR. https://arxiv.org/pdf/2409.18341 1. 摘要端到端自动驾驶#xff08;E2EAD#xff09;方法通常依赖于监督式感知任务来提取显…端到端的强势来袭好久了~~~ 简单翻译端到端真的需要感知任务嘛 code https://github.com/PeidongLi/SSR. https://arxiv.org/pdf/2409.18341 1. 摘要端到端自动驾驶E2EAD方法通常依赖于监督式感知任务来提取显式场景信息如目标、地图。这种依赖性需要昂贵的标注并在实时应用中限制了部署和数据的可扩展性。在本文中我们提出了一种新颖的框架——SSR它仅使用16个导航引导的Token作为稀疏场景表示Sparse Scene Representation高效提取端到端自动驾驶E2EAD所需的关键信息。我们的方法消除了对监督式子任务的依赖使计算资源能够集中处理直接与导航意图相关的核心元素。此外我们引入了一种时序增强模块利用鸟瞰图BEV世界模型通过自监督对预测的未来场景与真实未来场景进行对齐。在nuScenes数据集上SSR达到了最先进的规划性能相较于当前领先的E2EAD方法UniAD L2误差相对降低 27.2%碰撞率降低 51.6%推理速度提升 10.9 倍训练时间加快 13 倍该框架在实时自动驾驶系统方面取得了重大突破为未来的大规模部署奠定了基础。 2. 介绍基于视觉的端到端自动驾驶E2EADHu et al., 2023bJiang et al., 2023Sima et al., 2023Zheng et al., 2024bSun et al., 2024Weng et al., 2024Li et al., 2024aGuo et al., 2024近年来受到了广泛关注被认为是一种经济高效的自动驾驶方案。传统的自动驾驶架构通常由独立的感知和规划模块组成其中感知模块大多由神经网络NN处理而规划模块往往依赖基于规则的数据流。这种模块化设计可能导致信息在传输过程中丢失从而影响最终性能。E2EAD 通过端到端神经网络直接从图像预测规划轨迹减少了信息损失提高了整体性能。然而大多数现有的 E2EAD 方法仍然依赖复杂的感知框架通常包含额外的神经网络规划模块。这些方法通常继承了传统感知任务如目标检测Li et al., 2022bPhilion Fidler, 2020、地图构建Li et al., 2022aLiao et al., 2022、占用预测Sima et al., 2023Huang et al., 2023等导致网络规模庞大、计算成本高昂。尽管这些模型在一定程度上实现了模块集成但仍然依赖于独立的子任务监督因此仍然需要大量数据标注扩展性有限并且难以满足实时部署的需求。许多 E2EAD 方法仍然沿袭了传统 BEV 感知范式但一个关键问题往往被忽视E2EAD 系统是否仍然需要如此复杂的感知任务现有方法通常使用多个感知分支来监督任务特定的查询task-specific queries这些查询源自密集的 BEV 特征后者封装了丰富的场景信息。依赖辅助感知任务的主要原因是需要从大量场景元素中提取关键信息这限制了数据的可扩展性和实时应用能力。因此我们希望找到一种更聚焦的方法直接关注与驾驶相关的关键信息而不依赖辅助监督。挑战如何在无需辅助感知监督的情况下高效提取并聚焦计算资源于场景的关键部分为了解决这个问题我们提出了SSRSparse Scene Representation一个全新的 E2EAD 框架该框架利用导航引导的稀疏场景表示通过时序上下文进行自监督学习而不依赖显式感知监督。核心思想像人类驾驶员一样基于导航指令关注关键场景元素人类驾驶员在行驶过程中往往会根据导航提示选择性地关注场景中的关键元素。受到这一点的启发我们发现仅需从密集的 BEV 特征中提取最少量的 Token稀疏查询即可实现高效的场景表示从而满足自动驾驶的需求。由于 E2EAD 方法不依赖高精度地图作为输入因此需要一个高层级指令如“左转”“右转”“直行”来指导导航Hu et al., 2023bJiang et al., 2023。我们的方法正是基于导航指令提取场景查询类似于人类的注意力机制。对比传统方法SSR 如何实现感知优化如图 2(a) 所示现有方法仍然沿用 BEV 感知范式提取所有感知元素并依赖TransformerVaswani et al., 2017 在额外的规划阶段筛选相关信息。相比之下SSR图 2(b) 仅在导航指令的引导下提取核心感知元素减少冗余从根本上摆脱了模块级级联架构并采用**导航引导的感知Navigation-Guided Perception**方式进行优化。尽管部分已有工作Sun et al., 2024Zhang et al., 2024试图通过跳过 BEV 特征构建来降低计算成本但它们仍然依赖于数百个任务特定的查询。相比之下我们的方法仅使用 16 个 Token并由导航指令引导大幅减少计算开销。时序自监督学习如何摆脱感知任务监督 SSR 进一步利用时序上下文信息减少对感知任务监督的需求。我们的核心假设是如果预测的动作与真实执行的动作一致那么预测的未来场景应当与真实的未来场景匹配。基于此我们提出了一种BEV 世界模型BEV World Model其核心是输入当前 BEV 特征规划轨迹目标预测未来 BEV 特征并自监督学习以匹配真实未来场景这种方法不仅可以替代感知任务监督还可以同时优化场景表示和规划轨迹无需额外的人工标注。实验结果SSR 在 nuScenes 上的突破性表现在 nuScenes 数据集Caesar et al., 2020上SSR 展现出了最先进的规划性能同时保持了极低的计算成本如图 1 所示平均 L2 误差降低 0.28 米相对提升 27.2%平均碰撞率相对降低 51.6%相比 UniADHu et al.,2023b训练时间减少至 UniAD 的 1/13 推理速度提升 10.9 倍在无需任何数据标注的情况下我们的模型成功在大规模数据管理和实时应用中展现出卓越的性能进一步提升了自动驾驶系统的可行性。主要贡献提出了一种以人类驾驶启发的 E2EAD 框架利用导航指令引导的稀疏查询自适应关注关键场景元素大幅降低计算成本。引入 BEV世界模型进行时序自监督有效利用动态场景信息摆脱昂贵的感知任务监督。在 nuScenes 数据集上实现SOTA最先进性能以极低的训练和推理成本树立实时 E2EAD 的新基准。结论 SSR通过导航引导的感知方式和时序自监督学习突破了传统 BEV 感知的冗余设计减少了计算开销并在无监督的情况下达到 SOTA性能标志着端到端自动驾驶向更高效、更可扩展的方向迈出了重要一步。 2 相关工作 2.1 基于视觉的端到端自动驾驶端到端E2E自动驾驶的研究可以追溯到 1988 年的 ALVINN (Pomerleau, 1988)该系统使用简单的神经网络生成转向输出。NVIDIA 于 2016 年开发了一种基于卷积神经网络CNN的 E2E 系统原型 (Bojarski et al., 2016)跳过了手动任务分解的步骤。近年来基于视觉的 E2E 自动驾驶研究的复兴得益于 BEV 感知的快速发展 (Li et al., 2022b; Liao et al., 2022; Liu et al., 2022; Huang et al., 2023) 以及 Transformer (Vaswani et al., 2017) 等现代架构的引入。 ST-P3 (Hu et al., 2022b) 在感知、预测和规划模块方面进行了改进以增强时空特征学习同时集成了深度估计和 BEV 分割等辅助任务。UniAD (Hu et al., 2023b) 在先前 BEV 感知工作的基础上构建了一种级联框架包含目标检测、目标跟踪、地图构建、占用估计和运动预测等多种辅助任务。VAD (Jiang et al., 2023) 通过矢量化场景表示减少了 UniAD 中的目标跟踪和占用估计算法以简化任务设计。GenAD (Zheng et al., 2024b) 探索了使用生成模型进行轨迹生成并在 VAD 的基础上联合优化运动和规划模块。PARA-Drive (Weng et al., 2024) 进一步研究了辅助任务之间的关系将它们重新组织为并行执行并在推理时停用不必要的任务。相比之下我们的方法完全去除了所有感知任务同时在准确性和效率上都取得了显著的性能提升。 2.2 自动驾驶中的场景表示大多数自动驾驶研究 (Hu et al., 2022b; 2023b; Jiang et al., 2023; Zheng et al., 2024b) 继承了来自感知任务的场景表示方法。例如Li et al. (2022b) 采用了密集的 BEV 特征作为主要的场景表示方式。在这些框架中特定任务如检测和地图构建会利用任务查询机制从 BEV 特征中提取信息并在人工标注的监督下进行训练。这些方法虽然能提供丰富的场景信息但也导致了模型复杂度的增加尤其是在基于占用网格的场景表示方法 (Sima et al., 2023; Zheng et al., 2024a) 中这种复杂性进一步阻碍了实时应用。近年来受 BEV 目标检测中稀疏范式 (Lin et al., 2022; Liu et al., 2023) 的启发稀疏 E2E 自动驾驶方法 (Sun et al., 2024; Zhang et al., 2024) 直接利用任务查询与图像特征进行交互尝试完全跳过 BEV 特征的生成。然而尽管这些方法减少了 BEV 处理的计算量它们仍然依赖于数百个任务查询降低了端到端范式所承诺的简单性和高效性。 LAW (Li et al., 2024a) 提出了使用视图潜在查询view latent queries来表示每个摄像头图像仅用一个查询来表达整个视图但这种方法会损失信息保真度导致性能下降。UAD (Guo et al., 2024) 试图将 BEV 特征划分为角度扇区但仍然依赖于开放集检测器的标注进行监督因此未能真正减少任务查询的复杂度。在本工作中我们提出了一种新方法 SSR它通过自适应学习的最小化查询集来表示场景从而在提升效率的同时提高性能。 2.3 自动驾驶中的世界模型世界模型因其生成能力在自动驾驶领域受到越来越多的关注尤其是在近年来。世界模型的重要性在于可以生成丰富的训练数据包括稀有的极端案例早期研究 (Hu et al., 2022a; 2023a) 已经展示了这一点。近年来世界模型被集成到端到端自动驾驶E2EAD框架中以提升其性能 (Wang et al., 2023b; Zheng et al., 2024a; Min et al., 2024; Li et al., 2024a; Guo et al., 2024)。例如DriveWM (Wang et al., 2023b) 采用扩散模型来预测多视角视频并利用这些预测结果进行规划。OccWorld (Zheng et al., 2024a) 同时预测规划轨迹和占用地图而 DriveWorld (Min et al., 2024) 使用占用世界模型进行预训练但依赖于昂贵的人工标注。LAW (Li et al., 2024a) 提出了潜在世界模型latent world model以改善 E2EAD 训练。在本研究中我们提出了一种适用于稀疏场景表示的 BEV 世界模型该模型能够有效编码时序信息从而提升 E2EAD 的性能。 3 方法 3.1 概述问题定义在时间步给定周围视角摄像头图像 I t I_t It 和高层导航指令 cmd基于视觉的端到端自动驾驶E2EAD模型的目标是预测规划轨迹该轨迹由 BEV 空间中的一组点组成 T { ( x i , y i ) ∣ i 1 , 2 , … , k } T \{ (x_i, y_i) \mid i 1, 2, \dots, k \} T{(xi,yi)∣i1,2,…,k} BEV 特征构建如图 3 所示N 视角摄像头图像 I t I_t It经过 BEV 编码器处理以生成 BEV 特征。在 BEV编码器如 BEVFormer中首先使用图像骨干网络处理得到图像特征 F t [ F t i ] i 1 N F_t [F_t^i]_{i1}^{N} Ft[Fti]i1N然后BEV 查询通过交叉注意力机制从前一帧的 BEV 特征 B t − 1 B_{t-1} Bt−1 提取时间信息并从 F t F_{t} Ft中提取空间信息。最终计算当前帧的 BEV 特征 B t CrossAttn ( Q , B t − 1 , F t ) B_t \text{CrossAttn}(Q, B_{t-1}, F_t) BtCrossAttn(Q,Bt−1,Ft). B t CrossAttention ( Q , F t , F t ) . B_t \text{CrossAttention}(Q, F_t, F_t). BtCrossAttention(Q,Ft,Ft).. 其中BEV 特征 B t B_t Bt 具有维度 B t ∈ R H × W × C B_t \in \mathbb{R}^{H \times W \times C} Bt∈RH×W×C其中×表示 BEV 特征的空间维度代表通道数。核心计算模块采用交叉注意力机制来计算 BEV 特征。BEV 特征是一种常见的场景表示方式因为它包含丰富的感知信息。然而这种密集表示在搜索相关感知元素时会增加推理时间。为了解决这个问题我们引入了一种基于自适应空间注意力的稀疏场景表示方法该方法在保持高保真度场景理解的同时显著降低了计算负担。具体来说我们提出了 Scenes TokenLearnerSTL模块从 BEV 特征中提取场景查询 S t [ s i ] i 1 N s ∈ R N s × C , S_t [s_i]_{i1}^{N_s} \in \mathbb{R}^{N_s \times C}, St[si]i1Ns∈RNs×C, 其中 N s N_s Ns 是场景查询的数量该模块的结构如图 4 所示。为了更好地关注与导航意图相关的场景信息我们采用 Squeeze-and-ExcitationSE层Hu et al., 2018将导航指令 cmd \text{cmd} cmd 编码到密集 BEV 特征中生成导航感知 BEV 特征 B t navi B_t^{\text{navi}} Btnavi B t navi SE ( B t , cmd ) . B_t^{\text{navi}} \text{SE}(B_t, \text{cmd}). BtnaviSE(Bt,cmd). 然后将 B t navi B_t^{\text{navi}} Btnavi 传入 BEV TokenLearnerRyoo et al., 2021模块 T L BEV TL_{\text{BEV}} TLBEV以自适应方式聚焦于最重要的信息 S t T L BEV ( B t navi ) . S_t TL_{\text{BEV}}(B_t^{\text{navi}}). StTLBEV(Btnavi). 对于每个场景查询 s i s_i si我们采用 tokenizer 函数 M i M_i Mi 将 B t navi B_t^{\text{navi}} Btnavi 映射到一个 token 向量 M i : R H × W × C → R C . M_i: \mathbb{R}^{H \times W \times C} \to \mathbb{R}^{C}. Mi:RH×W×C→RC. 该 tokenizer 预测形状为 H × W × 1 H \times W \times 1 H×W×1 的空间注意力图并通过全局平均池化获取最终的场景 token s i M i ( B t navi ) ρ ( B t navi ⊙ ϖ i ( B t navi ) ) , s_i M_i(B_t^{\text{navi}}) \rho(B_t^{\text{navi}} \odot \varpi_i(B_t^{\text{navi}})), siMi(Btnavi)ρ(Btnavi⊙ϖi(Btnavi)), 其中 ϖ ( ⋅ ) \varpi(\cdot) ϖ(⋅) 是空间注意力函数 ρ ( ⋅ ) \rho(\cdot) ρ(⋅) 是全局平均池化函数。最后我们对场景查询 S t S_t St 施加多层自注意力Multi-Head Self-Attention以进一步增强其表达能力 S t SelfAttention ( S t ) . S_t \text{SelfAttention}(S_t). StSelfAttention(St). 由于 S t S_t St 包含所有相关的感知信息我们使用一组路径点查询 W t ∈ R N m × N t × C W_t \in \mathbb{R}^{N_m \times N_t \times C} Wt∈RNm×Nt×C 来提取多模态规划轨迹其中 N t N_t Nt 表示未来的时间步数 N m N_m Nm 表示驾驶指令的数量。路径点查询与场景表示 S t S_t St 通过交叉注意力进行交互 W t CrossAttention ( W t , S t , S t ) . W_t \text{CrossAttention}(W_t, S_t, S_t). WtCrossAttention(Wt,St,St). 然后我们使用多层感知机MLP从 W t W_t Wt 中预测规划轨迹并根据导航指令 cmd \text{cmd} cmd 选择最终输出的轨迹 T ∈ R N t × 2 T \in \mathbb{R}^{N_t \times 2} T∈RNt×2 T Select ( MLP ( W t ) , cmd ) . T \text{Select}(\text{MLP}(W_t), \text{cmd}). TSelect(MLP(Wt),cmd). 最终输出轨迹通过 L1 损失模仿学习损失与真实轨迹 T GT T_{\text{GT}} TGT 进行监督 L imi ∥ T GT − T ∥ 1 . L_{\text{imi}} \|T_{\text{GT}} - T\|_1. Limi∥TGT−T∥1. 3.4 通过 BEV 世界模型进行时序增强我们优先利用时序上下文来增强场景表示而不是单独优化感知子任务。该模块的动机很直观如果我们预测的行动与真实行动一致那么预测的未来场景应该与实际的未来场景高度相似。如图 4 所示我们引入了BEV 世界模型BWM来预测未来的 BEV 特征。首先我们利用输出轨迹 T T T 将当前场景查询转换到未来帧具体使用运动感知层归一化MLNWang et al., 2023a。MLN 模块可以帮助当前场景查询编码运动信息生成梦境查询dreaming queries D t D_t Dt D t MLN ( S t , T ) . D_t \text{MLN}(S_t, T). DtMLN(St,T). 对于梦境查询 D t D_t Dt我们应用多层自注意力Self-Attention机制作为世界模型来预测未来的场景查询 S ^ t 1 \hat{S}{t1} S^t1 S ^ t 1 SelfAttention ( D t ) . \hat{S}{t1} \text{SelfAttention}(D_t). S^t1SelfAttention(Dt). 然而由于自动驾驶系统在相邻帧中可能会关注不同的区域我们不直接用未来场景查询 S t 1 S_{t1} St1 监督预测的场景查询 S ^ t 1 \hat{S}{t1} S^t1。相反我们利用TokenFuserRyoo et al., 2021模块将 S ^ t 1 \hat{S}{t1} S^t1 重构为稠密 BEV 特征 B ^ t 1 \hat{B}{t1} B^t1 B ^ t 1 TokenFuser ( S ^ t 1 , B t ) , \hat{B}{t1} \text{TokenFuser}(\hat{S}{t1}, B_t), B^t1TokenFuser(S^t1,Bt), 等价地 B ^ t 1 ψ ( B t ) ⊗ S ^ t 1 , \hat{B}{t1} \psi(B_t) \otimes \hat{S}{t1}, B^t1ψ(Bt)⊗S^t1, 其中 ψ ( ⋅ ) \psi(\cdot) ψ(⋅) 是一个带有 sigmoid 激活函数的简单 MLP用于将 BEV 特征 B t B_t Bt 映射到权重张量 ψ : R H × W × C → R H × W × N s . \psi: \mathbb{R}^{H \times W \times C} \to \mathbb{R}^{H \times W \times N_s}. ψ:RH×W×C→RH×W×Ns. 然后 S ^ t 1 ∈ R N s × C \hat{S}{t1} \in \mathbb{R}^{N_s \times C} S^t1∈RNs×C 通过乘法 ⊗ \otimes ⊗ 作用在该权重张量上从而获得预测的稠密 BEV 特征 B ^ t 1 ∈ R H × W × C \hat{B}_{t1} \in \mathbb{R}^{H \times W \times C} B^t1∈RH×W×C。这一过程的目标是从预测的场景查询中恢复 BEV 特征以便进行进一步的自监督学习。最后我们使用L2 损失来监督 B ^ t 1 \hat{B}{t1} B^t1使其逼近真实未来 BEV 特征 B t 1 B{t1} Bt1通过未来的周围图像生成定义为BEV 重构损失 L bev L_{\text{bev}} Lbev L bev ∣ B ^ t 1 − B t 1 ∣ 2 . L_{\text{bev}} |\hat{B}{t1} - B{t1} |_2. Lbev∣B^t1−Bt1∣2. 综上所述我们对预测轨迹应用模仿损失 L imi L_{\text{imi}} Limi对预测的 BEV 特征应用BEV 重构损失 L bev L_{\text{bev}} Lbev最终的总损失 L total L_{\text{total}} Ltotal 公式如下 L total L imi L bev . L_{\text{total}} L_{\text{imi}} L_{\text{bev}}. LtotalLimiLbev. 这确保了系统在预测驾驶行为的同时也能对未来场景进行合理建模。实验 4.1 数据集和评测指标我们在广泛使用的 nuScenes 数据集Caesar et al., 2020上评估所提出的 SSR 框架并遵循以往研究Hu et al., 2023bJiang et al., 2023的设定。为了评估规划性能我们采用位移误差L2误差和碰撞率CR与以往研究保持一致。位移误差通过计算预测轨迹与真实轨迹的 L2 误差来衡量预测轨迹的质量。碰撞率计算按照预测轨迹行驶时与其他物体发生碰撞的概率。此外为了更好地评估框架在消融实验中的表现我们测量路缘碰撞率CCR该指标由 Li et al. (2024b) 提出。所有指标均在 3s 未来时域内计算每 0.5s 评估一次并在 1s、2s 和 3s 时进行测量。我们观察到 VAD (Jiang et al., 2023) 和 UniAD (Hu et al., 2023b) 采用不同的方法来计算评测结果 VAD 计算所有过去帧的平均值AVG。UniAD 仅采用最新帧的结果并取最大值MAX。此外UniAD 不考虑行人在 GT真实占用地图中的碰撞计算从而导致较低的碰撞率。为了保证公平性我们使用 MAX 作为默认评测方式但同时计算 AVG 结果以便与其他方法进行对比见表 1。在 MAX 评测中我们包括行人在碰撞率计算中。此外我们调整了 BEV 分辨率从 0.5m 到 0.1m 来计算 CCR以符合 Li et al. (2024b) 的标准。 4.2 实现细节参数设置 SSR 基于 VADJiang et al., 2023实现并采用 VAD-Tiny 的设定。图像骨干网络采用 ResNet-50 (He et al., 2016)输入分辨率为 640 × 360。BEV 编码器采用 BEVFormer (Li et al., 2022b)与以往研究一致Hu et al., 2023bJiang et al., 2023Zheng et al., 2024b。BEV 表示的分辨率为 100 × 100然后压缩成 16 个稀疏场景 token。导航指令数量为 3与先前工作保持一致。训练细节训练 12 轮epochs使用 8 张 NVIDIA RTX 3090 GPU每张 GPU 的 batch size 为 1。训练时长约 11 小时比 UniAD 快 13 倍。采用 AdamWLoshchilov Hutter, 2019优化器学习率设为 5×10⁻⁵。模仿损失Limi与 BEV 监督损失Lbev均设权重 1.0。其他设置均与 VAD-Tiny 保持一致。 4.3 主要实验结果我们的方法在 L2 误差和碰撞率CR 方面超过现有端到端自动驾驶E2EAD方法见表 1。相较于 UniAD该方法依赖多个辅助任务我们的 L2MAX 误差平均减少 0.28m降低 27.2%CRMAX 误差减少 0.16%降低 51.6%且无需额外的辅助任务。相较于 VAD-Tiny L2AVG 误差减少 0.39m降低 50.0%CRAVG 误差减少 0.46%降低 79.3%甚至超越 VAD-BaseL2AVG 误差降低 45.8%CRAVG 误差降低 70.7%。推理速度19.6 FPS见附录 A.4比 UniAD 快 10.9 倍比 VAD-Base 快 4.3 倍。比 SparseDriveSun et al., 2024快 2.2 倍且 L2AVG 误差减少 0.22m。与去辅助任务的方法对比 LAW (Li et al., 2024a) 速度与 SSR 接近但 L2 误差和碰撞率仍存在较大差距。 UAD (Guo et al., 2024) 采用更大的 ResNet-101 骨干网络1600 × 900 高分辨率输入并额外引入开集 2D 检测器监督物体信息。即便如此其 L2MAX 误差仍比 SSR 高 0.15m且推理速度仅为 SSR 的 1/2.7。 4.4 消融实验 4.4.1 组件消融实验表 2(a) 展示了对各个模块的消融实验引入 STL空间转换层替代直接交互 BEV 特征后碰撞率降低一半以上表明 STL 有效过滤无关信息减少计算冗余。引入 BEV 世界模型平均碰撞率进一步降低到 0.15%证明其对场景动态理解的提升。 4.4.2 场景查询数量实验在表 2(b) 中我们研究了不同数量的场景查询Scene Queries 对模型性能的影响 8 个查询时 L2 误差最优但碰撞率较高。 16 个查询在 L2 误差与碰撞率之间达到最佳平衡因此我们默认采用 16 查询。64 个查询性能下降可能是因为信息过载导致模型困惑。 4.5 分析与讨论场景查询如何表示场景图 5 可视化了 16 个 BEV 空间注意力图的一部分结果表明每个查询关注 BEV 空间中的不同区域。组合所有查询后整个场景均被覆盖前方区域权重更高。这些注意力分布在不同帧间保持稳定见图 6。场景查询学到了什么图 7 可视化了不同行驶场景下的 BEV 特征超车时查询聚焦在左侧车辆及左后区域图 7a。直行时查询较为分散图 7b。右转时查询关注右侧车辆和左侧人行道图 7c。导航信息如何作用表 3 显示导航指令提升了所有情况下的规划结果。图 8 可视化了不同指令下的查询变化直行时查询均匀分布。左转时查询关注左侧行人。右转时查询重点关注右前方车辆。 SSR 能否学习足够的感知信息表 4 研究了 SSR 是否需要感知任务结果表明即便无显式感知任务SSR 仍能维持高性能。 4.6 可视化在图9中我们展示了SSR在规划轨迹方面的定性结果显示其与地面实况的对齐程度明显优于VAD-Base。由于篇幅限制更多场景的可视化结果包括失败案例可在附录A.2和A.3中找到。

查看全文

http://www.hkea.cn/news/14422166/