做个营销型网站多少钱,百度推广如何代理加盟,完整的社群营销方案,做黑网站赚钱吗我自己的原文哦~ https://blog.51cto.com/whaosoft/13383340
#世界模型如何推演未来的千万种可能
驾驶世界模型#xff08;DWM#xff09;#xff0c;专注于预测驾驶过程中的场景演变#xff0c;已经成为追求自动驾驶的一种有前景的范式。这些方法使自动驾驶系统能够更…我自己的原文哦~ https://blog.51cto.com/whaosoft/13383340
#世界模型如何推演未来的千万种可能
驾驶世界模型DWM专注于预测驾驶过程中的场景演变已经成为追求自动驾驶的一种有前景的范式。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境互动。在这篇综述中我们提供了DWM最新进展的全面概述。我们根据预测场景的模式对现有方法进行分类并总结了它们对自动驾驶的具体贡献。此外还回顾了高影响力的数据库和针对DWM研究范围内不同任务的各种指标。最后我们讨论了当前研究的潜在局限性并提出了未来方向。本综述为DWM的发展和应用提供了宝贵的见解促进了其在自动驾驶中的更广泛应用。
仓库链接https://github.com/LMD0311/Awesome-World-Model
简介
世界模型旨在基于过去的观察和动作预测未来的观察结果。在自动驾驶中大视野和现实世界驾驶场景的高度动态特性带来了独特的挑战。然而驾驶世界模型DWM通过促进准确的场景演变预测在应对复杂环境中发挥了关键作用。最近由于其在确保安全可靠的自动驾驶方面的重要作用DWM受到了越来越多的关注。 如图1所示DWM通常涉及预测场景演变即根据历史观察生成未来场景。在此基础上大多数方法可以进一步控制场景演变以符合给定条件或输出基于观察和预测的响应。由于自动驾驶需要处理多种数据类型DWM已经产生了预测不同模式场景的变体。一些方法利用2D图像中的语义信息而其他方法则学习3D点云或占用率中的空间几何和精确动力学。此外一些方法我们系统地将其归类为无场景范式优先考虑潜在状态或多智能体行为而不是详细场景。
实现自动驾驶的道路将面临诸如高数据获取成本、动态环境的复杂性以及管理罕见案例等挑战。DWM可能通过改进未来状态预测的规划、用多样化的合成数据丰富训练数据集以及通过可扩展的预训练增强下游任务为这些问题提供实用的解决方案。这些发展突显了DWM在该领域的多功能性和有效性。
本文全面调查了相关工作。具体而言本文的贡献可以总结如下
我们全面回顾了DWM的最新进展按预测场景的模式对方法进行分类并概述了DWM在自动驾驶中的应用。我们对当前的局限性进行了批判性分析并概述了有前景的未来研究方向为研究社区提供了宝贵的见解并促进了DWM的持续发展。
我们注意到最近出现了与DWM相关的综述其中一些主要关注通用世界模型而其余的未能提供DWM应用的详细分类。相比之下本文不仅介绍了近期方法的系统分类还提供了DWM多样化应用的全面总结旨在理解当前进展并探索未来方向。
驾驶世界模型
驾驶世界模型Driving World Models, DWM所预测的场景涵盖多种模态包括图像、点云和占据栅格occupancy这既带来了独特优势也带来了挑战。最近的进展越来越侧重于利用互补的多传感器数据以发挥各个模态的优势同时减轻其固有局限性。此外无场景范式scene-free paradigms探索在潜在空间内进行预测或专注于对复杂的多智能体交互进行建模。表1概述了近期的方法。本节从各种预测模态的角度介绍DWM的最新进展。 2D场景演化
驾驶世界模型DWM利用先进的生成技术如自回归Transformer和扩散模型来预测真实的二维场景演化同时确保符合物理规律。
GAIA-1率先将场景演化预测表述为下一个标记预测任务并使用扩散解码器系统地捕捉驾驶场景中的时空动态和高级结构。相比之下DriveDreamer推进了用于多模态控制的条件扩散框架并将DWM范式扩展到合成数据生成。在这些基础方法之上后续的DWM研究主要集中在提高场景演化预测的保真度、一致性和可控性。
生成场景的保真度对于确保真实世界驾驶场景的物理合理模拟至关重要。Vista采用稳定的视频扩散技术并引入新颖的损失函数来捕捉动态行为同时保持结构完整性实现高分辨率和高保真度的场景生成。此外它通过纳入多个参考帧来确保动力学合理。
DWM预测的场景演化应准确反映三维世界确保每个物体都有合理的三维位置和空间关系同时整个场景表现出空间连续性。通过分解联合建模以相邻视图为条件预测中间视图Drive-WM显著提高了视图之间的一致性。此外DrivePhysica引入3D框作为条件输入以增强对空间关系的理解加强空间一致性并改善对遮挡结构的理解。另一方面WoVoGen预测明确的世界体world volumes以指导多视图视频生成确保世界内和传感器间的一致性。类似地NeMo和GEM将三维预测任务纳入其框架而BEVWorld通过整合多传感器数据输入进一步拓展了这些工作。
时间一致性在使DWM能够有效捕捉场景的演化动态方面起着关键作用。确保预测序列中帧之间的连贯过渡对于反映现实场景演化至关重要。最近的进展通过架构创新来应对这一挑战。例如InfinityDrive引入了一种多分辨率时空建模框架在训练过程中逐步扩大时间感受野。通过集成旨在保留长程时间依赖关系的记忆机制这一方法得到了进一步增强。与此同时DrivingWorld通过提出一系列技术包括时间感知标记化、下一状态预测、随机标记丢弃和平衡注意力策略解决了自回归方法中的时间一致性问题。这些创新共同显著提高了在动态场景理解中对时间一致性进行建模的能力。
一个合理的DWM在生成未来场景时应适应特定要求。如表1所示控制条件大致分为两类1低级条件如动作自车信息、轨迹坐标或位移和布局物体放置为自车运动和物体定位设定精确规范。2高级条件如文本指令或描述和目的地车辆到达位置不仅要求实现指定目标还需要创建逻辑中间步骤。一些工作有效地整合了低级或高级控制条件来生成未来场景产生合理的输出响应如驾驶动作、未来轨迹和文本。其中GEM平衡两种条件类型方面表现出色生成的驾驶视频严格遵循指定轨迹同时实现向期望位置的自然移动。相反DriveDreamer-2利用大型语言模型从高级文本输入中导出各种低级条件显著增强了生成图像的多样性并提供了用户友好的生成过程。请注意控制条件和输出响应也广泛应用于3D和无场景范式中。
总之DWM利用生成技术合成具有时空一致性和物理合理性的逼真二维驾驶场景。这些框架有效地提高了真实感、可控性和稳定性实现了对场景演化的可靠预测。
3D场景演进
三维数据表示本质上保留了结构一致性、详细的几何信息和精确的空间关系使得三维场景演化预测成为驾驶世界模型DWM的一项重要任务。在实践中通常使用两种主要类型的三维数据即占据栅格和点云。
占据栅格场景演进
占据栅格提供了几何一致的体素建模和结构化的空间编码这使得占据栅格特别适合于场景演化建模并在各种方法中得到广泛应用。
OccWorld使用时空变换器从历史观测中生成未来场景和自车姿态标记并通过空间混合实现全局一致的场景预测。随后OccLLaMA集成了多模态大语言模型作为核心架构而RenderWorld分别对空气网格和非空气网格进行标记化以进行细粒度的三维场景建模。基于扩散的方法进一步提高了可控性和生成质量。OccSora能够根据任意轨迹预测四维占据栅格场景演化。DOME采用连续的类似变分自动编码器VAE的标记器来保留复杂的空间信息。考虑到占据栅格的高计算需求最近的方法试图提高效率。DFIT-OccWorld仅预测动态体素流同时通过姿态变换计算静态体素。类似地GaussianWorld在高斯空间中明确地对场景演化进行建模专注于变化而不是重建整个场景。
由于占据栅格不能直接从传感器获取从图像重建占据栅格至关重要。DWM将这一三维预测任务扩展到四维即时空预测。一种直接的方法是集成Img2Occ模块但这可能会导致误差累积。然而最近的进展旨在直接从二维输入推断三维世界的时空演化实现语义、三维结构和时间动态的协同学习。DriveWorld在预测场景动态时间变化的同时传播静态空间上下文。通过从多视图视频中学习时空表示它实现了精确的占据栅格预测。此外Drive-OccWorld将规划器与DWM相结合利用基于运动感知的鸟瞰图BEV序列作为中介直接从多视图图像预测占据栅格和流。这种集成为规划器提供了丰富的先验信息从而提高了规划过程的安全性和准确性。
除了从图像重建占据栅格外一些方法还从点云导出占据栅格伪标签实现自监督训练。例如UnO通过从未来激光雷达扫描中采样正负例来生成连续的占据场实现对 点云的自监督学习。类似地UniWorld和NeMo通过对点云进行体素化生成占据栅格伪标签。UniWorld融合多帧点云生成伪标签并学习时空动态而NeMo进一步集成图像预测和运动流模块以增强体素表示提高规划性能。
点云场景演化
点云通常由激光雷达传感器捕获提供了三维环境的精确几何表示。然而其稀疏和无结构的性质给生成任务带来了重大挑战使得有效利用点云进行场景建模和预测变得复杂。Copilot4D采用矢量量化变分自编码器VQ-VAE标记器来处理复杂的观测并通过利用改进的离散扩散采用并行推理加速方法。此外LidarDM通过结合静态场景和移动物体提供基于布局感知的点云视频生成。
视觉点云预测visual point cloud forecasting不是直接输入点云而是试图仅使用历史视觉图像预测未来点云演化。ViDAR提出将视觉点云预测作为一种可扩展的预训练任务并探索语义、三维结构和时间动态的融合。最近HERMES出现将视觉点云预测与语言任务相结合以增强生成和场景理解能力。尽管ViDAR使用了更长的历史视野和先进的潜在渲染模块但HERMES的性能仍显著优于它。
多传感器数据融合已成为自动驾驶系统发展的关键趋势因为它能够将二维数据的高分辨率细节与三维数据的精确空间几何信息相结合。MUVO将多模态数据组合成一种与传感器无关的几何表示通过图像、占据栅格和点云实现准确的场景建模和演化预测。类似地BEVWorld将图像和点云合并为统一的鸟瞰图BEV表示并通过扩散预测未来表示随后使用基于渲染的方法重建多传感器数据实现自监督学习。相比之下HoloDrive采用两个单独的模型并对齐它们以联合生成多相机数据和激光雷达数据确保二维和三维空间之间的一致性。
总体而言DWM将生成技术扩展到三维场景演化利用占据栅格和结构化表示来确保空间一致性同时集成生成技术进行动态预测。它们通过多传感器融合增强了场景理解能力能够更准确、更稳健地预测复杂场景的演化。
无场景范式
除了常用的图像、点云和占据栅格预测外一些方法还探索了无需详细场景的预测。例如实时自动驾驶系统优先考虑潜在世界状态转换而行为模拟框架则强调以智能体为中心的运动动力学。我们将这些方法系统地归类为无场景范式。
潜在状态
与原始感官数据相比潜在状态提供了一种高效的表示能够无缝集成到决策过程中并增强在各种驾驶环境中的泛化能力。基于强化学习的规划器通常利用潜在DWM它能提供准确而密集的奖励、高效的并行训练和可解释的输出。监督学习也受益于对潜在状态的预测。例如LatentDriver将预测的潜在状态和可能的行动建模为混合分布捕捉决策的随机性而LAW利用自监督潜在特征来增强端到端驾驶能力并提高效率。
多智能体行为
多智能体行为预测专注于预测场景内所有智能体的运动。TrafficBots探索了虚拟智能体bot agents行为的真实性。每个智能体根据其相应的目的地学习独特的 “个性”并从鸟瞰图BEV视角预测行动。类似地CarFormer将每个对象建模为自监督的槽表示slot representation其中隐含了驾驶所需的必要信息。相比之下AdaptiveDriver预测周围智能体的独特行为模式随后展开相应的DWM来模拟它们的行为。
无场景范式超越了二维和三维表示。潜在状态提高了效率和泛化能力而基于多智能体行为的模型捕捉了交互以降低风险。这些方法共同提高了自动驾驶系统的通用性。
应用
驾驶世界模型Driving World Model, DWM是一种自监督、数据驱动的方法通过训练来预测未来场景的演变部分方法仅需极少的注释数据。 对生成任务的广泛研究使DWM能够用作模拟器并生成数据。此外DWM可以直接为决策过程和训练流程提供支持从而增强自动驾驶系统的能力。在本节中我们将总结DWM的应用重点阐述世界模型对推动自动驾驶发展的贡献。
仿真模拟
自自动驾驶研究初期以来仿真模拟就一直是训练和评估驾驶模型的关键工具并且已经取得了显著成果 。然而传统模拟器面临着诸多挑战比如场景多样性有限以及模拟环境与现实世界之间存在差距。DWM凭借其数据驱动的生成式模拟能力有望解决这些问题。如图2(a) 所示DWM能够基于各种输入形式模拟驾驶过程严格遵循给定指令。这些条件包括但不限于车辆动作和场景描述这不仅让模拟器使用起来更加便捷还使其能够自主生成更精细的结构和多样化的场景细节。
DWM在逼真度、一致性和可控性方面取得了显著进展这些对于可靠的现实世界模拟至关重要。Vista 能够提供高逼真度且高度可控的视频模拟有助于进行动作评估。与之相关的GEM 进一步提升了模拟质量可以精确控制物体动力学、轨迹和人体姿态。同样多项研究尝试在3D空间中模拟驾驶场景的演变 并展现出良好的前景。除了视觉上的真实感近期的工作还强调对动作逼真度的评估新提出的评估框架ACT-Bench 就是一个例证它引入了强大的基线框架显示出与动作指令的高度契合。此外TrafficBots 对虚拟智能体行为的真实性进行了研究进一步丰富了模拟场景。
基于强化学习的方法尤其受益于基于DWM的模拟的灵活性。Think2Drive 通过在潜在状态空间中进行推演实现了高效的并行训练避免了与复杂物理模拟器的交互。随后Imagine2-Drive 利用高逼真度的DWM来模拟和评估多步轨迹显著提升了规划性能。
DWM将高逼真度的生成能力与精准的可控性相结合不仅缩小了模拟环境与现实世界的差距增加了模拟场景的多样性还实现了并行交互。这些进展极大地推动了自动驾驶领域的仿真模拟发展。
数据生成
与注重条真实的仿真不同数据生成强调数据的多样性和保真度旨在实现更广泛、更全面的场景覆盖同时缩小与真实世界数据的差距。图2(b) 表明DWM可以使用相同的注释生成多样化的驾驶视频这显著提高了数据标注的多样性。
事实证明DWM在利用合成数据扩充数据集方面非常有效 。例如DrivePhysica 可以合成无限数量的高保真且多样化的驾驶视频而LidarDM 能够生成高质量的激光雷达数据。值得注意的是HoloDrive 展示了合成对齐的多模态数据的潜力。这些合成数据对下游任务如3D检测有促进作用体现了DWM的可控性和高生成质量。虽然这些方法通常依赖于真实世界的注释来合成数据但近期的进展 也在合成具有新颖轨迹的驾驶视频缓解了真实世界数据集中的分布不均衡问题。
鉴于目前高质量自动驾驶数据集在规模上的局限性DWM显示出利用合成技术获取大量高质量驾驶数据的潜力为自动驾驶研究的推进提供了支持。
前瞻性驾驶
预瞻性驾驶强调通过对未来状态的准确预测来提升车辆的规划能力。通过预测周围智能体的行为和环境动态自车可以主动探索不同行动的结果从而在复杂驾驶场景中提高安全性和适应性。
如图2(c) 所示典型的预瞻性驾驶方法是利用DWM预测多种潜在行动的结果然后对这些预测进行评估以优化最终行动决策。例如DriveWM 将DWM的预测结果与奖励函数相结合以选择最佳轨迹而Drive-OccWorld 则将鸟瞰图BEV嵌入引入规划器进一步优化规划。同时ADriver-I 将多模态大语言模型和视频扩散模型相结合联合预测视觉 - 行动描述自车信息的图像和文本对展现出长时规划的潜力。一些方法还将预测和规划集成到一个统一的模型中在实现出色性能的同时提供了更大的灵活性 。
准确的预测有助于提升驾驶性能另一方面使预测结果与未来观测保持一致也被证明是有效的 。此外AdaWM 利用预测状态与未来状态之间的差异来指导微调提高了对陌生环境的适应性。
预瞻性驾驶的成功表明DWM不仅可以通过仿真模拟和数据生成间接促进自动驾驶还能积极参与决策和优化过程实现预测与规划的协同效应。
4D预训练
预训练已在多种方法中得到了实证验证。然而传统的预训练方法往往忽略了4D动态因素而这对于自动驾驶至关重要。DWM旨在预测场景演变这一目标天然适合自监督学习和大规模预训练。如图2(d) 所示DWM利用大量未标记的多模态数据进行4D预训练提升了一系列下游驾驶任务的性能。
现有的大多数任务都强调以视觉为中心的预训练旨在通过从多视图图像数据中学习4D场景演变来捕捉空间和动态感知。为了利用大规模未标记的图像 - 点云对UniWorld 从点云生成占据栅格伪标签用于4D预训练。为了消除对伪标签的依赖ViDAR 引入了一种基于视觉点云预测的新方法。通过提出潜在渲染算子该方法保留了所学鸟瞰图BEV表示的判别性3D几何信息确保了与下游任务的无缝集成。此外NeMo 将RGB重建和占据栅格预测相结合学习能够同时保留3D几何和语义信息的4D体素表示。为了捕捉时空动态DriveWorld 分别处理时间动态和静态场景并采用任务提示以适应各种下游任务。
近期的方法也在探索以点云为中心的预训练。UnO 通过预测由未来点云生成的连续4D占据场学习几何结构、动力学和语义信息。相比之下AD-L-JEPA 通过重建掩码嵌入进行预训练实现更简单且学习到的表示更强大。最后BEVWorld 探索对多传感器数据进行预训练将图像和点云编码为统一的鸟瞰图BEV表示。
总体而言DWM通常通过自监督学习进行4D预训练捕捉时空动态减少对注释的依赖并在广泛的任务中提升性能为自动驾驶的发展铺平了道路。
评估
由于驾驶世界模型DWM缺乏标准化的基准测试全面了解现有资源和评估方法对于推动该领域的发展至关重要。在本节中我们将总结自动驾驶领域的主要数据集尤其是针对DWM提出的数据集并讨论为各种基准测试设计的评估指标。
数据集
自动驾驶的发展在很大程度上依赖于高质量的数据集这些数据集需要涵盖多样化和全面的场景。在表2中我们回顾了自动驾驶研究中最具影响力的数据集重点关注其规模和多样性。值得注意的是DrivingDojo是专门为训练具有复杂驾驶动力学的驾驶世界模型而设计的。 评估指标
在自动驾驶领域驾驶世界模型DWM主要通过基于视频生成的方法进行训练并应用于各种与驾驶相关的任务。这些任务的多样性使得单一指标难以全面评估所有研究中的模型性能。因此该领域的研究人员会根据具体的任务和研究领域选择专门的评估指标。表3概述了广泛使用的评估指标及其相应含义。 这些评估指标对不同的DWM进行了深入评估为进一步的研究提供了指导。然而某些方面如一致性和可控性仍有待深入研究。为了解决这些局限性一些研究提出了新的评估指标。例如为了评估可控性一种广泛采用的方法是比较训练好的检测器在生成数据上的输出与相应条件或者与同一检测器在真实数据上的预测结果。此外关键点匹配KPM和平均点到平面能量被引入分别用于评估多摄像头视频和激光雷达视频的一致性。
局限性与未来工作
尽管驾驶世界模型DWM的研究取得了显著进展但仍存在一些局限性可能会阻碍其充分发挥潜力。此外使DWM适用于各种自动驾驶应用仍是一项持续的挑战。在本节中我们将深入讨论当前的局限性并概述未来研究和发展的潜在方向。
数据稀缺
收集驾驶数据成本高昂尤其是对于长尾但对安全至关重要的场景这导致数据集有限且分布不均。近期的研究在扩展和多样化驾驶视频数据集方面取得了进展。然而获取高质量的3D数据和对齐的多传感器数据集仍然具有挑战性。虽然DWM在合成数据以改进下游任务方面显示出了潜力但如何扩充数据以提升DWM本身仍是一个未解决的问题。
效率
生成任务对DWM的推理效率提出了挑战增加了计算成本和延迟这阻碍了其在实时驾驶应用中的使用。详细的4D场景表示进一步加大了对计算和内存的需求。近期的研究强调将场景解耦是一种有效的策略。此外探索更高效的表示形式是一个切实可行的研究方向。
可靠的仿真
一个关键问题是如何确保在复杂模拟例如长时推演和剧烈视角变化和多变的驾驶情况例如多样化的交通和天气下DWM的性能不会显著下降。这对模型的鲁棒性和泛化能力提出了重大挑战。为了解决这些问题一些研究提出了部分解决方案。例如DrivingDojo提供了多样化的驾驶视频数据集AdaptiveDrive开发了适应不同环境的DWMInfinityDrive专注于提高长期性能。尽管取得了这些进展但这仍然是一个极具挑战性和影响力的研究领域未来需要进一步探索和创新。
另一个挑战是模型产生的幻觉和不符合物理规律的情况例如车辆突然出现和速度估计错误即使在正常情况下也可能导致危险的决策。DrivePhysica通过引入额外条件来解决这个问题而具有跨模态验证的多模态场景输出则是另一种可行的解决方案。
统一任务
现有的DWM主要支持预测任务通过预测场景演变来隐含地理解场景而不是通过对这一关键能力的明确监督。结合语言任务为解决这些局限性提供了一个有前景的方向。例如图像字幕和问答QA等任务促进了全面的理解而因果推理则有助于学习支配现实世界演变的基本原理。此外预测和规划的无缝集成即端到端的DWM可以充分发挥框架的潜力。
多传感器建模
自动驾驶系统主要依赖多传感器配置不同模态的数据相互补充。因此基于单模态场景的DWM不太适合这类系统。尽管一些研究在多模态数据集成方面取得了进展但该领域仍有很大的探索空间。此外考虑到对齐的多传感器数据成本高昂利用广泛可用的未对齐甚至未配对的多传感器数据是一个有价值的研究方向。
攻击与防御
对抗攻击很容易导致严重的事故对驾驶安全构成重大威胁。这些攻击涉及精心制作的对人类不可察觉的对抗补丁使得检测和缓解变得尤为困难。尽管其潜在影响巨大但目前针对DWM的对抗攻击研究仍然不足。因此研究此类攻击并开发有效的防御策略具有至关重要的实际意义。这些努力对于推动DWM在现实世界自动驾驶应用中的安全可靠部署至关重要。
结论
驾驶世界模型DWM日益被视为自动驾驶系统架构中的一个基本组成部分旨在通过预测未来演变来改进决策。在本文中我们探讨了DWM的具体贡献不仅按预测场景模态进行了系统的概述还总结了DWM的应用及其对自动驾驶的影响并回顾了常见的数据集和评估指标。我们进一步深入研究了当前的局限性并指出了一些有前景的未来研究方向以克服这些挑战并推动该领域的未来探索。我们相信这项综述将为早期研究人员提供DWM领域关键进展的快速概述。
参考
[1] The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey #Topo2Seq
通过拓扑序列学习增强拓扑推理
论文链接https://arxiv.org/pdf/2502.08974
摘要
从透视图PV中提取车道拓扑对于自动驾驶的规划和控制至关重要。这种方法无需依赖高精度HD地图即可为自动驾驶车辆提取潜在的可行驶轨迹。然而DETR框架检测的无序性质和较弱的远程感知可能导致车道段端点错位和拓扑预测能力受限。受语言模型学习上下文关系的启发道路连接关系可以被显式建模为拓扑序列。我们介绍了Topo2Seq一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心部分是在车道段解码器和拓扑序列解码器之间的随机顺序提示到序列prompt-to-sequence学习。双解编码器分支同时学习从有向无环图DAG和包含地理元信息的车道图中提取的车道拓扑序列。随机顺序提示-序列学习从车道段解码器预测的车道图中提取无序关键点然后将其输入拓扑序列解码器的提示设计中以重建有序和完整的车道图。通过这种方式车道段解码器能够从拓扑序列解码器中学习强大的远距离感知和精确的拓扑推理。值得注意的是拓扑序列解码器只在训练过程中引入而不影响推理的效率。在OpenLane-V2数据集上的实验评估表明Topo2Seq在拓扑推理方面具有最先进的性能。
介绍
近年来自动驾驶中的车道拓扑推理受到越来越多的关注。这是因为自动驾驶传统上依赖于离线高清地图来提供道路信息。然而道路状况可能是不确定的和具有挑战性的过时的离线高清地图对自动驾驶汽车来说可能是灾难性的。单纯依赖这些地图并不足以满足高级别自动驾驶的高级需求。
为了解决这些问题自动驾驶车辆需要进行车道拓扑推理这涉及从环视图像中实时感知周围道路并提取道路中心线的几何位置和拓扑关系。因此车道拓扑推理对于端到端自动驾驶中的轨迹预测和规划至关重要。
最近关于车道拓扑推理的研究已经将中心线拓扑转化为车道图。这些端到端网络被设计用来预测以有序点集为表征的线段和由邻接矩阵表示的拓扑关系。然而这些方法并没有显式地建模每个车道段之间的关系而是依赖于MLP来确定每个查询之间的连接概率。由于DETR框架中的弱感知和无序检测特性简单的MLP难以有效地学习车道之间的连通性。因此现有的方法存在多个弱点如图1a所示。 图1以往方法(a)和Topo2Seq(b)的比较:由于Deformable-DETR每个查询的采样位置有限并且检测的无序性现有方法表现出严重的弱点。(b) Topo2Seq采用了一种随机提示-序列学习策略通过拓扑序列学习增强了车道段感知和拓扑推理。
在语言模型中序列学习可以在保持正确顺序的同时捕获长文本中的上下文关系。因此受语言模型的启发将车道图表示为序列可以显式地捕获车道的几何位置和拓扑关系。然而在序列到序列sequence-to-sequence的学习方法中自回归模型依赖于先前的预测来产生后续输出由于需要重复推理导致相当低的推理效率约0.1FPS。 在本文中我们提出了Topo2Seq一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq采用了一种双解码器结构包括一个车道段解码器和拓扑序列解码器。拓扑序列解码器预测从有向无环图DAG中提取车道拓扑序列而车道段解码器提取包含几何信息的车道图。然后随机提示-序列学习用于从车道段解码器预测的车道图中提取无序的关键点。这些关键点被输入拓扑序列解码器的提示设计中从而能够重建一个有序和完整的车道图。在这种情况下车道段解码器通过共享的编码器从拓扑序列解码器中获得了强大的远程感知和精确的拓扑推理能力如图1(b)所示。值得注意的是拓扑序列只在训练中引入并不影响推理效率。
本文的贡献可以概括为以下
我们提出了Topo2 Seq一个新的双解码器训练框架通过利用拓扑序列学习来增强拓扑推理。我们显式地将车道图建模为序列来捕获车道的远距离几何位置和拓扑关系。我们引入了一种随机顺序提示-序列学习机制使车道段解码器从拓扑序列解码器中获得鲁棒的远程感知和准确的拓扑推理能力。在基准数据集 OpenLane-V2上进行的大量实验证明了Topo2Seq的优秀性能。
方法详解 图2Topo2Seq的框架。
Topo2Seq由三个主要组件组成。首先通过图像主干、FPN和BEVFormer对环视图像进行处理生成鸟瞰图BEV特征。然后车道段解码器预测车道图。从预测的车道图中提取的首尾点被输入拓扑序列解码器以构造关键点提示这些提示随后并与边缘序列连接。拓扑序列解码器推断离散关键点之间的关系并将其重构为一个连贯的车道图。通过这样拓扑序列解码器增强了BEV特征改进了远距离感知能力从而帮助车道段解码器进行拓扑推理。
1. 车道段解码器
我们将一组实例级的查询表示为 其中是预设的查询数通常大于车道图中的中心线数。这些查询被输入车道段解码器以获得更新后的查询 其中LaneDec表示车道段解码器。在每个车道段解码器层内车道查询通过自注意模块、车道注意模块和前馈网络依次进行更新。
2. 预测头
我们使用MLPs多层感知机来生成3D车道坐标和拓扑矩阵A。车道间的拓扑关系预测为: 其中MLP是相互独立的。为了提供更详细的车道图表示我们不仅预测拓扑结构同时预测了左右车道边界偏移量边界类型以及人行横道。
3. 拓扑序列解码器
我们参考Pix2Seq设计了拓扑序列解码器。每个解码器层包括自注意模块、交叉注意模块和前馈网络。自注意模块中的因果掩模保持自回归特性。整个结构在提取和细化BEV特征方面具有几个优势 (1)增强型特征细化该模型可以根据序列中的关键点有选择性地关注BEV特征的相关领域。这种有针对性的注意力通过强调对准确重建车道图或理解场景至关重要的区域有助于细化BEV特征。(2)改进远程依赖拓扑序列解码器增强了对序列中遥远关键点与BEV特征中相应区域之间的远程依赖性的捕获。这对于像车道拓扑推理这样的任务尤其重要在这些任务中理解广泛分离的点之间的关系是至关重要的。(3)上下文集成通过关注特定的关键点提示模型可以减少BEV特征中不相关或冗余信息的影响。这导致了更高效的特征提取并可能减少最终预测结果中的噪声。训练拓扑序列解码器的输出可以表示为 其中TopoSeqDec表示拓扑序列解码器表示预测的边缘序列。
4. 序列结构
根据RoadNet我们将有向无环图DAG转换为边序列。车道上的每个关键点都可以作为起点或终点每条边都可以用6个整数表示 其中前两个整数int(),int()表示关键点的离散坐标。cls表示关键点的类别可以是祖先、直系、分支或克隆节点。con表示关键点之间的连接。如果cls是祖先或直系的则con被设置为0。否则con将被设置为父关键点的索引。由于贝塞尔曲线可以有效地表征关键点之间的车道轨迹最后两个整数int(),int()表示贝塞尔曲线的中间控制点。为了确定关键点的唯一顺序我们选择BEV透视图中右前方的位置作为起点并使用深度优先搜索来执行排序。 图3输入序列和输出序列示意图
在训练过程中我们构建了如图所示的两种类型的序列输入序列和用于监督的目标序列。输入序列从 Start 标记开始然后是关键点提示然后是GT边剩余的长度填充噪声边。关键点提示包括所有预测边的关键点以及噪声边。值得注意的是关键点提示是无序的不对应于边序列中的坐标的顺序。最后关键点提示以 EOK 标记结束。在目标序列中关键点提示的位置用 pad 标记填充然后是地面真实边和噪声边最后以 EOS 结束。为了帮助拓扑序列解码器识别哪些边是噪声边有监督的噪声边在其类别位置用噪声类 ncls 标记而其他位置则用 pad 标记填充。 pad 标记不计入损失计算。
5. 随机顺序提示到序列学习
由车道段解码器预测的车道通常有错位的端点需要四个点来代表两条车道线并可能产生显著的几何间隙。相比之下边缘序列只使用了三个点来完美对齐的两条车道线增强了对自动驾驶轨迹的理解。为了利用序列到序列学习的远距离理解和序列化关系能力我们在关键点提示处促进了车道段解码器和序列拓扑解码器之间的交互。 基于来自车道段解码器的预测我们根据置信度从高到低对预测的车道线进行排序并使用预测的邻接矩阵过滤掉任何重复的首尾点 其中关键点的坐标被离散化了。随机顺序提示到序列学习的目标可以表示为 6. 损失函数
Topo2Seq中的总体损失函数定义如下 其中表示L1损失。表示车道分类的焦点损失Focal Loss。包括交叉熵损失和dice损失。表示分类左右车道类型的交叉熵损失例如不可见、实心、虚线。是一个用于监督预测的邻接矩阵A真实邻接矩阵之间的关系信息的焦点损失。表示在预测标记时监督拓扑序列解码器的最大似然损失。每个损失的权重用,,,,和表示。
实验结果评价指标
表1模型定量性能比较OpenLane-V2 数据集-车道段感知任务 表1展示了不同模型在真实场景数据集OpenLane-V2上的定量结果可以看到Topo2Seq在该数据集上取得了优秀的性能。我们首先比较了Topo2Seq与最先进的车道段检测方法在OpenLane-V2基准测试上的性能。关于OpenLane-V2子集A的结果如表1所示。当训练24个阶段12个预训练阶段和12个解码器交互阶段时Topo2Seq性能在指标上比LaneSegNet高1.8%在上高1.5%。使用ResNet-50进行了总共48个阶段的两阶段训练过程Topo2Seq实现了37.7%的mAP和29.9%的。在相同的配置下Topo2Seq在上超过LaneSegNet 2.0%在上超过2.6%。
表2模型定量性能比较OpenLane-V2数据集-中心线感知任务 表2展示了不同模型在OpenLane-V2数据集的中心线感知任务上的定量结果。在相同的24epochs训练中Topo2Seq在OLS∗比LaneSegNet好2.0%在高出2.4%在高出1.7%。与同样经过484epochs的TopoMLP相比Topo2Seq在上的表现比TopoMLP高出4.2%在OLS∗中表现高出2.5%在上高出2.4%在为则高出2.7%。这些结果表明在训练过程中引入一个额外的序列解码器交互使得网络在拓扑推理方面取得显著改进。
消融研究
表3对openlane-V2基准的消融研究 OP、RP、RPL分别为顺序GT关键点提示、随机顺序GT关键点提示和随机顺序提示到顺序学习。 我们研究了Topo2Seq中的每一个重要设计。消融研究见表3。在序列学习中引入有序GT关键点提示时网络只能学习关键点之间的轨迹而不必推断它们之间的关系。这解释了为什么Index 2的结果优于Index 1的结果了提高了2.7%。将Index 2和Index 3的结果进行比较可以发现由于车道段解码器输出的不准确和不稳定序列拓扑解码器与之交互过早导致性能不如使用随机顺序的GT关键点作为提示。然而与Index 1中的结果相比这种方法在拓扑推理方面仍然有了轻微的改进。从Index 2和Index 4的结果中可以看出当车道段解码器预测的关键点被引入关键点提示并在两个解码器间进行了24个阶段额外的交互训练时mAP提高了2.8%TOP增加了2.1%。这一结果表明序列学习可以进一步增强车道分割解码器对关注区域的BEV特征的提取特别是增强远程感知和拓扑推理。 图4模型定性结果比较
如图4所示我们可视化了由LaneSegNet和Topo2Seq生成的车道图。相比之下Topo2Seq可以生成了具有对齐的端点的高质量的车道图并且具有更可靠的远距离感知和准确的拓扑关系。这被归因于与序列拓扑的交互所带来的优势。
结论
我们介绍了Topo2Seq一种基于拓扑序列学习的车道拓扑推理方法。受到语言模型的启发我们通过序列到序列的学习解决了基于DETR的拓扑推理框架的局限性。通过随机顺序提示到序列学习我们增强了拓扑序列解码器和车道段解码器之间的交互。该方法能够使Topo2seq生成端点对齐以及拓扑关系更加准确的车道图。在OpenLane-V2数据集上的实验结果表明Topo2Seq在拓扑推理方面实现了最先进的性能。 #稀疏注意力、视觉语言新突破
各位AI爱好者本周Hugging Face Daily Papers又带来了一波前沿研究成果从长上下文建模到多模态视觉语言模型再到AI研究Agent的新框架TOP 10论文亮点满满投票数火爆值得一读以下是简要介绍快来一起看看吧
1. Native Sparse Attention 129票 https://huggingface.co/papers/2502.11089 NSANative Sparse Attention来了针对长上下文建模的高计算成本问题NSA通过动态层次稀疏策略和硬件优化实现高效建模。实验证明它在64k序列上大幅提速同时性能媲美甚至超全注意力模型。效率与能力双赢
2. Qwen2.5-VL Technical Report 128票 https://huggingface.co/papers/2502.13923 Qwen视觉语言系列旗舰升级Qwen2.5-VL在视觉识别、文档解析和长视频理解上表现亮眼支持动态分辨率处理能精准定位对象并提取结构化数据。72B模型直逼GPT-4o文档理解更是强到飞起
3. MLGym: AI研究Agent新框架 121票 https://huggingface.co/papers/2502.14499 Meta MLGym和MLGym-Bench首次为AI研究任务打造Gym环境涵盖13个开放性任务。测试结果显示即便是前沿LLM也难生成新颖假设暴露了AI研究能力的瓶颈。开源框架已就位等你来挑战
4. SuperGPQA: 285学科LLM评估 78票 https://huggingface.co/papers/2502.14739 覆盖285个学科的超大基准SuperGPQA登场通过Human-LLM协作筛选题目测试LLM的知识与推理能力。结果表明即便是DeepSeek-R1也只有61.82%的准确率AGI还有很长的路要走。
5. SigLIP 2: 多语言视觉编码器 77票 https://huggingface.co/papers/2502.14786 SigLIP 2在图像-文本任务上全面升级加入自监督损失和数据筛选技术支持多分辨率输入。性能提升的同时还优化了多语言理解和公平性提供从86M到1B的多种模型选择。
6. Soundwave: 高效语音-文本对齐 73票 https://huggingface.co/papers/2502.12900 Soundwave用1/50的训练数据打败Qwen2-Audio通过新型架构和高效策略解决语音与文本的表示差距问题翻译和语音任务表现抢眼。开源项目已上线快去体验
7. Cramming 1568 Tokens into a Vector 57票 https://huggingface.co/papers/2502.13063 将1568个Token压缩进一个向量这篇论文探索了嵌入空间的极限发现x1500的压缩比是可行的研究表明压缩极限取决于序列的不确定性揭示了模型设计的巨大优化空间。
8. The Danger of Overthinking 52票 https://huggingface.co/papers/2502.08235 大型推理模型LRM也会“想太多”论文分析了过思考的三种模式分析瘫痪、错误行动和过早放弃。减少过思考可提升30%性能并降低43%计算成本实用性拉满
9. How Much Knowledge in a LoRA Adapter? 50票 https://huggingface.co/papers/2502.14502 LoRA适配器能塞多少新知识研究发现混合已知和新事实的训练数据效果最佳但仍可能损害模型的通用能力。如何平衡新知识与性能值得深思。
10. Continuous Diffusion for Language Modeling 48票 https://huggingface.co/papers/2502.11564 扩散模型也能玩语言建模通过连续流设计和径向对称训练框架这篇论文让扩散模型性能逼近自回归模型开源代码已就位赶紧去试试 #HW智驾正式上车搭载双激光雷达
AODI不想努力了
2025奥迪全面“投华”。
华为智驾首搭燃油车全新奥迪A5L火了。
最前沿的端到端架构带来最先进的「车位到车位」体验。
AI司机上车传统豪华奥迪智驾一夜飞升就是现在。
官宣合作7年兜兜转转奥迪还是牵手了华为。
这也给豪华品牌乃至整个合资阵营出了道题 全面智驾未来已来是坚持自研还是赶紧上车中国智驾方案
奥迪率先全面“投华”
先说明一下这里说的全新奥迪A5L是来自上汽旗下不是一汽也要出的那款A4L换代改名后的A5L。
全新奥迪A5L车长超4.9米溜背造型设计轿跑风格。本次改款上市有两大亮点值得关注
华为智驾首搭燃油车。首个双激光雷达华为智驾车型。
不要被A5L“光秃秃”的前车顶迷惑它的两颗激光雷达在车灯下方类似小鹏转向视觉路线前的车型设计。
这种设计让激光雷达和车身融合的更好但因为位置稍低感知会受到影响所以采用了两颗激光雷达“补盲”。
双激光雷达这在华为系中尚属首例。
已上市的华为高阶智驾车型最多搭载3颗激光雷达比如方程豹豹8。
大部分都只搭载了1颗激光雷达比如包括50万级问界M9在内的鸿蒙智行全系。
搭载4颗激光雷达尊界S800将在5月底上市。
既然搭载了激光雷达那上车的软件算法肯定是ADS 3.0基于端到端架构支持城区NOA「车位到车位」。
端到端是智能驾驶最前沿的技术范式其实就是AI模型从过去只负责感知任务到现在感知、决策和规划等任务一把抓算法上限更高并且让AI司机开车更拟人。
「车位到车位」则是目前智能驾驶落地的最先进体验。
智能驾驶在停车位原地启动AI帮你开出车位过闸机驶入公路领航辅助驾驶最终驶入指定车位。
「代客泊车」陆陆续续也会开放到了停车场电梯口你可以直接下车然后车子自己去找车位。
对用户来说相当于有了自己的专职司机不管是日常城区通勤还是高速长途跋涉都更省心省力。
对奥迪来说在华为的带动下其智驾座次从落后一代一夜飞升至「领先一代」。
除了外观和搭载华为智驾奥迪A5L曝光的信息不多有望会在4月底的上海车展上市。
据了解A5L暂时还未上车鸿蒙座舱不过仅凭智驾已经让不少网友心动了。
有网友看了以后感慨
A6不香了。
这下压力瞬间给到一汽了
其实根据此前多方消息一汽奥迪相关负责人已经剧透今年所有上市车型都将搭载华为智驾。
一汽奥迪率先放风上汽奥迪赶紧出牌。
兜兜转转奥迪还是在华全面“投华”率先转型“俊杰汽车”。
延续的合作
实际上早在2018年7月奥迪就在自动驾驶领域与华为达成了合作。
△左为时任奥迪中国执行副总裁梅萨德右为华为董事徐文伟图源华为
当时原计划率先落地奥迪Q7。
徐文伟在当时展望未来认为通过双方的合作:
相信不久的将来消费者可以体验到更加安全、舒适、便捷、智能的自动驾驶服务。”
但在2018年后由于众所周知的原因双方再也没有提起过这项合作相关工作的推进也鲜少披露。
但在这7年里双方一直在以各自的方式探索自动驾驶。
华为的工作大家都比较熟悉了ADS不断迭代赋能车企转动数据飞轮预计将于今年迈向L3级自动驾驶。
奥迪则早早瞄向L3却在2019年底正式取消了L3项目将资源分别投入L2和L4级自动驾驶研发。
后来在2021年世界物联网博览会上展示了结合车联网的L4级自动驾驶公开路测不过演示路程仅有6.5公里。
在L2维度则鲜有作为2022年底推出的A6L搭载的还是自适应巡航系统。半年以后国内就开卷城区NOA了。
智能化的技术劣势开始转变为市场劣势。
2024年奥迪全球销量为167.1万辆下跌11.8%在BBA中排名最末。
其中中国市场交付了64.94万辆车销量同比下滑11%。
转型成绩也不太理想2024年奥迪纯电动车销量为16.4万辆下跌8%占总体销量还不到10%。
最终在市场无形大手的推动下奥迪再度牵手华为。弹指7年当时的合作见证者有的已经退休了。
与此同时同样面临转型困境的奔驰也把希望放在了中国押注智能化。
据了解奔驰目前在华研发团队超2000人依靠中国研发团队开发无图方案去年首秀上海目前尚不清楚量产上车全面铺开的事件。
宝马则在今年1月要量产搭载V2X(Vehicle to X)模块的全新宝马5系增强整车智驾能力表示“要继续加大研发投入携手中国创新力量”。
BBA是豪华品牌的代表者随着他们重注智能驾驶再加上比亚迪等力推“全民智驾”中国市场的风向很明确了。
可以预见后续二线的豪华品牌以及大众市场诸合资将陆续跟进。
自研时间太久市场只争朝夕。 #2024自动驾驶数据集完全指南20高质量开源数据集
1、 题目 MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception
链接 https://t.zsxq.com/BRSA3
简介 MSC-Bench: 第一个针对多传感器自动驾驶感知模型在各种传感器损坏情况下的鲁棒性进行评估的综合基准
时间 2025-01-10T23:52:48.5260800
2、 题目 Hidden Biases of End-to-End Driving Datasets
链接https://t.zsxq.com/BRSA3
简介 2024 CARLA挑战赛中的地图和传感器赛道上排名第一和第二Bench2Drive测试路线中SOTA
时间 2024-12-13T12:01:19.8390800
3、 题目 Multi-cam Multi-map Visual Inertial Localization: System, Validation and Dataset
链接 https://t.zsxq.com/Pvi0i
简介 一种多摄像头多地图视觉惯性定位系统
时间 2024-12-08T00:04:34.9430800
4、 题目 OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection
链接 https://t.zsxq.com/U7foq
简介 首个针对3D目标检测的现实世界开放世界自动驾驶基准
时间 2024-11-28T14:12:50.2010800
5、 题目 V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
链接https://t.zsxq.com/cbO6x
简介 全球首个集成4D Radar并面向真实场景的多模态车路协同感知数据集
时间 2024-11-19T21:19:52.2130800
6、 题目 V2X-R: Cooperative LiDAR-4D Radar Fusion for 3D Object Detection with Denoising Diffusion
链接 https://t.zsxq.com/3Xm4K
简介 V2X-R: 首个结合LiDAR、相机和4D Radar的V2X模拟数据集
时间 2024-11-14T22:38:05.2920800
7、 题目 Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
链接 https://t.zsxq.com/ncOgu
简介 通过BEV注入多模态大模型对自动驾驶的整体理解BEV-InMLLM整合了多视图、空间意识和时间语义以增强在NuInstruct任务上的MLLMs的能力
时间 2024-01-03T21:23:08.6340800
8、 题目 ROAD-Waymo: Action Awareness at Scale for Autonomous Driving
链接 https://t.zsxq.com/8T9mw
简介 ROAD-Waymo一个广泛的数据集用于开发和评估道路场景中agents、动作、位置和事件检测技术该数据集基于Waymo Open数据集
时间 2024-11-06T21:58:38.0470800
9、 题目 Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions
链接https://t.zsxq.com/xtCoc
简介 第一个专注于恶劣天气条件的开源合成协同感知数据集
时间 2024-10-15T23:59:12.4110800
10、 题目 TLD: A Vehicle Tail Light signal Dataset and Benchmark
链接 https://t.zsxq.com/c2Fkk
简介 转向灯、刹车灯数据集来了
时间 2024-09-06T23:22:06.9570800
11、 题目 WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving
链接 https://t.zsxq.com/VHTIL
简介 WayveScenes101: 该数据集专注于包含众多动态和可变形元素、几何形状和纹理变化的复杂驾驶场景。数据集包含101个驾驶场景涵盖广泛的环境条件和驾驶情景
时间 2024-07-14T22:20:58.6910800
12、 题目 SID: Stereo Image Dataset for Autonomous Driving in Adverse Conditions
链接 https://t.zsxq.com/p9xIi
简介 SID用于恶劣条件下自动驾驶的立体图像数据集
时间 2024-07-09T23:28:37.5870800
13、 题目 DurLAR: A High-Fidelity 128-Channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-Modal Autonomous Driving Applications
链接https://t.zsxq.com/4ntGo
简介 DurLAR一个高保真度的128通道3D激光雷达数据集
时间 2024-06-17T23:27:08.3640800
14、 题目 Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset
链接https://t.zsxq.com/cdN4u
简介 纽约大学联合自动驾驶公司May Mobility推出了MARS数据集该数据集统一了多agent、多遍历和多模态自动驾驶研究的场景
时间 2024-06-16T09:52:47.8680800
15、 题目 SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception
链接 https://t.zsxq.com/XGIKB
简介 首创的多视角自车和固定感知的基于事件的合成数据集
时间 2024-04-27T09:43:05.7660800
16、 题目 PLoc: A New Evaluation Criterion Based on Physical Location for Autonomous Driving Datasets
链接https://t.zsxq.com/xypV4
简介 PLoc一种新的基于物理位置的自动驾驶数据集评估标准
时间 2024-04-06T00:09:04.6170800
17、 题目 CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks
链接 https://t.zsxq.com/45W4L
简介 CORP专为校园场景下的多模态路边感知任务量身定制的首个公共基准数据集
时间 2024-04-05T23:57:47.7580800
18、 题目 Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception
链接 https://t.zsxq.com/jvN0b
简介 用于自动驾驶汽车感知的新型传感器有哪些来看看这份NSAVP数据集和基准
时间 2024-01-27T10:40:46.0450800
19、 题目 A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook
链接https://t.zsxq.com/HZCx9
简介 200自动驾驶数据集全面调研
时间 2024-01-04T22:54:54.5560800
20、 题目英伟达和卡内基梅隆大学最新V2V-LLM基于多模态大语言模型的车对车协作式自动驾驶
链接https://t.zsxq.com/07jyx
简介 一种基于LLM的协作式自动驾驶新框架并配套发布首个面向车对车问答V2V-QA的数据集与评测基准 #中国首起L3事故真刑啊
中国“首起L3事故”最新进展来了.
从事件“曝光”到主要责任人被抓前后时间不到一周。
但这次“刑”起来的却不是L3的技术开发或运营方。
甚至涉事车企也表示自己也是一脸懵很无辜。
发生了什么
2月18日广州天河警方发布了一则消息
2月12日广州天河警方接群众报警称有人在网络上发布“首例智能驾驶致死案宣判车企担责70%”的虚假信息。接报后警方迅速介入调查并于2月14日抓获犯罪嫌疑人闫某男53岁。
经查闫某为吸粉引流、赚取流量收益捏造不实信息通过其在各大平台的个人自媒体账号发布不实帖文造成恶劣影响。目前闫某已被警方依法刑事拘留其对上述行为供认不讳案件正在进一步侦办中。
媒体与车企的纠纷恩怨屡见不鲜报警发律师函的也不少但这次性质格外严重警方公告中直接使用了犯罪嫌疑人的表述而不是违法嫌疑。
区别在于如果只界定为“违法”有可能只给予行政处罚免于起诉。而一旦被以“犯罪嫌疑”处理办案机关会将相关证据固定移交起诉。
更精确地讲“犯罪”特指有违反我国《刑法》的情节并且社会危害程度较高。
那么闫某到底说了什么
2月12日他通过自己控制的自媒体账号发布《L3级自动驾驶首例判决车企担责70%智驾法规全面重构》一文。文章称广州法院于2024年12月对一起小鹏汽车L3级自动驾驶追尾事故作出判决。因系统未识别静止障碍物车企需承担70%的赔偿责任车主自负30%。
其中把案件称为“国内首例智能驾驶致死案”迅速在网络上引发广泛关注和讨论。
当天小鹏汽车发布公告辟谣并报警处理。次日公安就侦破主要犯罪嫌疑人涉嫌寻衅滋事罪已到案。
寻衅滋事罪在刑法中界定范围比较宽泛行为人实施肆意挑衅随意殴打、骚扰他人或任意损毁、占用公私财物等行为或者在公共场所起哄闹事造成了严重破坏社会秩序的损害结果都达到立案标准。
量刑一般分5年以下及5年到10年两个区间视危害程度而定。
具体到这个案子危害程度大概率会以相关内容在互联网的转发讨论数量为参考。
当然最后是否以寻衅滋事罪起诉还不一定因为闫某炮制Fake news的情节也符合刑法中的损害商业信誉、商品声誉罪范围量刑在2年以下。
查阅全国、广东地区类似案件情况大多数都是以行政处罚手段处理上升到违法犯罪处理程序的还真不多。
一方面可能因为最新的政策风向更加倾向于保护民营企业
更关键的是因为这个谣言炮制的确太粗糙没有什么翻案、模糊的空间。
首例L3事故咋回事
事实真相很简单根本不存在这样一个案例广州法院没判过裁判文书也查不到。
因为小鹏现在量产的智驾系统根本就不是L3这是技术圈、用户、媒体也包括小鹏汽车自己一致的共识。
特斯拉、小鹏等等玩家量产高阶智驾的全称应该是高阶辅助智能驾驶在国标GB/T 40429-2021中只要带辅助二字就属于L2及以下的范围。
L3及以上最本质的区别是“驾驶自动化”即在特定条件下完全实现自动驾驶“条件”越普适级别越高。
小鹏XNGP不是L3国内首批通过L3上路试点的车企名单中也没有它自然不存在所谓“车企70%、用户30%”的案例。
不过官方有临时法规性质的文件中口径统一为智能网联汽车包含国标GB/T 40429-2021定义的L3级驾驶自动化有条件自动驾驶和L4级驾驶自动化高度自动驾驶。
至于事故责任目前的仍然沿用2023年7月的规定
事故责任归属的判断由交通违法行为发生地的公安机关交通管理部门管辖。
在测试过程中事故责任系车辆负责的造成的损失首先由保险公司赔付不足的部分由试点使用主体申请车企或其他试点申请方补齐。
也就是在L3试点阶段具体情况具体商量由当地交管部门凭经验和客观损失划分责任。
很明显是先收集案例积累操作经验为后面L3的规模化量产上路做准备。
从种种迹象来看L3结束试点进入量产阶段可能也的确不远了。
国内公开宣布L3时间表的玩家包括
小鹏汽车——2025年底推出L3级智驾软件
华为也明确在今年推出L3商用版本合作车企之一岚图透露L3车型已经在研发了
上汽旗下的通用、智己则宣布与2026年实现L3商用。
极氪也将在4月上海车展公布自己的L3车型。
背后的技术100%无例外都是端到端体系。
这也使得L3即将爆发的前夕中国和欧洲车企走向两条不同的路线中国靠数据驱动的端到端欧洲车企靠规则定义的传统范式奔驰、宝马等有严苛条件的L3系统。
北美呢NHTSA最新的自动驾驶准入法规草案中直接划分为辅助驾驶和全无人没有给L3这种比较模糊的“人机共驾”留下任何操作空间。
核心难题仍然是
L3大部分时间可以脱手脱眼但注意力必须一直集中随时准备接管。而驾驶员接管时机难以量化表述一旦发生事故很难说是系统能力不足还是用户接管时机不当。
基于此L3呈现出这样的格局中国努力探索北美直接放弃欧洲圈地自娱自乐。
对于用户来说我们关心的则是
一旦L3车型开卖上路事故究竟谁来买单 #OccProphet
港理工OccProphet纯视觉Occ SOTA速度提升至2.6倍内存占用减少60%ICLR25
本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能成本减少近80%相比此前最先进的方法OccProphet性能提升至1.2倍速度提升至2.6倍内存占用减少近60%仅需24G显存即可完成训练和推理。代码即将开源。
论文链接https://arxiv.org/abs/2502.15180代码链接https://github.com/JLChen-C/OccProphet 图1左OccProphet示意图。OccProphet仅接收多相机视频输入并生成未来时刻的占用右相比于Cam4DOccOccProphet性能提升约20%速度提升约160%
动机
提升自动驾驶车辆对动态环境的感知与预测能力是自动驾驶安全性和可靠性的迫切需求。传统的占据感知Occupancy Perception方法通过学习空间中的占据状态,能够理解环境的当前和过去状态而无法预测未来动态。事实上预测未来场景对于安全驾驶和避免碰撞至关重要。
这篇文章研究基于相机的占用预测Occupancy Forecasting能够理解自动驾驶车辆周围环境的动态变化并对未来进行合理预测。考虑到现有的基于相机的占据预测方法例如Cam4DOcc计算成本高不具备在计算资源受限的边缘设备例如自动驾驶车辆的部署能力这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。
它仅仅使用环视图片序列作为输入能准确预测未来时刻的4D占据时间维度空间维度。在轻量化处理上OccProphet引入了三大精简模块Observer、Forecaster 和 Refiner并采用高效的4D特征聚合与三元组注意力融合策略旨在在显著降低计算需求的同时提升预测的准确性。这一进步首次展现了4D占用感知在自动驾驶车辆上部署的可行性。
方法详解
如图2所示OccProphet 是一种新型的仅基于摄像头的占据预测框架它不管在训练阶段还是推理阶段都是计算友好的。 图2OccProphet概述。它接收来自环视摄像头的多帧图像作为输入并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成观察器Observer、预报器Forecaster、细化器Refiner和预测器Predictor。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后预测器模块产生对未来占用或占用流的最终预测。
观察器Observer模块高效且有效地聚合多帧观测即多帧3D体素特征中的时空信息。预报器Forecaster模块在 Observer 的输出基础上自适应地预测未来状态从而确保在各种交通状况下的灵活性。细化器Refiner模块通过促进帧间交互进一步提升这些预测的质量。预测器Predictor将经过优化的未来状态解码为占用或占用流。
OccProphet 在创新性方面主要做出了以下贡献
一种新颖的仅基于摄像头的占用预测框架在训练和推理过程中都兼具高效性和有效性适用于车载部署。一个轻量级的观察器-预报器-细化器框架。观察器Observer模块从历史观测中提取时空特征预报器Forecaster模块有条件地预测粗略的未来状态细化器Refiner模块则进一步提升预测准确性。实验结果表明OccProphet在预测准确性上更胜一筹同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。
关键组件
观察器Observer
观察器Observer模块接收4D运动感知特征作为输入并生成时空感知表示。通过多相机RGB图像在时间戳上的数据使用共享的图像编码器例如ResNet提取2D特征这些特征被投影到3D空间中并聚合成体素化的3D特征。随后来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系形成4D特征然后通过附加6-DoF自车姿态信息生成运动感知4D特征。考虑到直接处理的计算负担和3D空间大部分区域未被占用的事实本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。
Efficient 4D Aggregation高效4D聚合 图3高效4D聚合模块
直接聚合原始4D运动感知特征会导致高计算成本。为提高效率本文设计了名为高效聚合Efficient 4D Aggregation, E4A的模块该模块首先通过下采样生成紧凑特征然后在这些紧凑特征上利用时空交互实现聚合最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将的通道数从减少到形成特征。为了弥补因下采样导致的信息丢失尤其是小物体的信息丢失该方法一方面对下采样后的特征进行时空交互即三元组注意力融合模块另一方面对后交互特征进行上采样并与下采样前相同分辨率的特征相加直到上采样特征的分辨率匹配初始运动感知特征的分辨率。
Tripling-Attention Fusion三元组注意力融合 图4三元组注意力融合左和三元组分解操作右
三元组注意力融合模块TAF专为促进多个三维特征间的时空交互而设计通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间从而以较低的计算成本保留三维场景信息。具体而言三元组分解操作将三维特征分解为场景、高度和BEV三个分支分别压缩三维特征至一维或二维特征减少后续计算开销。场景分支提取全局上下文提供对场景的整体理解高度分支保留垂直细节作为2D BEV分支的补充线索增强三维几何信息的表现能力。
在数学表达上给定输入特征通过全局平均池化GAP、线性变换Linear、一维卷积Conv、归一化Norm及激活函数Act处理分别得到场景、高度、BEV分支的输出。随后通过对不同分支应用时间注意力TA并利用广播技术将这三个分支的结果相加最终得到TAF模块的输出特征。
预报器 Forecaster 图5预报器的结构
给定由Observer模块输出的时空表示预报器 Forecaster模块旨在生成未来状态。首先通过将时间轴折叠进通道轴来重塑形成重塑后的特征。直接使用单一线性层预测未来帧特征的方法虽然简单但难以适应不同交通场景下显著变化的空间时间复杂性尤其在动态复杂的环境如拥挤的十字路口中预测难度更大。
为应对这些挑战提出了一种灵活适应各种具有不同空间时间复杂性的交通场景的预测方法。该方法包括一个条件生成器Condition Generator和一个有条件预报器Conditional Forecaster。首先条件生成器通过3D全局平均池化GAP和跨帧共享的线性层从观测值中提取条件然后将其重新排布为并传递给有条件预报器以预测未来状态。具体来说对应用线性层产生针对特定交通场景的自适应权重并使用另一线性层基于这些权重预测未来状态。最终得到的未来状态特征被重新排布回包含时间轴的形式作为未来环境的初步特征并进一步通过细化器Refiner模块进行细化处理。
细化器Refiner
鉴于预报器模块通过线性投影预测其不可避免地缺乏帧间交互。为弥补这一缺陷设计了细化器Refiner模块旨在通过增强未来帧间的交互并结合历史帧作为补充信息来提升预测结果的准确性。高效4D聚合模块E4A作为一个时空交互模块对于任何输入特征其功能可表示为其中是高效4D聚合模块的输出特征代表变换函数。考虑到残差网络有助于细化和网络优化可以将高效4D聚合视为一种特征的“细化变换”这也有助于降低前序模块的学习复杂度。
基于上述见解进一步引入了一个重用高效4D聚合架构的细化器模块用于精细化由预报器预测的未来状态以及由观察器输出的特征。具体来说细化器应用于这两个特征生成增强后的特征以便后续进行占用和占用流的预测。
实验
网络的训练使用4块至少1块RTX4090 GPU测试使用1块RTX4090 GPU24G显存。
实验结果表明OccProphet在预测准确性和效率上均表现出色在三个数据集上相对于最先进的Cam4DOcc模型其占用预测准确性分别提升了4%∼18%同时运行速度提高了约1.6倍计算成本降低了58%∼78%。
定性实验 图6Cam4DOcc与OccProphet的定性实验
Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。
定量实验 图7不同表征形式之间的比较
采用E4A表征在性能上优于BEV和TPV表征且参数更少计算成本仅略有增加。 图8在细粒度的一般运动物体和一般静态物体上的4D占用预测性能
OccProphet在细粒度的4D占用预测上具有明显优势。 图9模型复杂度的比较
与Cam4DOcc相比OccProphet的参数量、内存占用和FLOPs均降低了58%-78%同时OccProphet在未来帧的平均IoU上实现了相对4%的提升并且其FPS达到了Cam4DOcc的2.6倍。
更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。
结论
本文提出了OccProphet这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上它在占用率预测方面比最先进的Cam4DOcc高出4%至18%同时运行速度提高了2.6倍计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。 #ChatVLA
显著超越现有SOTA实现统一的多模态理解与机器人控制VLA的痛点与解决方案
人类拥有统一的认知能力能够感知、理解物理世界并与之互动。为什么大语言模型无法复制这种整体理解能力呢通过对视觉-语言-动作模型VLA现有训练范式的系统分析发现了两个关键挑战虚假遗忘即机器人训练会覆盖关键的视觉文本对齐信息任务干扰即控制任务和理解任务在联合训练时相互竞争会降低模型性能。为了克服这些限制这里提出了ChatVLA一个新颖的框架它采用分阶段对齐训练在掌握初始控制能力后逐步整合多模态数据还使用专家混合MoE架构来最小化任务干扰。ChatVLA在视觉问答数据集上表现出色在多模态理解基准测试中显著超越了最先进的视觉-语言-动作VLA方法。值得注意的是它在MMMU基准测试中的性能提高了6倍在MMStar基准测试中得分达到47.2%并且与ECOT相比其设计的参数效率更高。此外与现有的VLA方法如OpenVLA相比ChatVLA在25个现实世界机器人操作任务中表现更优。研究结果凸显了这个统一框架在实现强大的多模态理解和有效的机器人控制方面的潜力。
项目链接https://chatvla.github.io/
行业介绍
近年来视觉-语言-动作VLA模型取得了显著进展这类模型在很大程度上优先致力于让机器人掌握动作。在机器人控制任务上训练的模型擅长低级操作和物理交互但在解读和推理图像、文本等多模态数据时却常常遇到困难。这看似矛盾因为现代VLA架构是基于预训练的视觉-语言模型VLMs构建的。相反在视觉-文本对上训练的VLMs展现出了出色的多模态场景理解能力但却缺乏与环境进行物理交互的能力。这种二元性凸显了一个关键挑战如何在不牺牲任何一个领域性能的前提下通过对齐机器人动作和视觉-文本语义这些不同数据源实现实体控制和多模态理解的统一。
我们的工作致力于探索如何统一一个端到端的神经网络使其具备多模态场景理解、对话能力和物理交互能力。首先研究了现有的训练范式评估它们实现统一的可行性。我们研究了VLA训练的三种数据设置
第一仅在包含机器人动作轨迹的专家演示数据上进行训练这是最常见的方法例如OpenVLA、TinyVLA、π0
第二用推理短语扩充机器人数据以指导动作类似于ECOT和DiffusionVLA
第三同时使用视觉-文本对和机器人数据进行联合训练如RT-2。
这里也分析了每种配置对模型平衡控制和理解能力的影响。实验表明仅用机器人数据训练会完全侵蚀对话能力添加推理数据能部分保留多模态理解能力引入视觉-文本对则会显著削弱控制能力。这揭示了两个关键挑战第一VLA模型存在虚假遗忘问题模型性能下降并非意味着预训练VLMs的知识完全丢失而是模型内部表示与不同任务的对齐方式发生了变化。机器人动作与视觉-文本数据之间的对齐似乎很脆弱在微调过程中容易被覆盖。第二任务干扰问题控制任务和理解任务的参数空间相互冲突它们共享重叠的表示在同时训练时会导致相互的性能下降。
为了解决这些挑战我们提出了ChatVLA这是一个在神经架构和训练策略方面都简单有效的框架能让单个神经网络同时掌握理解和操作能力。我们受到课程学习的启发提出了分阶段对齐训练这是一种两阶段策略。模型首先掌握实体控制然后逐步整合多模态数据 “重新激活” 冻结的对齐链接。此外在MLP层引入了专家混合MoE。这使得两个任务可以共享注意力层用于跨任务知识转移同时隔离特定任务的MLP以最小化干扰。这一设计的灵感来自双编码理论该理论认为人类大脑通过两个独立但相互关联的系统处理信息一个用于物理技能另一个用于语言和视觉实践。ChatVLA中共享的注意力层促进了理解任务和控制任务之间有益知识的交换而单独的MLP层则独立处理所学知识。
我们从三个维度评估ChatVLA对话能力视觉问答、一般多模态理解和一般机器人控制。在TextVQA和DocVQA等既定数据集上评估其对话能力与现有的VLMs相比ChatVLA取得了具有竞争力的性能。此外ChatVLA在包括MMMU、MME和MMStar在内的一般视觉和文本基准测试中展示出了强大的多模态理解能力。值得注意的是与ECOT等最先进的VLA方法相比我们的方法在MMMU上性能提高了6倍在MMStar上的性能从0提升到47.2并且在VLM骨干网络中使用的参数减少了3.5倍。最后在25个现实世界机器人任务上评估ChatVLA这些任务涵盖了抓取、放置、推动和悬挂等多种技能涉及浴室、厨房和桌面等多个环境。在这个多任务设置中我们的方法优于OpenVLA等最先进的VLA方法。这些结果验证了方法的有效性展示了单一统一方法在多模态理解和机器人控制方面的潜力。
ChatVLA贡献如下
在严格的设置下深入分析了现有的VLA方法展示了它们在实现令人满意的多模态理解和机器人控制性能方面的局限性引入了ChatVLA这是一个简单而有效的框架它在单个神经网络中统一了对话能力、多模态理解和机器人控制进行了广泛的实验评估ChatVLA在各种问答和一般理解基准测试中的性能进行了广泛的现实世界机器人实验涵盖了现实家庭环境桌面、厨房和浴室中的25个不同任务展示了ChatVLA在现实世界机器人控制场景中的卓越性能。
相关工作
多模态理解
多模态大语言模型MLLMs通过整合视觉和语言信息来实现整体场景理解极大地推动了多模态理解领域的发展。MLLMs在需要跨模态对齐的任务中如视觉问答VQA、图像字幕生成和空间推理展现出了出色的性能。这一成功源于它们能够通过复杂的适配器设计将视觉特征映射到语义表示。然而当前的MLLMs缺乏与物理世界的连接无法与环境和人类进行交互。这项工作旨在填补这一空白使视觉-语言模型也能具备行动能力。
机器人学习中的视觉-语言-动作模型
视觉-语言-动作模型VLAs是一个不断发展的研究领域它以预训练的视觉-语言模型VLMs为骨干实现语言理解和观察理解。这些方法通常对大型预训练VLMs进行微调以预测机器人动作。这些方法在模拟和现实世界任务中都表现出了强大的性能。然而现有的VLA模型尚未证明具备真正的多模态理解能力。基于我们的实验发现这些模型缺乏这种能力。相比之下我们的工作提出了一种统一的方法使单个网络能够有效地处理多模态理解和机器人控制。
ChatVLA方法介绍 形式定义
考虑机器人控制和多模态理解这两种不同的场景。在机器人控制场景中我们通常构建一个演示数据集其中每个演示由一系列状态-动作对组成。状态由观察图像和指令文本组成即。我们可以将状态-动作对序列表示为 其中每个元组表示时间步的状态和相应采取的动作是演示的长度。这些演示通常由人类专家提供。
对于多模态理解和视觉对话任务我们有一个数据集其中每个数据样本由一个视觉图像和相应的文本形式的问题或字幕组成即。这里表示此类图像-文本对的总数。符号表示视觉-文本数据。
工作的总体目标是开发一个通用模型它能够处理实体控制和多模态理解。对于实体控制这涉及学习一个策略该策略对给定当前视觉观察和文本指令的机器人动作的联合分布进行建模。同时对于多模态理解和视觉问答模型应该捕捉给定视觉输入的文本答案或字幕的分布。我们的目标是创建一个统一的模型能够有效地学习这两种分布使其在机器人控制任务和多模态理解场景中都能表现出色。
当前的VLA研究致力于开发更强大、更具泛化性的模型来学习视觉运动策略。一些方法探索类似思维链的推理来改进策略生成而另一些方法则研究使用视觉-文本和机器人数据联合训练VLA模型。一些研究报告称在实验室环境中使用视觉-文本数据联合训练有好处而另一些研究发现在现实世界场景中效果不佳。虽然有一些工作表明VLA可以保持对话能力但没有研究深入探讨在应用VLA训练范式后这种能力以及一般多模态理解能力是如何保留的。在接下来的部分分析VLA的不同训练数据集设置特别关注所得模型在多模态理解和现实世界机器人控制中的性能。目标是为构建能够同时实现这两者的统一模型提供实用指导。
分析
为了了解现有VLA模型在多模态理解和实体控制方面的能力我们研究了三种不同的训练范式每种范式使用不同的数据集第一仅用机器人数据训练这是VLA中最普遍的方法主要侧重于优化机器人控制性能第二用类似思维链的推理扩充机器人数据旨在提供辅助信息提高模型的泛化能力和机器人任务性能第三同时使用视觉-文本数据和机器人数据进行联合训练。后一种范式由RT-2开创但由于专有数据和模型细节的原因很难进行精确复制。在本次实验中参照RT-2将机器人数据与视觉-文本数据的比例设为3:1。
我们分析了VLA模型的这三种训练数据设置。具体来说使用DiffusionVLA这是一个具有代表性的VLA模型它既支持通过自回归生成语言输出也支持通过扩散模型生成动作。在六个具有代表性的基准测试中评估性能其中四个侧重于视觉问答另外两个对多模态大语言模型进行更广泛的评估涵盖数学和OCR等任务。此外在五个现实世界机器人任务中评估性能这些任务涵盖了悬挂、拉动、抓取和放置等多种技能。按照DiffusionVLA的方法生成机器人推理数据。对于视觉-文本数据从LLaVA中随机抽取54k个图像-文本对。 多模态理解和问答基准测试结果实验结果如图2所示。图的右下角显示了在六个基准测试中的性能包括视觉问答VQA和一般理解任务。图的右上角显示了在五个现实世界机器人任务上总共进行112次试验的平均成功率。
右下角的表格包含了基础模型Qwen2-VL的结果。一些结果在意料之中。例如仅在机器人数据上训练模型在所有基准测试中的性能均为0。该模型完全失去了对话能力被提问时只会输出无意义的内容。不出所料与基础模型相比使用视觉-文本对和机器人数据同时训练时性能下降最小。有趣的是即使推理数据中的推理短语具有高度结构化和模板化的特点用包含推理的机器人数据进行训练也能将性能从0提升到不可忽视的水平。尽管推理短语相似且结构化但明确让模型 “表达出来” 显著提高了问答甚至一般理解的性能。
结论1观察表明预训练的VLM组件似乎遭受了灾难性遗忘。仅用机器人数据训练会导致模型失去先前获得的对话和理解能力。然而实验表明这并不一定意味着知识的完全丢失而是由机器人数据导致的对齐错误。使用固定的推理模板进行训练似乎 “重新激活” 了视觉-文本对齐使模型能够进行对话并展示理解能力。
现实机器人多任务设置的结果进一步在现实机器人设置中评估了不同的方法。所有方法都在25个现实机器人任务上进行训练这里选择了五个不同的任务涵盖推动、抓取和悬挂等技能进行比较。然而令人惊讶的是仅用机器人数据训练的性能比加入推理数据更差。这证实了先前的发现即利用视觉或文本思维链可以增强机器人模型的泛化能力。有趣的是将机器人数据与视觉-文本数据联合训练导致现实世界任务成功率显著下降。
结论2最初观察到在机器人数据中加入推理可以提高性能这与双编码理论一致。该理论认为身体运动技能和视觉-语言理解并非相互排斥而是相互关联的具有重叠的益处。然而当在训练数据中加入视觉-文本对时机器人控制的性能急剧下降。这表明动作生成和理解所需的不同表示可能在共享参数空间中相互竞争。我们将这种现象称为部分任务干扰需要仔细解决。一个统一的系统应该连接这两种数据类型同时为每个任务实现可分离的表示学习。
ChatVLA
如前所述在机器人策略数据上训练会干扰视觉-文本关系的学习。此外仅在机器人数据上训练会削弱视觉-文本对齐导致模型对话能力下降。因此解决这两个挑战对于在单个VLA模型中成功统一这两个方面至关重要。这里将首先描述用于解决虚假遗忘的训练策略然后概述方法的总体架构以解决第二个挑战。 分阶段对齐训练此前发现虚假遗忘是导致VLA失去聊天和理解场景能力的关键因素。由于预训练的VLM训练良好在视觉相关任务中表现出色因此直观地说少量的视觉-文本对数据就可以重新激活聊天和理解场景的能力。相比之下机器人控制任务的训练要复杂得多因此优先开发一个在实体控制任务中表现出色的优秀模型。我们的训练策略简单而有效。首先在机器人数据上训练VLA模型。在这个训练过程中我们还包括推理数据以确保视觉和文本组件之间的持续对齐。一旦机器人数据训练完成同时训练视觉-文本数据和机器人数据以帮助模型在两个任务中都保持熟练程度。 专家混合上面展示了使用分阶段对齐训练来解决虚假遗忘问题使模型能够保留先前训练的VLM中的知识。然而这种方法并没有完全解决任务干扰问题因为模型仍然需要同时在视觉-文本数据和机器人数据上进行联合训练。我们引入专家混合来解决这个问题如图4所示。给定作为第个块的输入。该输入可以属于或。值得注意的是这里设计了一个双路由器一个用于处理与多模态理解和对话相关的任务另一个用于学习机器人控制的表示。输入首先通过多头自注意力机制其中表示多头自注意力。然后将其输入到专家混合层可以表示为 然后将其与来自跳跃连接的输入相加。请注意在第一阶段训练中仅激活控制专家。
为了区分不同任务的输出采用了不同的系统提示。比如对于理解和对话任务使用 “依据问题作答”对于控制任务则使用 “预测机器人动作”。直观来讲应用于多层感知器MLP层的静态专家混合MoE架构可看作是一个高维特征提取器它对共享参数空间进行划分。这使得每个任务例如理解任务和控制任务都能利用相当一部分专用神经元进而让模型在这两个方面都表现出色。这种类MoE架构的一个关键优势在于在推理过程中仅有一条路径会被激活从而保留了基础模型的参数。我们的研究结果表明这种简单直接的方法能够同时提升模型的理解能力、对话能力和控制性能。 为什么要共享自注意力层呢目前一种常见的解决方案是使用注意力混合机制来学习特定任务的表示。然而基于实验我们认为理解任务和机器人控制任务共享的一些表示对两者都有益。例如在典型的机器人控制场景中模型需要理解场景、识别物体、确定物体位置然后将这些信息转化为动作。这些高维表示具有相似的语义概念。因此这两个任务之间的相互关联性对于同时提升理解和控制方面的性能至关重要。
实验分析多
模态理解和视觉问答结果
使用Vlmevalkit在TextVQA、DocVQA、InfoVQA、AI2D、ChartQA、MTVQA和RealworldQA数据集上评估ChatVLA的视觉问答能力。还针对为多模态大语言模型MLLMs设计的更具挑战性的基准进行了测试即MMMU、MMStar、MME、OCRBench、HallBench和MMBench。如表1所示ChatVLA在多个基准测试中与现有的视觉语言模型VLMs相比表现出了竞争力。值得注意的是在视觉问答任务中我们的框架在TextVQA上取得了71.2的显著成绩大幅超越了当前最先进的视觉语言动作VLA方法。与ECoT和DiVLA相比它在这些基线模型上的相对提升分别达到了9.2倍和9.5倍。该模型在需要复杂跨模态整合的多模态推理任务中表现出特别强的能力。在MMStar基准测试中ChatVLA获得了37.4的分数与DiVLA和ECoT相比性能分别提升了2.2倍和6.9倍。 真实机器人任务结果
ChatVLA的实体控制性能在25个真实世界的操作任务上进行评估。根据语言指令的粒度所有这些评估任务可分为三类。我们在一个真实机器人上进行了528次试验以评估该模型的能力。
直接提示的长时程任务模型被要求直接根据语言指令执行任务例如“整理玩具”。评估的四个任务均在桌面设置的玩具场景中完成。此类具有挑战性的任务包括任务1其中所有玩具以随机姿势放置在不同位置以及任务3它需要整合打开、拾取和关闭这三种不同的技能。在所有评估场景中ChatVLA在直接根据高级描述执行任务方面展现出显著优势。该方法在多步序列中保持一致的性能在任务1中平均成功长度达到0.54比Octo高6.75倍并且在任务3的三步序列中成功率达到完美。带有高级规划器的长时程任务模型接收指定当前子任务目标的中间命令例如“拾取物体并放置到目标位置”。此评估的主要挑战来自子任务之间的显著差异这些差异包括1不同的物体类型例如盘子、杯子、面包2多种所需技能例如拾取 - 放置、翻转3不同的位置高度例如顶部/底部架子位置如图1右下角面板所示。这些差异共同构成了一个测试平台用于评估模型的组合推理能力特别是其整合物体操作、空间推理和干扰适应的能力。这一要求在实验结果中得到了明显体现如表3所示ChatVLA在所有任务配置上均优于OpenVLA和Octo。跨技能多任务这些任务需要在各种真实世界环境中整合多种操作技能例如拾取、放置、推动和悬挂具体分为三个测试领域浴室场景任务14 - 17、厨房环境任务18 - 19和桌面配置任务20 - 25。如表4所示ChatVLA在所有任务类别中均比Octo和OpenVLA表现更优。该模型在具有挑战性的浴室和厨房任务中表现尤为出色在这些任务中机械臂的操作空间范围受到严重限制。这种实验设置在模型评估过程中引入了大量安全考虑因素从而对评估模型的操作精度和系统稳健性提出了严格要求。
消融研究
哪种视觉语言数据更优在第二阶段使用LLaVA - 1.5数据集进行联合训练这使得模型在视觉问答VQA和多模态大语言模型基准测试中与Qwen2 - VL相比能够取得相当的结果。然而我们认为剩余的性能差距归因于所使用的视觉文本数据的局限性。为了进一步探索这一点对ChatVLA和Qwen2 - VL在MMMU数据集上的结果进行了深入分析如图5所示。MMMU数据集分为六个类别ChatVLA在其中三个类别艺术、医学和社会科学中的性能略低于Qwen2 - VL。对相应子类别结果的更仔细检查显示性能差异主要出现在五个特定领域艺术理论、检验医学、药学、文学和心理学。这些领域涉及相对有限的专业知识难以获取。在查看LLaVA数据集的组成时惊讶地发现其包含COCO、GQA、OCR - VQA、TextVQA和VisualGenome在内的子数据集缺乏这些领域所需的专家知识这可能是观察到性能下降的原因。这一发现也凸显了ChatVLA的巨大潜力通过使用更合适的专业数据进行训练相信可以在多模态理解方面取得显著更好的性能。视觉文本数据与机器人数据的合适比例是多少在与视觉文本数据进行联合训练时遵循ECoT中讨论的设置将视觉文本数据与机器人数据的总体比例设置为1:3。然而其他数据比例对多模态理解和机器人任务是有益还是有害仍需关注。因此在相同的步数下将联合训练中视觉文本数据与机器人数据的比例分别修改为1:1和3:1。三种设置的结果如表5所示。令人惊讶的是较少的视觉文本数据导致了更好的性能。这与前面的分析一致即使是有限数量的视觉文本数据也足以重新激活视觉文本对齐并弥合基础视觉语言模型VLM与视觉语言动作VLA模型之间在现实世界交互能力方面的差距。
参考
[1] ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model #Reasoning模型复现R1经验综述
小小梦想的R1模型(复现R1)
作者复现R1基于HF的open-r1底层使用trl库在GSM8K数据集上进行了复现使用了4张40G的A100和Qwen2.5 1.5B-Instruct模型。
代码在https://github.com/Mryangkaitong/deepseek-r1-gsm8k
奖励
格式奖励参考了Logic-RL的工作格式检查了以下内容
think出现在/think之后answer在/answer之后/think在answer之后以上三种任意一种都是格式错误奖励值出-1其他出1
accuracy_reward直接看结果是否正确正确奖励值为1错误奖励值为0。
参数
作者使用了DeepSpeed Zero3FlashAttention2 提示词长度最大512回答长度最大1024每张卡1个BS梯度累计16步 每次采样3个回答学习率3e-6BF16使用VLLM。
复现效果 来源于https://github.com/Mryangkaitong/deepseek-r1-gsm8k/blob/main/log/log.png
作者使用Qwen2.5 1.5B-Instruct在GSM8K训练完的准确率为74.29%。
HF的Open-R1(复现R1)
github.com/huggingface/open-r1/
复现的训练步骤 首先对有指令遵循的模型蒸馏DeepSeek R1的训练数据得到Open R1-Distill对Base 模型用GRPO训练得到OpenR1-Zero对Base模型先蒸馏Open R1-Zero的指令遵循数据再使用GRPO训练得到Open R1。
复现效果 左侧是HF Open R1右侧是DeepSeek R1.
作者的生成使用的温度系数为0.6。
Mini-R1 (基于GRPO的用来玩小游戏的模型)
作者希望能通过GRPO的训练让模型精通Countdown游戏。Countdown 游戏是一个数字拼图游戏玩家使用一组随机抽取的数字和基本的算术运算 、-、×、÷ 来达到或尽可能接近目标数字
作者的技术文章在 https://www.philschmid.de/mini-deepseek-r1
奖励设置
Format Reward检查生成的格式是否满足think [thinking] /thinkanswer [answer] /answer 的格式。满足奖励值为 1.0 否则为0。Accuracy Reward从标签中提取方程式并根据目标以及每个数字是否使用一次对其进行评估。answer
生成的回答必须包含answer且必须可以被answer(.*?)/answer解析出内容同时解析出的内容只能包含数字、运算符、-、*、/、括号、点号.和空白字符。数字使用正确解析出的内容中的数字只能是输入的几种数字。使用eval运行解析出的表达式结果需要和答案的差异小于1e-5。异常处理报异常直接返回0.
参数设置
每个设备一个BatchSize梯度累计8步采样8次使用VLLM。
观察
在 ~50 步时模型已学习正确的格式。think.../think\nanswer.../answer在 100 步时求解方程的成功率约为 25%。模型开始用单词 “推理” 见下面的例子。在 200 步时性能似乎收敛得慢得多我们的成功率为 ~40%。该模型开始学习一种新的 “格式”在其中它通过尝试不同的组合并查看结果类似于以编程方式求解方程式请参阅“步骤 200 和 450 之间的成功推理样本”。在 450 个步骤中我们求解方程的成功率为 50%。性能仍然缓慢提高模型从步骤 200 开始保持其新的格式形式。 Logic-RL(复现R1)
文档链接 https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab
代码链接 https://github.com/Unakar/Logic-RL
奖励设置
作者自己写的规则
作者发现 我们发现模型在学习format的时候其实是一个快速收敛--逐渐崩坏--又忽然找回format的形式,与我们三阶段RL训练设置吻合。 还有一个有趣的小发现在中间阶段模型似乎认为格式反而阻碍了它的思考日志里看到不少例子模型在answer tag开始后意识到自己犯错了想重回think进入思考模式可惜被format reward狠狠惩罚了 奖励设置
格式是否遵循think [thinking] /thinkanswer [answer] /answer 的格式。满足奖励值为 1.0 否则为-1.0。答案是否正确如果答案正确是2答案可以解析但是错误是-1.5答案不可以解析是-2
参数
模型Qwen2.5-7B-Instruct-1M数据集场景作者使用了不到2K合成数据集。
场景逻辑问题类似老实人和骗子的益智题老实人总说真话骗子总说假话下面N个人各有各的表述请判断谁是骗子。
训练全局GRPO
预热作者先使用一共三个人的逻辑问题作为训练集3epoch的RL训练后成功让qwen-7B达到了0.41。模型在10step训练里很快就能学会把format error降到0.1的占比训练高温采样设置温度系数1.2退火温度从1.2慢慢降到0.9学习率降低到2e-7。
作者在挑选模型发现Qwen 7B MATH 首先它指令跟随能力比较一般很难学会format 其次它说话老爱用python code解题训练很难克服移除system prompt后还是习惯用\box{}包裹answer还是format不行Markdown味道太重一板一眼的Reasoning模型本应思想跳脱一些才是。 从逻辑上确实是Qwen 7B Math更高但是格式遵循不如Qwen Instruct模型。
作者使用了GRPO采样数逐渐减少 64-32-16(因现存有限每个设备的BatchSize先小后大)。
simpleRL-reason(Math模型)
Qwen2.5-7B-SimpleRL训练使用了8K条math相关的数据
SFT作者先从Qwen 32B QwQ生成 对应回答然后对基模进行蒸馏。RL 作者使用GRPO每个采样8个回答训练模型。
Qwen2.5-7B-SimpleRL-Zero训练只有RL步骤无SFT。
效果
(pass1) 33.3% on AIME, 62.5% on AMC, and 77.2% on MATH。
总结
Reasoning能力这几个复现项目都以Qwen为基模。预训练通过较好的过滤减少知识的冲突提高数据质量把世界知识灌注好通过GRPO就可以激发模型的reasoning能力。高效训练强化学习可以参考OpenRLHF 、Ray和 生成时考虑VLLM。蒸馏具有Reasoning能力的教师模型或者通过Rule-Base RL训练都可以得到不错的效果。但是蒸馏涉及到数据的选取问题RL涉及到Rule的质量规避Reward hacking现象。通过高温采样可以得到多样性强的结果。 #VLM与VLA的区别是什么当前自动驾驶落地的情况怎么样
去年理想对外展示快慢系统后VLM在自驾的应用落地正式对外展露。今年智驾行业又在主推VLA相比于端到端VLM方式VLA方案拥有更高的场景推理能力与泛化能力。不少智驾领导者都将VLA视为当下“端到端”方案的2.0版本VLA也被看成是端到端VLM的合体。VLM关注的重点在于环境建模VLA除了考虑环境建模还需要关注规划和控制问题这是两者的区别。
VLM的应用怎么样
视觉语言模型在座舱域的应用可能更加直接交互也容易些。这也是为什么座舱域更容易接入。VLM在自驾域的应用分为辅助功能和直接预测轨迹。
理想的快慢系统给出了第一个辅助应用的答案这一点发布会上有很清晰的描述。端到端模型速度快大模型帧率低无法实时交互那么是否可以把VLM输出的结果给未来帧作为参考提供一定的经验或者矫正无论是特征级别还是后处理层面相信是一个很好的辅助。地平线的Senna也给出了具体的方案VLM的缺点是对于精确的数值预测不是很好但是对于预测意图或者粗粒度的规划是很好的E2E系统到现在依然无法解决一些复杂的长尾场景。Senna工作中VLM做高层次的planning decisions进而指引E2E系统的轨迹预测。 当下公开的论文像DriveGPT、DriveGPT4、DriveVLM、OmniDrive等任务直接输出规划或预测轨迹点信息这一点接近了VLA本身但存在真实场景中高质量数据收集较难、实时部署较难等一系列的问题。如果只有纯视觉输入除了参数量本质上可以用端到端模型来替代但参数量上来了模型的性能上限也会出现非常大的差异。
VLA可能有哪些优势
可以说VLA是端到端2.0VLA的关键特性是思维链这一点和当下的端到端有所不同例如潮汐车道基于VLA的智能驾驶车辆能通过文本等看懂可逆车道的道路标志从多重信息中确认此时的潮汐车道是否可行驶并通过转向灯等与其他车辆交互随即变换车道进行转向最终行驶至潮汐车道中。利用类人的思维通过对全局上下文的了解去了解车道的情况与其他车辆交互并做出最优的、安全的决策。
VLA大模型直接用统一的参数处理原来的分层任务和现在的端到端模型相似。但大模型的参数量大微调到下游任务也比较方便。
VLA具备更强的泛化能力这一点和具身领域比较相似零样本、新场景的泛化能力会有明显提升。
VLA在自动驾驶中应用会有哪些难点
高质量数据依然是瓶颈即使是finetune怎么解决数据分布不均衡问题怎么减少模型本身的经验导致的错误输出
VLA的部署算力上支持的不是很好英伟达的Thor也许是一个很好的解决方案千T的算力加持。极氪自研的浩瀚智驾系统率先成为全球首款搭载英伟达Thor芯片的量产车型期待后面的自驾公司产生更多有效、稳定的方案
VLM/VLA在训练中可以增强端到端任务
VLM和VLA也可以很有效增强现有端到端任务主要体现在以下部分
提升泛化能力处理长尾场景通过引入LLME2E模型能够更好地处理罕见和复杂的驾驶场景知识迁移可以完成长尾场景的学习大模型的零样本能力也是值得关注的点。
丰富的语义信息辅助推理视觉语言模型可以生成更有解释性的结果为E2E模型提供了丰富的语义信息帮助模型更好地理解驾驶环境。
提高规划性能降低轨迹误差DiMA在nuScenes数据集上实现了37%的L2轨迹误差降低。多模的轨迹输出更符合现实需求进而减少碰撞率VLM-AD和DiMA均显著降低了碰撞率。
知识蒸馏助力实时部署通过将大模型的知识蒸馏到更小的模型中可以在保持高性能的同时显著减少计算量和模型大小。
增强可解释性VLM-AD通过预测人类可解释的动作标签增强了模型决策的可解释性。
减少对大规模数据集的依赖通过LLM生成的合成数据或推理注释可以在数据稀缺或隐私受限的场景下训练模型。 VLM可以自动生成高质量的标注数据减少人工标注的成本和时间。 #比亚迪终结高阶智驾特权时代
『天神之眼』击穿价格壁垒
比亚迪“天神之眼”震撼登场开启全民智驾新时代
比亚迪又一次惊艳众人这次直接放大招目标是把智能驾驶从“奢侈品”变成人人都能拥有的“日用品” 2月10日晚在比亚迪智能化战略发布会上董事长兼总裁王传福宣布比亚迪全系车型都将搭载“天神之眼”高阶智驾系统首批就有21款车型稍后上市。要知道在此之前比亚迪的智能驾驶一直被网友调侃为“理科生的沉默”没想到这次直接甩出“天神之眼”还喊出了“全民智驾”的口号连7万多块的海鸥都安排上了高阶智驾这操作简直太绝了
消息一出资本市场迅速给出积极反馈。自消息公布起短短4天内比亚迪的市值激增近1500亿元。这无疑是继2024年初“电比油低价格战”后比亚迪发起的又一重大战略举措极有可能重塑中国汽车市场的竞争格局。
这也是为什么王传福能在台上淡定表示“技术不成熟我们就不说但一拿出来就要大大超越预期。” 在比亚迪发布新战略后资本市场迅速做出积极反馈。自消息公布起比亚迪的股价一路走高。截至2月10日短短4天内其市值已激增近1500亿元。此次行动显然是比亚迪继2024年初的“电比油低价格战”之后再次发起的一场重大战略举措这场“智能普及战”有可能彻底改变中国汽车市场的竞争格局。
“天神之眼”技术矩阵覆盖全系各有千秋
比亚迪“天神之眼”系统根据硬件配置和功能定位精心分为三个版本对应不同尾标颜色从高端到大众市场的车型全覆盖。 版本 正式名称 主要搭载品牌 硬件配置 功能亮点 适用车型 天神之眼A 高阶智驾三激光版DiPilot 600 仰望 集成3颗激光雷达、5颗毫米波雷达、11颗摄像头搭载双英伟达Orin X芯片算力高达508TOPS 支持无图城市领航CNOA、高速NOA、易四方泊车等适用于复杂城市道路和极端场景满足如仰望U8的极端越野需求 专为仰望品牌旗舰车型设计如仰望U8 天神之眼B 高阶智驾激光版DiPilot 300 腾势、比亚迪 采用1颗激光雷达毫米波雷达摄像头组合算力254TOPS单Orin X芯片 与A版功能相似但受限于单激光雷达复杂场景性能稍逊 适用于腾势Z9GT、比亚迪汉L等中高端车型 天神之眼C 高阶智驾三目版DiPilot 100 比亚迪 纯视觉方案配备5颗毫米波雷达、12颗摄像头前视三目设计、12颗超声波雷达搭载地平线J6M或英伟达Orin N芯片算力96TOPS 聚焦高速NOA、代客泊车AVP、城市记忆领航MNOA支持1000公里0接管驾驶AEB刹停速度100km/h未来升级至140km/h 覆盖7万 - 20万元区间车型如海鸥6.98万元起、秦PLUS DM-i等推动智驾技术普及
核心技术软硬结合数据驱动
硬件与算法深度融合才是关键。只堆砌硬件那不过是一堆废铜烂铁比亚迪深知这一点将硬件和算法深度融合充分释放硬件性能展现出强大的软件实力。
感知系统A/B版的激光雷达发挥着重要作用。仰望U8的3颗激光雷达实现360度无死角感知探测距离达250米能精准识别不规则障碍物腾势Z9GT配备2颗激光雷达更侧重城市复杂场景。C版的纯视觉方案也毫不逊色采用“二郎神”前视三目摄像头2颗800万广角 1颗800万长焦通过稠密点云模拟激光雷达效果最远探测350米再配合毫米波雷达实现全天候感知。算力与架构比亚迪全球首推整车厂自研车载计算平台。仰望U8的508TOPS算力支持端到端决策腾势Z9GT的254TOPS算力则优化城市路况处理。璇玑架构更是一大亮点整合“一脑中央计算平台、两端车端 云端AI、三网车联网/5G/卫星网”实现电动化与智能化深度协同支持算力动态分配和算法快速迭代还接入DeepSeek赋能车端和云端的AI双循环。数据驱动迭代比亚迪依托超过440万辆智能车的云端数据库每月新增数十万条驾驶场景数据。这些海量数据为算法优化提供了丰富素材形成“越开越智能”的进化模式在数据积累和模型训练上建立起难以复制的优势。
功能场景全链条覆盖实用至上
“天神之眼”的功能覆盖了从高速到泊车的各个场景实用性拉满。
高速与城市领航高快领航HNOA能自动上下匝道、保持车道、智慧避障面对大曲率弯道和施工路段也不在话下。无图城市领航CNOA更是厉害全国范围开通不依赖高清地图靠多传感器融合就能识别红绿灯、在复杂路口博弈通行。泊车与记忆功能代客泊车AVP成功率高达99%不管是狭窄车位还是室内外环境都能轻松应对用户还能下车后远程操控。自动泊车精准感知空间车位插空即停斜列空车位也能精准识别。记忆领航MNOA计划2025年底OTA推送它能学习用户高频通勤路线自动完成红绿灯启停、路口通行。 战略意义重构市场引领产业变革
比亚迪这波操作不只是技术上的突破还蕴含着深远的战略意义。
成本下探与市场下沉凭借规模化生产和自研技术比亚迪把高阶智驾成本压缩至1.5万元以内推动激光雷达价格向千元级迈进成功打破“智驾 高价”的行业认知。7万元级的海鸥搭载DiPilot 100直接冲击合资品牌燃油车市场。产业链协同及全球化与生态协同比亚迪拥有11万名研发团队其中5000名是智驾工程师和全球最大新能源汽车制造体系具备从芯片到算法的全链路自研能力。这种垂直整合模式不仅降低了成本还推动了中国智能驾驶产业链的成熟。2025年海外销量同比激增83.4%智驾技术成为拓展欧美市场的关键差异化竞争力。同时比亚迪呼吁供应链扩产带动激光雷达、芯片等产业链发展构建起“技术普惠”生态。
未来展望打造智能驾驶“中国名片”
比亚迪的全民智驾战略不仅是企业自身的技术飞跃更代表着中国汽车工业从“电动化领先”向“智能化引领”的转型。分析师预测未来3 - 5年跟不上智能化步伐的车企可能会面临淘汰。
比亚迪还计划推出“赛道无人驾驶”系统通过扭矩矢量控制实现性能与智能的融合。其提出的“出行空间”概念预示着汽车将从单纯的交通工具升级为生活场景的延伸。随着“天神之眼”的普及中国智驾技术有望成为全球市场的差异化竞争力。
以前智能驾驶就像奢侈品店里的限量款价格高昂。现在比亚迪把激光雷达、毫米波雷达这些“黑科技”塞进7万块的海鸥里还让全系车型智驾版比老款最多贵5000块相当于用一部手机的钱就能升级整套智能驾驶系统。这场技术普惠背后是比亚迪的“阳谋”。当1000万车主同时使用智驾系统每天产生的数据量能让算法进化速度提升十倍。就像网友说的“现在买比亚迪等于入股自动驾驶实验室开着开着车自己就变聪明了。”
写在最后
从今往后谁再敢说比亚迪智驾是“瘸腿选手”网友第一个不答应这场发布会直接把行业整破防了——以前大家吐槽比亚迪“三电技术封神智能驾驶掉队”现在“天神之眼”一亮相好家伙直接让友商连夜改PPT。
这波操作可不只是技术炫技这么简单。以前智能驾驶就像奢侈品店里的限量款动辄二三十万的车才配拥有。比亚迪这次直接把激光雷达、毫米波雷达这些“黑科技“塞进了7万块的海鸥车里活生生把智驾配置卷成了“车圈拼多多”。
更绝的是比亚迪的“技术普惠“打法。别人家发布会晒参数比亚迪直接晒价格表——全系车型智驾版比老款最多贵5000块相当于用一部手机的钱升级整套智能驾驶系统。
其实这场革命早有预兆。去年王传福说要“用新能源车价格战的方式打智能驾驶”时还有人笑他画大饼。结果人家闷声搞出个“天神三件套“仰望U8上的激光雷达阵列活像未来战车秦PLUS的“前视三目“摄像头堪比蜻蜓复眼最狠的是那个代客泊车功能——现场演示时工作人员直接蒙着眼罩让车自己找车位把观众看得直呼“这波在大气层”。
现在行业彻底被带跑偏了。以前车企开发布会必提“算力天花板”“算法专利数”现在全改口说“要让老百姓用得上”。这场技术普惠的背后藏着比亚迪的“阳谋”。他们早就算准了当1000万车主同时使用智驾系统每天产生的数据量能让算法进化速度提升十倍。就像网友说的“现在买比亚迪等于入股自动驾驶实验室开着开着车自己就变聪明了。” 这种“人民战争”式的研发模式恐怕才是让传统车企最头疼的杀手锏。
深圳发布会现场“智驾平权时代”六个大字滚动播放。比亚迪不仅要改写智能驾驶的游戏规则更要重新定义“好技术”的标准——不是实验室里冷冰冰的参数而是菜市场门口能自动避让三轮车的智能海鸥是新手司机在暴雨天敢放心交给系统的AEB功能是每个普通人都能触摸到的科技温度。从今往后谁还敢说比亚迪智驾是“瘸腿选手”这场发布会直接让行业“破防”友商估计都得连夜改PPT了 #自动驾驶汽车的运动预测
论文链接https://arxiv.org/pdf/2502.08664
摘要
本文介绍了自动驾驶汽车的运动预测综述。近年来自动驾驶领域吸引了越来越多的关注。准确预测各种交通参与者的未来行为对于自动驾驶汽车AVs的决策是至关重要的。本文主要研究基于场景和基于感知的自动驾驶汽车运动预测。本文提出了运动预测的形式化问题表述并且总结了该研究领域面临的主要挑战。本文还详细介绍了与该领域相关的代表性数据集和评估指标。此外本文将最近的研究分为两个主要类别监督学习和自监督学习它们反映了基于场景和基于感知的运动预测中不断发展的范式。在监督学习的背景下本文深入检验并且分析了该方法的每个关键元素。对于自监督学习本文总结了常用的技术。最后本文总结并且讨论了潜在的研究方向旨在推进AV技术这一重要领域的发展。
主要贡献
本文的贡献总结如下
1本文全面概述了自动驾驶汽车运动预测的最新研究涵盖了基于场景和基于感知方法的通用流程
2本文总结并且讨论了未来的研究方向为推进AV技术的发展做出了贡献。
论文图片和表格
总结
本文全面概述了自动驾驶汽车运动预测的最新进展。本文首先介绍了运动预测的表述然后回顾了各种广泛使用的数据集。接着详细解释了专门为运动预测设计的评估指标。最先进的预测模型已经取得了重大进展它们采用了注意力机制、GNNs、transformers和自监督架构等先进技术。尽管这些技术取得了突破但是该领域仍然面临着重大挑战。理解运动预测对于自动驾驶至关重要因为它极大地提高了道路场景的可解释性从而在提高未来自动驾驶技术的安全标准方面发挥着重要作用。 #理想汽车官宣首款纯电SUV
股价大涨、CEO罕见发声
好么 李想是我感觉最恶心的之一
在理想MEGA纯电MPV之后理想首款纯电SUV车型正式进入公众视野。
2月25日理想汽车通过官方社交平台发布了旗下首款纯电SUV的外观造型信息新车命名为理想i8不同于此前车型该车采用了全新的外观设计还将配备激光雷达并采用贯穿式尾灯。
据了解i系列是理想汽车全新的纯电SUV系列与L系列、MEGA并列3个产品系列共同构成完整的车型矩阵。 理想汽车CEO李想同日在社交平台罕见发文解释了自家两大产品序列 ——L和i的含义。其表示增程 SUV 的“L”代表“Leading领先”纯电 SUV 的“i”代表“intelligence智慧”。
受新车消息影响港股理想汽车逆市走强截至午间收盘理想汽车涨超12%盘中最高涨幅超14%。
理想汽车的首款纯电车型理想MEGA去年3月1日上市售价55.98万元官方原本期望其成为50万元以上、不分品类和能源形式的销量第一。但该车型上市后经历系列风波未能实现预定目标。
在首款纯电车型上市失利后理想汽车官方决定将原本在2024年内发布的3款纯电SUV的推迟至今年上半年。
此后理想发布的首款30万元以下的新车型理想L8很快扭转了公司遭遇的不利境遇。去年全年理想汽车的交付量超过50万辆同比增长33.1%再次蝉联造车新势力销量冠军。
不过理想汽车的头部地位正在遭遇冲击2025年开年第一个月理想汽车丢失连续多个月的销量第一宝座当月交付新车29,927辆同比下降3.97%环比下降48.85%成为新势力中唯一一家同环比双降的企业。
而同期小鹏汽车共交付新车30,350辆同比增长268.88%连续3个月交付量破3万辆的同时时隔30个月重回造车新势力销量榜首。 #Hawk
大模型破解极端场景港科开源Hawk重新定义开放世界视频异常理解
视频异常检测VAD系统广泛应用于监控、安防、交通管理等领域能够自动识别异常事件如暴力行为、交通事故等从而减少人工干预、提高效率。在大模型时代随着大规模预训练模型尤其是视觉语言模型VLM的发展VAD的智能化水平得到了显著提升。
然而现有VAD技术仍面临挑战。当前系统多依赖传统特征提取方法对场景的语义理解有限难以识别复杂或不规则的异常行为。同时现有的标注数据稀缺限制了VAD在开放世界场景中的应用这些场景中异常行为千差万别现有模型难以应对未见过的新型异常并缺乏足够的自适应能力。
针对上述挑战本研究提出了Hawk一个面向开放世界的视频理解和异常检测框架。HAWK通过识别异常视频和正常视频之间的运动信息差异显式地整合了运动模态以增强异常识别。为了加强运动信息的关注Hawk在运动和视频空间中构建了一个辅助一致性损失指导视频分支集中在运动模态上。此外为了提升运动与语言之间的解释能力Hawk建立了运动及其语言表示之间的明确监督关系。此外本研究标注了超过8,000个异常视频及其语言描述支持在多样的开放世界场景中进行有效训练并创建了8,000对问答对以帮助用户处理开放世界中的问题。实验结果表明HAWK在视频描述生成和问答任务中均超越了现有的VAD基准。
Demohttps://huggingface.co/spaces/Jiaqi-hkust/hawk Modelhttps://huggingface.co/Jiaqi-hkust/hawk Datasethttps://huggingface.co/datasets/Jiaqi-hkust/hawk Codehttps://github.com/jqtangust/hawk
1.引言
图1在VAD中不同的架构。
A是传统的VAD他使用一个二分类器来检测异常
B是使用多分类器整合语义信息来给出对不同类型的异常信息仅限于检测异常帧
C是之前的视频理解框架可以交互式的为用户提供丰富的语义信息但更多关注的是长距离上下文信息而不是异常信息但是不能准确定位异常因为主要依赖伪标签
D为本文提出的方法提高了异常理解能力并使用带有丰富语义信息的注释标签来训练 1.1 问题分析
如图1A所示对场景的语义理解较浅用户交互不足。如图1B所示仅限于检测异常帧仍需进一步手动分析来理解异常。如图1C所示主要依赖于伪标签进行训练更多关注长距离上下文信息而不是与异常相关特征。
1.2 方法
HAWK是一个交互式VLMinteractive large visual-language model用于精确理解视频异常如图1D所示。
正常视频和异常视频中的运动差异显著。通过双分支框架显式集成运动模态以增强对异常的理解3.1。增强运动注意力。基于原始视频外观特征和其运动之间的互信息在紧空间中构建了一个辅助一致性损失3.2隐式引导视频分支关注运动相关特征。增强运动与相应语言的解释。从原始描述中提取与运动相关的语言动词及其实体以监督运动的视觉和语言表示3.3。
1.3 数据集
本研究采集了来自不同场景的七个视频异常数据集并为每个视频生成了语言描述。此外为了应对用户提出的开放式问题本研究利用视频的语言描述生成潜在的QA对进行训练。由于这些数据集涵盖了多个场景包括犯罪UCF-Crime、校园环境ShanghaiTech 和 CUHK Avenue、人行道UCSD Ped1 和 Ped2、交通情况DoTA以及人类行为UBnormal因此该模型能够有效地泛化到开放世界场景中。
1.4 主要贡献
一个创新的视频-语言框架HAWK旨在理解视频异常并引入运动模态来增强其视频理解语义能力。为七个不同的视频异常数据集生成了丰富的语言描述。同时考虑到开放世界问题的多样性同时生成了问答对以应对潜在的用户QA。在多个场景中展示了SOTA的表现既能进行视频异常理解又能进行问答任务。
2. 数据工程
图2数据集生成的流程。
第一行首先将视频分割为片段密集片段并生成描述然后通过将描述prompt输入给GPT4来生成与异常视频相关的描述并且要人工检查出错误的
第二行将两个原则prompt输入给GPT4来生成问题并通过人工选出最合适的100个问题将他们随机分给不同的视频然后将上面的描述问题prompt输入给GPT4来生成答案 2.1 原理2.1.1 语言描述
对7个数据集进行详细的语言描述标注涵盖了多种异常场景
犯罪UCF-Crime校园ShanghaiTech、CUHK Avenue人行道UCSD Ped1、Ped2交通DoTA人类行为UBnormal
2.1.2 开放性问题
为每种场景构建了开放式的QA对进一步增强模型对用户各种问题的实际回答能力。过程如图2所示。数据格式如下 2.2 异常视频描述生成流程
首先将视频拆分为密集的片段确保捕捉到关键信息使用感知工具InternVideo、Tag2Text、GRiT自动生成每个片段的描述UCF-Crime本身就有将 描述 prompt生成与视频异常相关的具体描述给GPT-4来为每个视频生成与异常相关的描述人工检查不准确的标注
2.3 以人为中心的QA对生成
虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。
2.3.1 两个原则
与异常相关问题应与视频中的异常紧密相关5W2HWhat、Who、Where、When、How、How much和Why
2.3.2 流程
将两个原则prompt输入GPT-4来生成异常视频的开放性问题人工选择出最合适的100个问题随机分配给每个视频将问题prompt输入GPT-4来为QUESTION生成ANSWERS
3. 方法
图3Hawk的总览。在训练过程中旨在优化3个损失
1原始视频到语言匹配损失为了生成一般性的语言描述
2原始视频到运动一致性损失为了让原始视频更关注与运动相关的
3运动到语言匹配损失为了让模型更好的描述运动 3.1 显式集成运动模态
HAWK专门集成了运动模态采用架构相同但权重独立的双分支结构集成视频和运动信息形成视觉标记嵌入。最终通过结合视觉标记嵌入 和文本嵌 输入给 LLaMA2 来生成最后的响应 整体推理过程如下 表示用于提取外观特征的 输入 表示用于提取运动特征的 输入 表示运动提取器 和 分别表示原始视频理解网络和运动理解网络架构由一个 EVACLIP 和一个预训练的 Video QFormer 组成 和 表示对于视频和运动的可学习的投影网络旨在将视觉视频和运动嵌入投影到语言特征空间 表示冻结的文本标记到嵌入的投影旨在使文本信息可以输入到 LLaMA2 中 表示组合输入 promptHere is the input video embedding VIDEOEMBEDDINGand motion embeddingMOTIONEMBEDDINGin different framesplease help me toDESCRIBEVIDEO.其中 DESCRIBEVIDEO是视频描述生成的问题类别QUESTION是视频问答的问题类别
3.2 隐式集成运动模态
3.1虽然集成了运动模态来微调HAWK但是视频分支和运动分支独立运行所以视频分支不能提取出关注异常发生区域运动的外观特征。
3.2.1 提取运动 表示在时间步 的运动描述使用了 Gunnar Farneback 算法用于生成两个连续帧之间的运动信息 表示在时间步 和 的视频帧 包含来自水平和竖直两个方向的运动向量
接着使用这些通道的光流幅度作为 Mask归一化到01并与原始视频外观进行相乘以遮蔽其他非运动区域 表示逐像素相乘 表示在时间步 的原始视频和运动信息
3.2.2 构建损失
图4Hawk的损失可视化。
① 表示原始的视频到语言损失
② 表示运动模态适应的余弦相似度损失
③ 表示运动到语言损失 因为 仅包含关键的异常信息且从 中提取而得。为了让外观特征原始的视频可以更加集中在运动区域就需要将 和 压缩到一个紧凑的空间。最后的 损失如下 表示压缩函数 与 共享一些初始的浅层参数见图 3 表示 通过压缩函数压缩后的紧凑表示 表示 通过压缩函数压缩后的紧凑表示
3.3 解释运动到语言
在集成了运动模态3.1 和 3.2的基础上Hawk 进一步增强运动到语言的解释。
3.3.1 提取与运动相关的语言
基于语言中运动的表示主要来自动词及其相应的实体首先对原始句子进行依赖关系分析 表示依赖解析 表示真实值 表示依赖结构图表示句子中词汇之间的句法关系
根据依赖结构图可以提取动词 以及相关的实体主语 宾语 间接主语 间接宾语 然后组合成表示运动的短语 是运动语言提取器 是与运动相关的语言
3.3.2 构建损失
在视觉和语言表示中的运动之间建立监督实现运动-语言匹配作为辅助损失 是交叉嫡损失 表示单词数量
3.3.3 优化目标
如图 4结合 3.2.2图42和 3.3.2图43在原始视频到语言匹配损失 图41的基础上形成最终的训练优化目标
4. 实验4.1 实验设置
图5训练与测试。分为三个阶段
1预训练在 WebVid 数据集上进行预训练来获取对视频内容的一般性理解
2微调使用8,000个视频微调模型的异常理解能力其中训练数据和测试数据的占比为9:1并在此阶段联合训练视频描述生成和视频问答两个任务
3在测试集中独立评估这两个任务以确保模型的有效性 4.2 定量评估
表1定量评估baseline和HAWK方法的性能。红色表示指标第一蓝色表示指标第二。
A表示对异常视频描述生成任务的各指标比较
B表示对视频问题回答任务的各指标比较 4.3 定性评估
表2定性评估baseline和HAWK方法的性能。红色表示关键语义信息不一致绿色表示生成结果与真实值很接近黄色表示生成结果存在的问题。
A表示对异常视频描述生成任务的各指标比较
B表示对视频问题回答任务的各指标比较 4.4 消融实验
表3两种任务的消融实验的定量评估。红色表示指标第一蓝色表示指标第二。
A表示对异常视频描述生成任务的各指标比较
B表示对视频问题回答任务的各指标比较 表4两种任务的消融实验的定性评估。红色表示关键语义信息不一致绿色表示生成结果与真实值很接近黄色表示生成结果存在的问题。 5. 结论
本研究提出了Hawk一个创新的视频-语言框架用于理解各种场景中的视频异常。通过结合运动特征和构建丰富的语言描述Hawk在开放世界场景中展示了优越于VAD基线的表现。它具有在多个领域的实际应用潜力并推动提升模型与用户的互动性从而能够更高效、有效地解决用户关于视频异常的特定问题。 #FSD突然降临中国
不同车型逐批推送老车主苦等多年终梦圆
FSD入华官宣了。
盼星星盼月亮特斯拉中国车主等到了FSD行业迎来了最强鲶鱼。
全民智驾元年冲刺L3的当口对岸的独孤求败终于对上了国内的智驾群雄。
技术上的强弱暂且未知体验技术的门槛却实实在在摆在眼前。
FSD要如何打动车主花6.4万元选购
FSD来了
特斯拉发布了2024.45.32.12版本的更新通知通知内容主要包括三部分
城区道路Autopilot分批推送。驾驶室摄像头可以判断是否集中注意力开车并做出提醒。地图包更版本更新。
所谓城区道路的Autopilot就是我们常说的FSD现售价6.4万元支持分期购买每月5219元。
根据通知内容FSD可以根据导航引导车辆驶出匝道和交叉口识别信号灯直行、转向和掉头等可以自动变道。
不设置导航路线也能开FSD会根据实际情况选择最优道路行驶。
特斯拉最后强调城区Autopilot已在部分车型推出将逐步扩展适配的车型范围。
最强智驾鲶鱼正式登场。车主圆梦网友热议。
最值得关注的话题当然是国产智驾与FSD的对比。
FSD来了然后呢
FSD入华靴子终于落地来的有些突然。
因为就在1月底马斯克刚承认过FSD入华面临着技术挑战。
在2024年度财报电话会议上马斯克拿中国的公交车道举例形容其“非常复杂”比如这种
然而没想到短短一个月后FSD真的来了。
FSD在中国能带来的体验还不知道有多高。
但目前体验FSD的门槛确实不低。
最便宜的Model 3后驱版现售价23.55万元如果选装上6.4万元的FSD整车落地接近30万元购车成本一下子上去了。
再从两个方面对比一下当前FSD的价格。
先和自己比美国当前FSD的选装价格为8000美元按当前汇率计算折合人民币约为57986元比国内便宜6000块。
同时支持月租每月费用为99美元约合人民币717元/月。
和国内头部智驾玩家对比理想和小鹏都是随车附送。
华为的智驾包则需选装一次性买断的价格是3万元不过车子上市时一般会有权益优惠这个价格在不同时期有浮动目前选装价格为1万元。
此外特斯拉去年还在美国推出过免费试用1个月的政策国内是否会同步跟进FSD面对国内群雄售价是否会调整都值得期待。
最后既然FSD都入华了那同样搭载FSD的Cybercab将来有希望在国内落地吗
在马斯克坚定不移的推进下Cybercab朝着6月落地的目标前进进展飞快。
据特斯拉工程副总裁Lars Moravy透露Cybercab落地时将支持“公路旅行”。
言外之意就是运营范围不仅限于城区。
然而有意思的是特斯拉位于得州的超级工厂近期被拍到Cybercab的测试车数量变多了。
有的测试车还带有方向盘
暂且不知这是传说中的“Model 2”还是Cybercab为了上路路测的“妥协”。毕竟此前的Robotaxi玩家们很少出现一落地便拿掉方向盘的操作。
Robotaxi是特斯拉的未来的增长曲线FSD入华则是特斯拉当前的增长动能。
问题是FSD入华会给特斯拉带来多大的增长
国内智驾玩家将如何应对 #OG-Gaussian
直达143 FPSOG-Gaussian利用占据网格语义信息「降本增效」
摆脱LiDAR如何重建自驾场景
重建逼真且几何精确的三维场景长期以来一直是计算机视觉的一个关键目标。随着神经辐射场NeRF和三维高斯喷溅3DGS等技术的进步生成高精度的三维模型变得更加可行。这些技术大大增强了虚拟环境的真实感并在医学成像、手术导航和虚拟现实等多个领域具有重要应用。在自动驾驶领域这些重建技术能够提供周围环境的精确三维模型包括街道、建筑物甚至动态物体。这种能力提升了自动驾驶系统的导航能力并使极端场景的仿真成为可能扩展了现实的边界同时对其进行了数字化。
为了实现自动驾驶场景的高精度重建NeRF被用作基础技术通过神经网络将场景表示为连续的三维体积。虽然这种方法能够生成高质量的户外场景但其缺点是需要大量的训练资源且渲染速度较慢。随着三维高斯喷溅3DGS的出现这种低成本、快速渲染的三维场景重建方法迅速获得了广泛关注。原生的3DGS并不适合处理包含动态物体的大型户外场景。为了将该技术适配于自动驾驶场景重建现有的3DGS研究将注意力集中在结合LiDAR生成的点云并使用标注的三维边界框来重建包含动态物体的街道场景上。它们成功地将动态物体从静态背景中分离出来取得了低训练成本下的良好重建效果。
然而这些技术仍然需要
昂贵的LiDAR来生成点云需要带有预标注动态车辆边界和轨迹的数据集。
为了缓解这一限制将占据预测网络ONet引入自动驾驶感知领域并应用于三维场景重建。由于ONet将现实世界建模为具有语义信息的体素网格我们可以消除对昂贵的LiDAR的需求同时解决边界框无法捕捉未标注物体的问题。
本文介绍的OG-Gaussian[1]是一种新的自动驾驶场景重建方案。我们的方法首先通过安装在车辆上的摄像头捕捉周围视野图像。然后我们使用占据预测网络ONet获取周围环境的占据网格OG信息。通过利用占据网格中的语义信息我们将原始场景分为街道场景和动态车辆。接着我们将背景街道的占据网格转换为点云并通过二维图像投影将动态车辆的网格转化为初始点云集合。我们的方案不依赖昂贵的LiDAR点云作为初始点云而是将通过占据网格获得的点云作为低成本的替代先验。这些点云将被转换为可优化的高斯椭球集。为了追踪动态车辆我们将其初始点的位置和旋转矩阵定义为可学习的参数。这使得我们可以优化车辆的姿态和轨迹描述动态车辆在现实世界中的运动方式。通过这种方式我们的方法无需预标注的轨迹或动态物体的边界框。最终优化后的高斯椭球将投影到二维空间中渲染重建的自动驾驶场景。
我们在Waymo开放数据集上进行了实验结果表明OG-Gaussian在重建质量和渲染速度方面与当前的最先进方法相当并且在不依赖LiDAR或任何标注的情况下取得了平均PSNR为35.13渲染速度为143 FPS。我们还进行了消融研究以验证使用处理过的占据网格作为先验在重建自动驾驶场景中的有效性。我们为后续任务提供了一种快速、低成本的三维场景重建方法。
主要贡献
我们介绍了OG-Gaussian将占据网格融入到自动驾驶场景的重建中。这种方法消除了依赖昂贵的LiDAR生成初始点云的需求仅需图像输入并显著降低了三维场景重建的成本。我们利用占据网格的语义特性将动态车辆从静态背景中分离出来并估计其姿态消除了动态物体手动标注的需求。通过广泛的实验我们的方法在重建质量和渲染速度方面与最先进的方法相当平均PSNR为35.13渲染速度为143 FPS且不依赖LiDAR或任何标注。
具体方法
OG-Gaussian
在本节中我们重点介绍OG-Gaussian的基本结构并说明如何使用两组不同的点云来表示街道场景和动态车辆。以下是我们方法的详细解释。
街道模型
街道模型的初始点云是一组在世界坐标系中的点。根据前面的介绍三维高斯的参数可以通过协方差矩阵和位置向量来表示。协方差矩阵可以分解为旋转矩阵和缩放矩阵恢复过程如下
除了协方差矩阵和位置矩阵外每个高斯包含一个参数来表示不透明度和一组球面谐波系数公式6用来表示场景的外观。公式6中的和是定义具体球面谐波函数的度和阶。为了获取原始视图的颜色信息我们还需要将球面谐波系数与从视角方向投影的球面谐波基函数相乘。为了获得每个高斯的语义信息我们将logit 加入到每个点其中表示语义类别的总数。
动态车辆模型
自动驾驶场景包含多个移动的车辆我们也需要使用一组可优化的点云来表示它们。观察动态车辆时由于其位置的变化周围空间发生了显著的变化因此很难直接使用3DGS来重建它们。我们使用成熟的检测和分割模型基于占据网格的语义信息提取动态车辆物体并根据其位置在车辆坐标系中提取初始动态点云。
动态车辆和街道的高斯属性是相似的它们对不透明度和缩放矩阵有相同的含义。然而正如前面所提到的它们的位置和旋转矩阵是在车辆坐标系下的这与街道场景不同。为了避免使用地面真实姿态值我们通过跟踪其姿态来表示动态车辆的实际状态。车辆的姿态可以通过旋转矩阵和位移向量表示如下
其中和分别是每个高斯在世界坐标系中的位置矩阵和旋转矩阵和是相对于车辆的物体位置和旋转矩阵。根据先验知识我们可以通过和得到动态车辆的协方差矩阵。为了获得更准确的车辆姿态我们将每帧的旋转矩阵和位置矩阵作为参数如公式8所示然后使用它们来获得车辆的位置和轨迹而不依赖于动态物体的真实轨迹。
动态车辆模型的语义表示与街道模型不同街道模型中的语义是一个维向量是语义类别的数量而车辆模型的语义只有两个类别车辆和非车辆来自占据预测结果因此它是一个一维标量。
在街道模型中我们使用球面谐波系数表示场景的外观。但在处理动态车辆时其位置随着时间变化。因此使用多个连续的球面谐波系数表示动态物体在每个时间戳下的外观是浪费的。相反我们将每个球面谐波系数替换为一组傅里叶变换系数在构建四维球面谐波系数时加入时间维度以便可以通过离散傅里叶变换恢复给定时间步的。
占据先验与周围视图
原始的3DGS通过结构光法SfM生成稀疏点云作为先验。对于重建大规模的街道场景直接使用SfM点云来表示动态物体和复杂的街道场景会产生明显的几何误差和不完整的恢复。为了为3DGS提供准确的初始化点云我们将ONet预测的结果转换为初始化点云以获得准确的几何信息并在多个摄像头视角下保持一致性。
具体而言我们根据占据网格的语义信息提取车辆点云并将每个时间戳的车辆位置定义为。如果我们可以将该车辆标记为动态物体其中表示用于确定其为动态物体的位移阈值。
为了生成更密集的点云来表示动态车辆我们以的体素大小对动态物体的点云进行上采样。然后我们将这些点云投影到相应的图像平面并通过查询像素值为它们赋予颜色。对于每个动态车辆的初始点我们将其坐标转换为相机坐标系然后执行公式9所描述的投影步骤其中是图像的二维像素是每个相机的内部参考矩阵和分别表示正交旋转矩阵和位移向量。
最后我们将剩余的占据网格转换为密集的点云并将其位置取自中心坐标。静态和动态物体的初始点云生成过程如图3所示。除此之外我们还将通过COLMAP生成的点云与生成的点云结合以处理远处的建筑物。
通过高斯喷溅进行全局渲染
为了渲染整个OG-Gaussian我们汇总每个高斯的贡献来生成最终图像。以前的方法使用神经场表示场景在合成场景时需要考虑光照复杂性等因素。我们的OG-Gaussian渲染方法基于3DGS通过将所有点云的高斯投影到二维图像空间从而实现高保真度的自动驾驶场景渲染。
给定一个渲染时间戳我们首先使用公式6计算球面谐波系数。然后将点云从车辆坐标系转换到世界坐标系我们将街道模型和动态模型合并成一个全局模型。使用相机的外参和内参我们将点云投影到二维平面并计算每个点在二维空间中的参数。在公式10中是的雅可比矩阵而和分别表示二维图像空间中的位置和协方差矩阵。
之后我们可以根据点云的不透明度计算每个像素的颜色。在公式11中是透明度和二维高斯概率的乘积而是从特定视角方向的球面谐波中得到的颜色。
实验效果 总结一下
OG-Gaussian是一种高效的方法将占据网格OGs融入3DGS用于重建户外自动驾驶场景。我们的方法利用占据网格提供的先验进行场景重建同时分离并重建动态车辆与静态街道场景。我们的表现与依赖LiDAR的现有最先进技术相当但仅依赖于相机图像。我们的方法将使未来的研究人员能够快速且低成本地重建自动驾驶场景为自动驾驶技术的发展做出贡献。 参考
[1] OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving #VLM-E2E
多模态注意力融合增强端到端自动驾驶
论文链接https://arxiv.org/pdf/2502.18042
摘要
本文介绍了VLM-E2E通过多模态驾驶员注意力融合来增强端到端自动驾驶。人类驾驶员通过利用丰富的注意力语义来熟练地在复杂场景中导航但是目前的自动驾驶系统难以复制这种能力因为它们在将2D观测转换到3D空间时往往会丢失关键的语义信息。从这个意义而言这阻碍了它们在动态且复杂的环境中的有效部署。利用视觉语言模型VLMs卓越的场景理解和推理能力本文提出了VLM-E2E这是一种使用VLMs通过提供注意力线索来增强训练的新框架。本文方法将文本表示集成到鸟瞰图BEV特征中以进行语义监督这使得模型能够学习更丰富的特征表示这些表示显式地捕获驾驶员的注意力语义。通过着重于注意力语义VLM-E2E能够更好地与类人驾驶行为相一致这对于在动态且复杂的环境中导航是至关重要的。此外本文还引入了一种BEV-文本可学习的加权融合策略以解决融合多模态信息时模态重要性不平衡的问题。该方法动态地平衡了BEV和文本特征的贡献确保了视觉和文本模态的互补信息得以有效利用。通过显式地解决多模态融合中的不平衡问题本文方法有助于更全面、更鲁棒地表示驾驶环境。本文在nuScenes数据集上评估了VLM-E2E并且证明了其优于最先进的方法展现了性能的显著提升。
主要贡献
本文的主要贡献总结如下
1本文提出了VLM-E2E这是一种利用VLMs通过注意力理解来丰富训练过程的新框架。通过结合语义和上下文信息VLM-E2E显式地捕获了驾驶员的注意力语义这使其能够在复杂的驾驶场景中做出更人性化的决策
2本文引入了一种BEV-文本可学习的加权融合策略该策略动态地平衡了BEV和文本模态的贡献。这种自适应融合机制在计算上是高效的它需要最少的额外开销同时显著地增强了模型的适应性和鲁棒性
3为了解决VLMs的幻觉问题本文结合了从前视图像中生成的文本描述的语义细化。通过利用真值GT标签和高级行为意图确保了文本表示既准确又与驾驶任务高度相关从而增强了模型对关键驾驶线索的推理能力
4在nuScenes数据集上进行的大量实验证明了VLM-E2E优于现有的方法。本文框架在处理复杂的驾驶场景方面取得了重大改进展现了其将几何精度与高级语义推理相结合的能力以实现更安全、更可解释的自动驾驶。
论文图片和表格
总结
本文提出了VLM-E2E这是一种利用VLMs来增强对驾驶员注意力语义理解的新端到端自动驾驶框架。本文方法的目标是为了解决现有系统中的关键局限性例如多传感器融合中的模态不平衡、高级语义上下文的利用不足以及轨迹规划中缺乏可解释性。为此本文引入了一种BEV-文本可学习的加权融合策略来动态地平衡几何和语义特征、一个时空模块来确保动态场景中的时间连贯性以及一个具有注意力引导轨迹优化的概率未来预测模块。这些组件共同使本文框架能够在感知、预测和规划任务中实现鲁棒且可解释的性能。未来工作将着重于扩展该框架以将VLMs和E2E加入一个统一的框架中并且利用激光雷达和雷达模态在长尾场景中泛化所提出的模型。