资讯网站优化排名,app推广营销,建设网站外国人可搜到,镇江seo网络推广定制前言 近期参与到了手写AI的车道线检测的学习中去#xff0c;以此系列笔记记录学习与思考的全过程。车道线检测系列会持续更新#xff0c;力求完整精炼#xff0c;引人启示。所需前期知识#xff0c;可以结合手写AI进行系统的学习。 BEV感知系列是对论文Delving into the De…前言 近期参与到了手写AI的车道线检测的学习中去以此系列笔记记录学习与思考的全过程。车道线检测系列会持续更新力求完整精炼引人启示。所需前期知识可以结合手写AI进行系统的学习。 BEV感知系列是对论文Delving into the Devils of Bird’s-eye-viewPerception: A Review, Evaluation and Recipe的翻译整理有多处瑕疵敬请谅解。 深入研究鸟瞰的感知:回顾、评价和方法
Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
**摘要:**在鸟瞰(BEV)中学习强大的感知表征是一种趋势引起了广泛的关注工业界和学术界都有。大多数自动驾驶算法的传统方法执行检测、分割、跟踪等在一个正面或透视图。**随着传感器结构的日益复杂集成多源信息在一个统一的视图中不同的传感器和表示特征至关重要。**BEV感知继承了几个优点如在BEV中表现周围场景直观且融合友好;在BEV中表示对象是最理想的计划和/或控制方面的后续模块。**BEV感知的核心问题在于(a)如何重建丢失的3D从透视图到纯电动汽车的视图转换信息;(b)如何获取BEV网格下的地面真值标注;©如何制定管道以整合来自不同来源和视图的功能;(d)如何适应和推广算法不同场景下的传感器配置不同。**在这项调查中我们回顾了最近在纯电动汽车感知方面的工作并提供了深入分析不同的解决方案。此外业界对纯电动汽车方法的几个系统设计进行了描述好。此外我们介绍了一套完整的实用指南以提高BEV感知任务的性能包括摄像头激光雷达和融合输入。最后对该领域未来的研究方向进行了展望。我们希望这篇报道能带来一些启示并鼓励更多关于纯电动汽车感知的研究。我们保留一个活动的存储库来收集最新的工作并提供一个工具箱袋的技巧在https://github.com/OpenDriveLab/Birds-eye-view-Perception。
介绍
自动驾驶中的感知识别任务是本质上是对物理的三维几何重建世界。随着传感器的多样性和数量变得自动驾驶的装备越来越复杂车辆(SDV)表示从不同角度的特征统一的观点至关重要。众所周知的鸟瞰图(BEV)是一种自然而直接的候选视图可以作为统一的表示。与前视图或透视视图相比在二维视觉领域得到了广泛的研究[1,2]BEV表示具有几个固有的优点。首先,它是否没有普遍存在的闭塞或鳞片问题在2D任务中。识别有遮挡或交叉交通的车辆可以得到较好的解决。此外以这种形式表示对象或道路元素将有利于实现它方便后续模块(如规划、控制)开发和部署。 当一个对象被其他物体部分遮挡时我们称之为“闭塞”而当多个对象相互重叠特别是在它们的边缘形成“鳞片”状的图案时我们称之为“鳞片”问题。这些情况在2D图像处理任务中确实存在并且可能导致识别和定位的困难。 将对象或道路元素表示为一种格式这可能有助于简化后续模块的开发和部署比如路径规划和控制系统。通过提供一致和结构化的数据可以使这些系统更加高效地工作减少对复杂后处理步骤的需求。这样的表示可能包括有关物体位置、运动和几何形状的信息这些都是自动驾驶系统决策过程中不可或缺的部分。 在本调查中我们用BEV感知来表示所有基于BEV视图表示的视觉算法用于自动驾驶。请注意我们不打算将聚合纯电动汽车感知作为一个新的研究概念;相反,如何在纯电动汽车下制定新的管道或框架从多个传感器输入中获得更好的特征融合值得社区更多的关注。
更大的视野
基于输入数据我们划分了纯电动汽车感知研究主要分为三部分:BEV摄像头、BEV激光雷达和BEV激光雷达贝福融合。图1描述了基于异常族的BEV的总体情况。具体来说BEV相机表示仅视觉或以视觉为中心的3D物体检测算法或从周围多个摄像头分割;贝芙激光雷达从点描述探测或分割任务 云输入;BEV聚变描述了聚变机制从多个传感器输入如摄像头激光雷达全球导航卫星系统 里程计、高清地图、can总线等。 图1纯电动汽车感知概览基于输入模态由三个子部分组成。BEV感知是建立在一系列基本任务之上的一般任务。为了更好地完善自动驾驶中的整体感知算法我们还列出了其他主题例如基础模型。 如图1所示我们将具有自动驾驶任务的基本整体感知算法(分类、检测、分割定位、跟踪等)分为三个层次其中纯电动汽车感知的概念所在中间。根据不同的传感器组合从放层基本任务和产品场景一定BEV感知算法可以进行相应的指示。为例如M2BEV[3]和BEVFormer[4]属于BEV 摄像机跟踪从多个摄像机执行多个任务包括3D物体检测和BEV地图分段定位。BEVFusion[5]设计了一种纯电动汽车的融合策略空间以便从相机和激光雷达输入同时执行3D检测和跟踪。特斯拉[6]发布了其在矢量空间BEV中检测物体和车道线的系统管道用于L2高速公路导航和智能呼叫。 在本报告中除了各种输入组合和任务外我们旨在总结最近先进的纯电动汽车感知研究的总体思路和关键见解。
纯电动汽车感知研究的动机
当谈到纯电动汽车感知研究的动机时需要考察三个重要方面。
**意义**纯电动汽车的认知会对学术界和/或社会产生真正的、有意义的影响吗众所周知仅相机和激光雷达解决方案之间存在巨大的性能差距。例如截至2022年8月提交在nuScenes数据集[7]上排名第一的纯相机和激光雷达方法之间的差距超过了20%在Waymo基准[8]上超过了30%。这自然促使我们研究纯相机解决方案是否可以击败或与激光雷达方法持平。
从学术角度来看设计一个基于相机的管道使其优于激光雷达其本质是更好地理解从2D外观输入到3D几何输出的视图转换过程。如何像在点云中那样将相机特征转换为几何表示给学术界留下了有意义的影响。从工业角度来看SDV中一套激光雷达设备的成本很高原始设备制造商原始设备制造商如福特、宝马等更喜欢廉价且准确的软件算法部署。由于相机的成本通常是激光雷达的10倍因此将仅相机的算法改进为激光雷达的算法自然就属于这一目标。此外基于相机的管道可以识别长距离物体和基于颜色的道路元素例如红绿灯这两种方法都是激光雷达无法实现的。 尽管基于相机和激光雷达的感知有几种不同的解决方案但就优异的性能和行业友好的部署而言BEV表示是基于激光雷达的方法的最佳候选者之一。此外最近的趋势表明BEV表示在多摄像头输入方面也取得了巨大进展。由于相机和激光雷达数据可以投影到纯电动汽车空间纯电动汽车的另一个潜力是我们可以在统一的表示下轻松融合不同模态的特征。 **空间**纯电动汽车感知中是否存在需要实质性创新的公开问题或注意事项BEV感知背后的要点是从相机和激光雷达输入中学习稳健和可推广的特征表示。这在激光雷达分支中很容易因为输入点云具有这样的3D特性。这在相机分支中是不平凡的因为从单目或多视图设置中学习3D空间信息是困难的。虽然我们看到有人试图通过姿态估计[9]或时间运动[10]来学习更好的2D-3D对应关系但BEV感知背后的核心问题需要从原始传感器输入进行深度估计的实质性创新尤其是对于相机分支。
另一个关键问题是如何在管道的早期或中期融合特性。大多数传感器融合算法将该问题视为简单的对象级融合或沿着斑点通道的朴素特征级联。这可能解释了为什么由于相机和激光雷达之间的未对准或不准确的速率深度预测**一些融合算法的表现不如仅激光雷达的解决方案。如何对齐和集成来自多模态输入的特征起着至关重要的作用**从而留下了广阔的创新空间。 对象级融合也称为高级融合在这个层面上每个传感器独立检测对象然后将对象信息如位置、速度合并在一起。这种方法的优点是相对简单因为它处理的是高级特征但它可能忽略了传感器原始数据中的细节。特征级融合也称为低级融合在这里传感器数据在特征提取之前就被合并了这可能包括图像像素、雷达回波或激光雷达的点云。特征级融合旨在利用所有传感器数据中的所有可用信息但这是一个挑战因为需要处理和理解非常不同类型的数据。 准备就绪关键条件如数据集、基准是否准备好进行纯电动汽车感知研究简短的回答是肯定的。由于BEV感知需要相机和激光雷达高质量的注释和2D和3D对象之间的精确对齐是此类基准点的两个关键评估。虽然KITTI[11]是全面的在早期的自动驾驶研究中备受关注但Waymo[8]、nuScenes[7]、Argoverse[12]等大规模和多样化的基准为验证纯电动汽车感知理念提供了坚实的平台。这些新提出的基准通常具有高质量的标签场景多样性和数据量也在很大程度上增加。此外这些排行榜上的公开挑战[13]为保存的测试数据提供了一个公平的设置可以在公开和及时的意义上比较所有的技术状态。 关于算法的准备情况近年来通用视觉领域出现了巨大的发展其中Trans-former[14]、ViT[1516]、Masked Auto encodersMAE[17]和CLIP[18]等比传统方法获得了令人印象深刻的增益。我们相信这些工作将有利于启发了BEV感知研究的伟大之处。 基于以上三个方面的讨论我们得出结论纯电动汽车感知研究具有巨大的潜在影响值得学术界和工业界的广泛关注和长期努力。与最近关于3D对象检测的调查[1920212223]相比我们的调查不仅在更高的水平上总结了最近的BEV感知算法并将其公式化为一个通用的管道而且在这种背景下提供了有用的方法包括基于相机和基于激光雷达的设置中的可靠数据分析、高效的BEV编码器设计感知头和损失函数族、有用的测试时间扩充TTA和集成策略等等。我们希望这项调查能成为新手的一个好的起点也能成为这个社区当前研究人员的一个有见地的讨论。
贡献
本次调查的主要贡献有三方面 1 我们回顾了近年来纯电动汽车感知研究的全貌包括高层哲学和深入细致的讨论。 2 我们对纯电动汽车感知文献进行了全面的分析。涵盖了深度估计、视图转换、传感器融合、do main自适应等核心问题。介绍并讨论了用于纯电动汽车感知的几个重要的工业系统级设计。 3 除了理论贡献外我们还提供了一本实用指南用于提高各种BEV感知任务的性能。这样的发布可以促进社区在“随手可得”的意义上实现更好的性能。
三维感知中的背景
在本节中我们将介绍3D感知中的基本背景知识边缘。在第2.1节中我们回顾了执行感知任务的传统方法包括基于单眼相机的3D对象检测、基于激光雷达的3D对象探测和分割以及传感器融合策略。在第2.2节中我们介绍了3D感知中的主要数据集如KITTI数据集[11]、nuScenes数据集[7]和Waymo Open数据集[8]。
任务定义及相关工作
基于单目摄像机的目标检测。基于单眼相机的方法将RGB图像作为输入并尝试预测每个对象的3D位置和类别。单目3D检测的主要挑战是RGB图像缺乏深度信息因此这类方法需要预测深度。由于从单个图像估计深度是一个不适定的问题通常基于单目相机的方法比基于激光雷达的方法性能较差
激光雷达检测和分割。激光雷达在三维空间中用一组点描述环绕环境这些点捕捉物体的几何信息。尽管缺乏颜色和纹理信息感知范围有限但由于深度先验基于激光雷达的方法在很大程度上优于基于相机的方法。 传感器融合。现代自动驾驶汽车配备了不同的传感器如摄像头、激光雷达和雷达。每个传感器都有优点和缺点。相机数据包含密集的颜色和纹理信息但无法捕捉深度信息。激光雷达提供了准确的深度和结构信息但受到有限的范围和稀疏性的影响。雷达比激光雷达更稀疏但传感范围更长可以捕捉运动物体的信息。理想情况下传感器融合将提高感知系统的上限性能但如何融合来自不同模态的数据仍然是一个具有挑战性的问题。
数据集和度量
我们介绍了一些流行的自动驾驶数据集和常见的评估度量。表1总结了纯电动汽车感知的主要基准统计数据。通常一个数据集由各种场景组成每个场景在不同的数据集中具有不同的长度。总持续时间从几十分钟到几百小时不等。对于纯电动汽车感知任务**3D边界框注释和3D分割注释是必不可少的高清地图配置已成为主流趋势。**它们中的大多数可以用于不同的任务。达成共识需要具有多种模态和各种注释的传感器。发布了更多类型的数据[71224253339]如IMU/GPS和CAN总线。与Kaggle和EvalAI排行榜类似我们揭示了每个数据集的提交总数以表明某个数据集的受欢迎程度。
数据集
KITTI数据集。KITTI[11]是2012年提出的一个开创性的自动驾驶数据集。它有7481个训练图像和7518个测试图像用于3D物体检测任务。它还具有从Velodyne激光扫描仪捕获的相应点云。测试集分为三部分容易、适度和难主要取决于边界框大小和遮挡级别。物体检测的评价分为两种三维物体检测评价和鸟瞰评价。KITTI是第一个用于多种自动驾驶任务的综合数据集它引起了社区的广泛关注。 Waymo数据集。Waymo Open Dataset v1.3[8]在训练、验证和测试集中分别包含798、202和80个视频序列。每个序列有5个激光雷达和5个左侧、左前、前、右前和右侧视图。图像分辨率为1920×1280像素或1920×886像素。Waymo规模庞大种类繁多。随着数据集版本的不断更新它也在不断发展。每年Waymo Open Challenge都会定义新的任务并鼓励社区解决问题。 nuScenes数据集。nuScenes数据集[7]是一个大规模的自动驾驶数据集包含两个城市的1000个驾驶场景。850个场景用于训练/验证150个场景用于测试。每个场景都有20多岁。它有4万关键帧整个传感器套件包括6个摄像头、1个激光雷达和5个雷达。相机图像分辨率为1600×900。同时发布了相应的高清地图和CAN总线数据以探索多输入的辅助。nuScenes在学术文献中越来越受欢迎因为它提供了一个多样化的多传感器设置数据规模没有Waymo的那么大因此在这个基准上快速验证想法是有效的。 表1:BEV Perception数据集一览。场景表示数据集的片段并且场景的长度对于不同的数据集是不同的。在Region下“AS”代表亚洲“EU”代表欧洲“NA”代表北美“Sim”代表模拟数据。在“传感器数据”下“扫描”点云。在“注释”下“帧”表示三维bbox/三维车道注释帧的数量三维bbox/3D车道表示三维bbok/三维车道注释实例的数量即三维seg。表示点云的分割注释帧的数量。“#Subm.”通过Kaggle上提交的数量表示特定数据集的受欢迎程度。†表示统计信息不可用−表示该字段不存在 估值指标
LET-3D-APL。在仅有相机的3D检测中使用LET-3D-APL代替3D-AP作为度量。与并集上的3D相交IoU相比LET-3D-APL允许预测边界框的纵向定位误差达到给定的公差。LET-3D-APL通过使用定位亲和度缩放精度来惩罚纵向定位误差。LET-3D-APL的定义在数学上定义为 L E T − 3 D − A P L ∫ 0 1 p L ( r ) d r ∫ 0 1 a ‾ l ⋅ p ( r ) d r , ( 1 ) \mathrm{LET-3D-APL}\int_0^1p_L(r)dr\int_0^1\overline{a}_l\cdot p(r)dr,\quad(1) LET−3D−APL∫01pL(r)dr∫01al⋅p(r)dr,(1) 其中pLr表示纵向亲和度加权的精度值pr意味着调用r时的精度值。乘数al是所有匹配预测的平均纵向亲和度被视为T p真阳性。 **平均精度mAP类似于2D对象检测中众所周知的AP度量但匹配策略被从IoU替换为BEV平面上的2D中心距离。**AP根据不同距离阈值0.5米、1米、2米和4米。mAP是通过对上述阈值中的AP进行平均来计算的。 NDS。nuScenes检测分数NDS是几个指标的组合mAP、mATE平均平移误差、mASE平均尺度误差、mAOE平均方位误差、AVE平均速度误差和mAAE平均属性误差。NDS是通过使用上述度量的权重和来计算的。mAP的重量为5其余为1。在第一步中将TPerror转换为TPscore如等式所示。2则方程。3定义了NDS T P s c o r e m a x ( 1 − T P e r r o r , 0.0 ) , (2) N D S 5 ⋅ m A P ∑ i 1 5 T P s c o r e i 10 . (3) \begin{gathered} \mathrm{TP}_{\mathrm{score}}max(1-\mathrm{TP}_{\mathrm{error}},0.0), \text{(2)} \\ \mathrm{NDS}{\frac{5\cdot\mathrm{mAP}\sum_{i1}^{5}\mathrm{TP}_{\mathrm{score}}^{\mathrm{i}}}{10}}. \text{(3)} \end{gathered} TPscoremax(1−TPerror,0.0),(2)NDS105⋅mAP∑i15TPscorei.(3)
BEV感知方法论
在本节中我们详细描述了学术界和工业界对纯电动汽车感知的各种观点。 我们根据输入模态在三种设置中区分了纯电动汽车管道即第3.1节中的纯电动汽车摄像头仅限摄像头的3D感知、第3.2节中的全电动汽车激光雷达和第3.3节中的完全电动汽车融合并在第3.4节中总结了纯电动车辆感知的工业设计。 表2总结了基于输入数据和任务类型的BEV感知文献的分类。我们可以看到在顶级场馆发表了关于纯电动汽车感知的趋势研究。任务主题以及公式管道贡献可以是多种多样的这表明3D自动驾驶社区正在蓬勃发展。表3描述了多年来3D对象检测和分割在流行排行榜上的性能提升。我们可以观察到在纯电动汽车感知知识的精神上性能增益显著提高。 表2近年来BEV感知文献。在输入模式下“L”表示激光雷达“SC”表示单相机“MC”对于多摄像机“T”表示时间信息。在任务下“ODet”用于三维物体检测“LDet”用于3D车道检测 “MapSeg”用于地图分割“Plan”用于运动规划“MOT”用于多目标跟踪。**深度监督意味着仅相机模型使用稀疏/密集深度图来监督模型**✓ 对于是✗ 对于否-对于激光雷达输入模型。在数据集下“nuS”nuScenes数据集[7]“WOD”Waymo开放数据集[8]“KITTI”KITTI数据集[11]“Lyft”Lyft Level 5数据集[28]“OpenLane”OpenLane数据集[26]“AV”Argoverse数据集[24]“Carla”Carla模拟器[40]“SUN”SUN RGB-D数据集[41]“ScanNet”ScanNet室内场景数据集[42]。 表3BEV感知算法在流行基准上的性能比较。我们根据表2对不同的方法进行了分类。在模态下“SC”、“MC”和“L”分别表示单相机、多相机和激光雷达。在Task Head下“Det”表示3D对象/车道检测任务“Seg”表示BEV地图分割任务。在KITTI ODet下我们报告了KITTI数据集中3D对象在Easy、Medium和Hard级别的AP40[11]。在nuS-ODet下我们报告了nuScenes数据集中3D对象的NDS和mAP[7]。在nuS MapSeg下我们报告了nuScenes Map Segmentation设置中DRI可驾驶区域和LAN车道也称为分隔符类别的mIOU分数。在OL下我们报告了OpenLane数据集中3D laneline的F1分数[26]。根据WOD我们在Waymo开放数据集[8]中报告了仅用于相机的3D对象检测的LET-APL[61]和用于任何模态的3D对象探测的APH/L2[8]。*表示原始论文报告的结果。 BEV摄像头
通用管道
纯相机3D感知吸引了学术界的大量关注。核心问题是2D成像过程本身无法保存3D信息在没有精确深度提取的情况下阻碍了精确的对象定位。仅限相机的3D感知可以分为三个领域单眼设置、立体设置和多相机设置。由于多摄像机方法通常从单目基线开始我们也从单目基准设置开始。 在以下上下文中我们使用“2D空间”指具有像素坐标的透视图使用“3D空间”指代具有世界坐标的3D真实世界空间使用“BEV空间”指指代鸟瞰图。 如图2所示一个通用的仅限相机的3D感知系统可以分为三个部分2D特征提取器、视图转换模块可选和3D解码器。由于仅相机的3D感知具有与2D感知相同的输入因此一般特征提取器可以被模拟为 F 2 D ∗ ( u , v ) M f e a t ( I ∗ ( u , v ) ) , ( 4 ) \mathcal{F}_{2D}^*(u,v)M_{feat}(\mathcal{I}^*(u,v)),\quad(4) F2D∗(u,v)Mfeat(I∗(u,v)),(4) 其中F2D表示2D特征I表示图像Mf-eat表示2D特征提取器uv表示2D平面上的坐标*表示一个或多个图像和相应的2D特征。在2D特征提取器中在2D感知中存在大量经验这些经验可以在3D感知中以骨干预训练的形式考虑[7980]。视图转换模块在很大程度上不同于2D感知系统。请注意并非所有的3D感知方法都有视图转换模块有些方法直接从2D空间中的特征检测3D空间中的对象[808182]。如图2所示通常有三种方法来执行视图转换。这种转换可以公式化为 F 3 D ( x , y , z ) M t r a n s ( F 2 D ∗ ( u ^ , v ^ ) , [ R T ] , K ) , ( 5 ) \mathcal{F}_{3D}(x,y,z)M_{trans}\big(\mathcal{F}_{2D}^{*}(\hat{u},\hat{v}),\big[\boldsymbol{R}\quad\boldsymbol{T}\big],\boldsymbol{K}\big),\quad(5) F3D(x,y,z)Mtrans(F2D∗(u^,v^),[RT],K),(5) 其中F3D表示3D或体素特征xyz表示3D空间中的坐标Mtrans表示视图变换模块uvx v vx表示xy、z方面的对应2D坐标R T和K是如附录第B节所述的相机外部和内部。请注意有些方法不依赖于相机的外部和内部。3D解码器接收2D/3D空间中的特征并输出3D感知结果如3D边界框、BEV地图分割、3D车道关键点等。大多数3D解码器来自基于LiDAR的方法[44678384]这些方法在体素空间/BEV空间中执行检测但仍有一些仅相机的3D解码器利用2D空间中的特征[818285]并直接回归3D对象的定位。 图2纯电动汽车摄像头的总体流程仅摄像头感知。分为三个部分包括二维特征提取、视图变换和三维解码器。在视图变换中有两种方法对三维信息进行编码——一种是从二维特征中预测深度信息另一种是从3D空间中对2D特征进行采样。 视图转换
视图转换模块在仅相机的3D感知中至关重要因为它是构建3D数据和编码3D先验假设的主要单元。最近的研究[341026474849515659]集中在增强该模块上。我们划分视图转换器技术分为三大主流。第一个流被指定为“2D-3D方法”从2D图像特征开始并通过深度估计将2D特征“提升”到3D空间。第二个流被称为**“3D-2D方法”起源于三维空间并通过3D-2D投影映射将二维特征编码到三维空间。前两个流显式地建模几何变换关系。相反第三种流被称为“纯基于网络的方法”它利用神经网络来隐式地获取几何变换**。图3给出了执行视图转换的概要路线图下面对它们进行了详细分析。 图3视图转换的分类。根据2D-3D方法基于LSS的方法[5464749576488]根据2D特征预测每个像素的深度分布。从3D-2D方法来看基于同形矩阵的方法[42692]假定稀疏的3D采样点并通过相机参数将其投影到2D平面。基于纯网络的方法[9495969798]采用MLP或transformer对从3D空间到2D平面的投影进行隐式建模。 2D-3D方法LSS[57]首次引入的2D-3D法预测二维特征的网格深度分布然后基于深度将二维特征“提升”到体素空间并执行类似于基于激光雷达的方法的下游任务。该过程可以公式化为 F 3 D ( x , y , z ) [ F 2 D ∗ ( u ^ , v ^ ) ⊗ D ∗ ( u ^ , v ^ ) ] x y z , ( 6 ) \mathcal{F}_{3D}(x,y,z)\begin{bmatrix}\mathcal{F}_{2D}^*(\hat{u},\hat{v})\otimes\mathcal{D}^*(\hat{u},\hat{v})\end{bmatrix}_{xyz},\quad(6) F3D(x,y,z)[F2D∗(u^,v^)⊗D∗(u^,v^)]xyz,(6) 其中F3Dxyz和F2Dξuvξ保持与等式相同的含义。5D576 uv 576表示在576 uv 593处的预测深度值或分布并且⊗表示外部生产或类似操作。注意这与伪激光雷达方法[86,87]非常不同伪激光雷达的深度信息是从预训练的深度估计模型中提取的并且提升过程发生在2D特征提取之前。在LSS[57]之后还有另一项工作遵循了将深度公式化为逐仓分布的相同思想即CaDDN[46]。CaDDN采用类似的网络来预测分类深度分布将体素空间特征压缩到BEV空间并在最后进行3D检测。LSS[57]和CaDDN[46]之间的主要区别在于CaDDN使用深度地面实况来监督其分类深度分布预测因此具有优越的深度网络来从2D空间提取3D信息。这首曲目是后续作品如BEVDet[47]及其临时版本BEVDet4D[64]、BEVDepth[49]BEVFusion[588]和其他[658089]。注意在立体设置中通过强先验更容易获得深度值/分布其中一对相机之间的距离即系统的基线应该是恒定的。这可以公式化为: D ( u , v ) f × b d ( u , v ) , ( 7 ) \mathcal{D}(u,v)f\times\frac{b}{d(u,v)},\quad(7) D(u,v)f×d(u,v)b,(7) 其中duv是位置uv处的一对图像上的水平视差通常在左图像中定义f是附录第B节中的相机焦距duv是uv处的深度值B是基线的长度。LIGA Stereo[89]和DSGN[65]等立体声方法利用了这种强先验并在KITTI排行榜[11]上与基于激光雷达的替代方案不相上下。
3D-2D methods:第二个分支3D到2D可以追溯到三十年前当时逆透视映射IPM[90]公式化了从3D空间到2D空间的投影有条件地假设3D空间中的对应点位于水平面上。这样的变换矩阵可以从相机的内在和外在参数[91]中数学推导出来这个过程的细节在Ap pendix的第B节中给出。一系列工作应用IPM以预处理或后处理的方式将元素从透视图转换为鸟瞰图。在视图转换的背景下OFT-Net[43]首次引入了从3D到2D的特征投影方法。OFT-Net形成了一个统一分布的三维体素特征网格通过聚集来自相应投影区域的图像特征来填充体素。然后通过垂直地对体素特征求和来获取正交BEV特征图。最近受特斯拉感知系统技术路线图[6]的启发3D-2D几何投影和神经网络的结合变得流行起来[4268592]。请注意transformer架构中的交叉注意机制在概念上满足了这种几何投影的需要如下所示 F 3 D ( x , y , z ) C r o s s A t t n ( q : P x y z , k v : F 2 D ∗ ( u ^ , v ^ ) ) , ( 8 ) \mathcal{F}_{3D}(x,y,z)CrossAttn(q:P_{xyz},kv:\mathcal{F}_{2D}^{*}(\hat{u},\hat{v})),\quad(8) F3D(x,y,z)CrossAttn(q:Pxyz,kv:F2D∗(u^,v^)),(8) 其中qkv代表查询、键和值Pxyz是体素空间中预先定义的锚点其他符号遵循方程。4和5。一些方法[485]利用相机参数将Pxyz投影到图像平面以实现模型的快速收敛。为了获得稳健的检测结果BEVFormer[4]利用transformer中的交叉注意机制来增强3D-2D视图转换的建模。其他[5093]简化了网格采样器以有效地加速这一过程从而实现大规模生产。尽管如此这些方法在很大程度上依赖于相机参数的精度而相机参数在长时间的驾驶中很容易出现波动
基于纯网络的方法无论是2D-3D方法还是3D-2D方法这两种技术都引入了几何投影中包含的继承归纳偏差。相比之下一些方法倾向于将神经网络用于相机投影关系船舶的隐式表示。许多BEV图分割工作[555694]使用多层感知器或变换器[99]架构来隐式地对3D-2D投影建模。VPN[94]引入了视图关系模块——一种多层感知器MLP用于通过处理来自所有视图的输入来产生地图视图特征从而实现了跨各种视角的共享特征表示的获取。HDMapNet[55]采用MLP架构来执行特征图的视图转换。BEVSegFormer构建密集的BEV查询并通过MLP直接从查询特征中预测其二维投影点然后使用可变形注意力更新查询嵌入。CVT[54]将图像特征与从相机内在和外在参数导出的相机感知位置em床上用品相结合并引入了跨视图注意力模块来产生地图视图表示。有些方法没有显式构造BEV特征。PETR[48]将从相机参数导出的3D位置嵌入集成到2D多视图特征中。这种集成使稀疏查询能够通过香草交叉关注直接与3D位置感知图像特征交互。
关于BEV和透视方法的讨论
在纯相机3D感知的最初主要关注的是如何从透视图也称为2D空间预测3D对象的定位。这是因为2D感知在那个阶段得到了很好的发展[1,2100101]如何为2D检测器配备感知3D场景的能力成为主流方法[628182102]。后来一些研究涉及BEV表示因为在这种观点下很容易解决3D空间中具有相同尺寸的物体由于与相机的距离而在图像平面上具有非常不同的尺寸的问题。这一系列工作[4346658689]要么预测深度信息要么利用3D先验假设来补偿相机输入中3D信息的损失。虽然最近基于BEV的方法[345474988103]已经席卷了3D感知世界但值得注意的是这一成功主要从三个方面受益。第一个原因是趋势nuScenes数据集[7]它具有多摄像头设置非常适合在BEV下应用多视图特征聚合。第二个原因是大多数纯相机BEV感知方法都从基于激光雷达的方法[4445678384104105]中获得了很大的帮助如探测头和相应的损耗设计。第三个原因是单目方法[8182102]的长期发展使基于BEV的方法蓬勃发展这是处理透视图中特征表示形式的一个良好起点。核心问题是如何从二维图像中重建丢失的三维信息。为此基于BEV的方法和透视方法是解决同一问题的两种不同方法它们并不相互排斥。 纯相机BEV感知方法利用算法从摄像头捕获的二维图像中推断三维信息并尝试生成与激光雷达类似的鸟瞰图。在这个过程中许多在激光雷达数据上成功应用的技术比如检测头用于识别和定位物体和损失函数设计用于训练机器学习模型以减少预测误差都被迁移到了基于相机的方法中。具体来说通过观察激光雷达数据处理方法的成功之处研究人员能够借鉴这些技术并将其适应到相机图像上尽管相机数据缺乏激光雷达那样的深度信息。 在BEV表示中观察者仿佛从上方俯瞰场景可以更直观地看到车辆周围的环境包括其他车辆、行人、路标等的位置。这为自动驾驶车辆的导航和路径规划提供了重要的空间信息因为在BEV图中物体的尺度和位置与它们在实际世界中的对应关系更为直接和一致。 BEV激光雷达 图4BEV激光雷达感知的总体流程。将点云数据转换为BEV表示主要有两个分支。上分支提取三维空间中的点云特征提供更准确的检测结果。下分支提取2D空间中的BEV特征提供更高效的网络 通用流程
图4描述了BEV激光雷达探测的一般流程。提取的点云特征被转换为BEV特征图。公共检测头生成3D预测结果。在特征提取部分主要有两个分支将点云数据转换为BEV表示。根据流水线顺序我们将这两个选项分别称为前BEV和后BEV表明骨干网络的输入是来自3D表示还是来自BEV表示。
BEV前特征提取
除了基于点的方法对原始点云进行处理外基于体素的方法将点体素化为离散网格通过离散连续三维坐标提供了更有效的表示。基于离散体素表示可以使用3D卷积或3D稀疏卷积[118119]来提取点云特征。我们使用Yjc′来表示输出通道c处的第j个体素输出Y’和Xic来表示输入通道c处的第i个体素输入X。正常的3D卷积操作可以描述为 Y j , c ′ ∑ i ∈ P ( j ) ∑ c W k , c , c ′ X i , c , ( 9 ) Y_{j,c}\sum_{i\in P(j)}\sum_{c}W_{k,c,c}X_{i,c},\quad(9) Yj,c′i∈P(j)∑c∑Wk,c,c′Xi,c,(9) 这里Pj表示用于获得输入索引i和滤波器偏移的函数并且Wkcc′表示具有核偏移k的滤波器权重。对于稀疏输入X和输出Y我们可以重写方程。9转换为3D稀疏卷积 Y ~ j , c ′ ∑ k ∑ c W k , c , c ′ X ~ R k , j , k , c , ( 10 ) \tilde{Y}_{j,c^{\prime}}\sum_{k}\sum_{c}W_{k,c,c^{\prime}}\tilde{X}_{R_{k,j},k,c},\quad(10) Y~j,c′k∑c∑Wk,c,c′X~Rk,j,k,c,(10) 其中Rkj表示在给定核偏移k和输出索引j的情况下指定输入索引i的矩阵。大多数现有技术的方法通常利用3D稀疏卷积来进行特征提取。然后可以通过对高度轴进行加密和压缩将3D体素特征格式化为BEV中的2D张量。
VoxelNet[44]堆叠多个体素特征编码VFE层以将体素中的点云分布编码为体素特征。给定Vpi〔xi易ziri]Ti1…n as n≤n点在非空体素内其中xi易zi是三维空间中的坐标ri是反射率N是最大点数V的质心vxvyvz是所有点的局部平均值每个点的特征通过 f i F C N ( [ x i , y i , z i , r i , x i − v x , y i − v y , z i − v z ] T ) . (11) f_iFCN([x_i,y_i,z_i,r_i,x_i-v_x,y_i-v_y,z_i-v_z]^T).\quad\text{(11)} fiFCN([xi,yi,zi,ri,xi−vx,yi−vy,zi−vz]T).(11) FCN是一个线性层、一个间歇归一化和一个激活函数的组成。体素的特征是V的所有fi的逐元素最大池化。应用3D卷积来进一步聚集局部体素特征。在合并通道和高度的维度后由区域建议网络RPN处理隐式转换为BEV的特征图以生成对象建议。SECOND[84]在处理体素表示时引入了稀疏卷积以大幅降低训练和推理速度。CenterPoint[67]是一种强大的基于中心的无锚3D检测器它也遵循这种检测模式成为3D对象检测的基线方法。 点云数据通常由激光雷达LiDAR传感器收集它能够精确测量物体表面的距离从而形成三维坐标的集合。现在让我们详细地分解和理解您所提供的信息 离散体素表示和3D卷积 离散体素表示这是将连续的点云数据离散化为固定间隔的3D网格体素。每个体素内部的点被转化成该体素的特征表示。3D卷积它是深度学习中用于处理三维数据如体素化的点云的工具。与2D卷积处理图像类似3D卷积通过在数据的三个维度上移动过滤器来提取特征。 稀疏卷积 大多数点云是稀疏的意味着很多体素是空的没有点云数据。稀疏卷积是一种高效的卷积形式它只在点云数据实际存在的位置上应用卷积运算从而显著降低计算量。 3D卷积和稀疏卷积的数学表示 方程9和10描述了标准3D卷积和稀疏3D卷积的计算过程其中权重( W )和输入( X )通过一系列求和操作被组合以产生输出( Y )。 体素特征编码VFE层 VoxelNet利用VFE层将体素中的点云信息编码为体素特征。这个过程包括将每个点的坐标及其反射率与该点与体素中心的相对位置结合起来然后通过一个全连接网络FCN处理。 体素到BEV的转换 通过对体素特征进行处理可以将3D特征投影到2D的鸟瞰图BEV这样就可以使用类似于处理传统图像的方法来检测和识别对象。 具体算法实现 SECOND 使用稀疏卷积优化体素数据的处理提高了速度和效率。CenterPoint 是一种基于检测物体中心的方法用于3D对象检测并已经成为一种标准方法。 总结来说您提供的段落详细地描述了如何从原始点云数据中提取特征以及如何将这些特征用于识别和检测3D空间中的物体。这些技术的发展和应用是自动驾驶技术中3D感知领域的关键进步。 PV-RCNN[66]结合了点和体素分支以学习更具判别力的点云特征。具体而言高质量的3D提案由体素分支生成而点分支为提案细化提供了额外的信息。SA-SSD[106]设计了一个辅助网络该网络将骨干网络中的体素特征转换回点级表示以明确利用3D点云的结构信息并减轻下采样中的损失。Voxel R-CNN[108]采用三维卷积主干提取点云特征。然后在BEV上应用2D网络来提供对象建议这些建议通过提取的特征进行细化。它实现了与基于点的方法相当的性能。对象DGCNN[109]对3的任务进行建模对象检测作为BEV中动态图上的消息传递。在将点云转化为BEV特征图后预测查询点迭代地收集关键点的BEV特征。VoTr[107]引入了局部注意力、扩展注意力和快速体素查询以在大量体素上实现大上下文信息的注意力机制。SST[68]将提取的体素特征视为标记然后在非重叠区域中应用稀疏区域注意力和区域Shif以避免对基于体素的网络进行下采样。AFDetV2[69]通过引入关键点辅助监督和多任务头来制定单级无锚网络。
后BEV特征提取
由于三维空间中的体素稀疏且不规则因此应用三维卷积是低效的。对于工业应用可能不支持3D卷积等运算符需要合适且高效的3D检测网络。MV3D[110]是第一种将点云数据转换为BEV表示的方法。将点离散到BEV网格中后根据网格中的点获得高度、强度和密度的特征以表示网格特征。由于纯电动汽车网格中有许多点在这种处理中信息损失相当大。其他工作[11111211114115116]遵循类似的模式使用BEV网格中的统计数据来表示点云例如强度的最大高度和平均值。PointPillars[45]首先介绍了柱的概念柱是一种具有无限高度的特殊类型的体素。它利用PointNet[104]的简化版本来学习柱中点的表示。编码特征然后可以由标准2D卷积网络和检测头进行处理。虽然PointPillars的性能不如其他3D主干令人满意但它及其变体具有很高的效率因此适合于工业应用。
讨论
点云数据由神经网络直接处理如[120121]所述。在连续的三维空间中计算点之间的邻域关系。这带来了额外的时间消耗并限制了神经网络的感受野。最近的工作[4484]利用离散网格来表示点云数据采用卷积运算来提取特征。然而将点云数据转换为任何形式的表示都不可避免地会导致信息的丢失。BEV前特征提取中的现有技术方法利用具有细粒度大小的体素保留了点云数据中的大部分3D信息从而有利于3D检测。作为一种权衡它需要高内存消耗和计算成本。将点云数据直接转换为BEV表示可以避免在三维空间中进行复杂的操作。随着高度维度的压缩信息的巨大损失变得不可避免。最有效的方法是使用统计学来表示BEV特征图但它提供了较差的结果。基于支柱的方法[45]平衡性能和成本成为工业应用的热门选择。如何处理性能和效率之间的权衡成为基于激光雷达的应用面临的重要挑战。
BEV Fusion 图。5:BEV融合算法的两种典型管道设计适用于学术界和工业界。主要区别在于2D到3D的转换和融合模块。在PV感知管道a中不同算法的结果首先被转换到3D空间然后使用先验或手工规则进行融合。纯电动汽车感知管道b首先将PV特征转换为纯电动汽车然后融合特征以获得最终预测从而保持大多数原始信息并避免手工设计。 通用管道
提出了通用管道逆透视映射IPM[122]利用相机的内在和外在矩阵的几何约束将像素映射到BEV平面上。尽管由于平坦地面假设而导致其不准确但它提供了在BEV中统一图像和点云的可能性。Lift splat shootLSS[57]是第一种预测图像特征深度分布的方法引入了神经网络来学习不适定相机到激光雷达的转换问题。其他作品[4123]开发了不同的方法来进行视图转换。给定从透视图到BEV的视图转换方法图5b显示了融合图像和点云数据的通用管道。 模态特定特征提取器用于分别提取透视图和BEV中的特征。在转换为BEV中的表示之后融合来自不同传感器的特征图。时间和自我运动信息也可以引入BEV表示中。
激光雷达相机融合
同时两个同名的作品BEVFu sion[588]从不同的方向探索BEV中的融合。由于相机到激光雷达的投影[73124]抛弃了相机特征的语义密度BEVFusion[5]设计一种高效的相机到BEV的转换方法该方法将相机特征有效地投影到BEV中然后使用卷积层将其与激光雷达BEV特征融合。BEVFusion[88]将BEV融合视为保持感知系统稳定性的鲁棒性主题。它将相机和激光雷达功能编码到同一BEV中以确保相机和激光激光雷达流的独立性。这种设计使感知系统能够在传感器故障时保持稳定性。 除了BEVFusion[588]之外UVTR[123]在没有高度压缩的情况下表示模态特定体素空间中的不同输入模态以避免语义歧义并实现进一步的交互。通过将每个视图的图像特征变换到具有针对每个图像生成的深度分布的预定义空间来构建图像体素空间。点体素空间是使用com mon三维卷积网络构建的。然后在两个体素空间之间进行跨模态交互以增强模态特定信息 BEVFusion 和 UVTR 的方法总结如下 BEVFusion这是一个传感器融合方法它结合了多个传感器数据来形成一个统一的、多模态的鸟瞰图BEV。这种融合有助于改善在某些传感器视角下可能受限的感知能力如摄像头在夜间或恶劣天气条件下的表现。 UVTRUnsupervised Voxel to Voxel Translation for Multimodal FusionUVTR代表了一种不同的方法。它旨在保留每种传感器数据的独特性同时避免在转换过程中产生的语义歧义。方法如下 图像体素空间构建通过将每个视图即从每个摄像头角度的图像特征转换到一个预定义的空间这个空间基于每个图像生成的深度分布。这样做可以创建一个富有语义的图像体素表示。点体素空间构建与此同时点云数据通常由LiDAR生成被转换和处理通过一个常见的三维卷积网络来建立另一个体素空间。 跨模态交互UVTR中的关键一步是在上述两个体素空间之间进行交互以此来增强模态特定的信息。通过这种方式每种传感器的数据都被利用来互补和增强整个感知系统的性能。 总之这些方法都是为了克服单一传感器的局限性并通过有效的数据融合策略来增强自动驾驶车辆的环境感知能力。BEVFusion注重于融合后的表示而UVTR注重于保留模态特定的信息并在融合过程中使得不同模态之间可以有效地互相补充。 时间融合
时间信息在推断物体运动状态和识别遮挡方面起着重要作用。BEV提供了一个理想的桥梁来连接不同时间戳中的场景表示因为BEV特征图的中心位置对ego汽车来说是持久的。 MVFuseNet[125]利用BEV和范围视图进行时间特征提取。其他工作[536364]使用自我运动将先前的BEV特征与当前坐标对齐然后融合当前BEV特征以获得时间特征。BEVDet4D[64]使用空间对齐操作将先前的特征图与当前帧融合然后连接多个特征图。BEV Former[4]和UniFormer[126]采用了一种软方法来融合时间信息。注意力模块用于分别融合来自先前BEV特征图和先前帧的时间信息。关于自我汽车的运动注意力模块在不同时间戳的表示中要参与的位置也通过自我运动信息来校正。 在自动驾驶系统中时间信息对于理解物体的运动状态和识别潜在的遮挡情况至关重要。在此情境中鸟瞰图BEV, Bird’s Eye View特征映射能够提供跨不同时间戳的场景表示帮助车辆理解环境中对象的动态变化。下面是一些结合时间信息的BEV方法 MVFuseNet这个方法结合使用BEV和范围视图range view来提取跨时间的特征帮助理解物体在不同时间点的状态。 时间对齐一些研究如文献53、63、64使用车辆的自身运动来将之前时间戳的BEV特征图与当前坐标系对齐以此来理解对象随时间的运动。这涉及将过去的数据转换到当前帧的参考框架中以实现时间序列的连续性。 BEVDet4D这个方法使用空间对齐操作将过去的特征图与当前帧融合通过这种方式它可以将连续帧的信息结合起来帮助推断物体的运动。 BEV Former 和 UniFormer这两个方法采用了一种软融合方法来结合时间信息。它们使用注意力模块来融合之前的BEV特征图中的时间信息和来自之前帧的数据。这些模块通过自身运动信息校正参与不同时间戳表示的具体位置。 总结来说时间信息的融合允许自动驾驶系统更好地预测和理解路况中的动态变化。通过利用BEV表示的持久性与自车位置有关的中心位置相对不变以及通过时间对齐和注意力模块的高级方法可以在连续的时间戳之间构建上下文从而提高物体运动状态的预测精度和遮挡物体的识别能力。 讨论
由于图像处于透视坐标中点云处于三维坐标中两种模态之间的空间对齐成为一个至关重要的问题。尽管使用几何投影关系将点云数据投影到图像坐标上很容易但点云数据的稀疏性使得提取信息特征变得困难。相反由于透视图中缺乏深度信息将透视图中的图像转换到3D空间将是一个不适定的问题。基于先前的知识IPM[122]和LSS[57]等先前的工作使将透视图中的信息转换为BEV成为可能为多传感器和时间融合提供了统一的表示。 激光雷达和相机数据在BEV空间中的融合为3D探测任务提供了令人满意的性能。这种方法还保持了不同模式的独立性这为建立更强大的感知系统提供了机会。对于时间融合**通过考虑自我运动信息可以在BEV空间中直接融合不同时间戳中的表示。由于BEV坐标与3D坐标一致因此通过监控控制和运动信息很容易获得自我运动的补偿。**考虑到鲁棒性和一致性BEV是多传感器和时间融合的理想表示。
纯电动汽车感知的工业设计 图。5:BEV融合算法的两种典型管道设计适用于学术界和工业界。主要区别在于2D到3D的转换和融合模块。在PV感知管道a中不同算法的结果首先被转换到3D空间然后使用先验或手工规则进行融合。纯电动汽车感知管道b首先将PV特征转换为纯电动汽车然后融合特征以获得最终预测从而保持大多数原始信息并避免手工设计。 图6:BEV架构与行业解决方案的比较。这些范例遵循类似的工作流程如图5b所示。每种设计都略有不同。特斯拉[6]的图6a以视觉为主要输入并包含视频模块而地平线[127]的图6b包含多模态以处理多感知任务 近年来纯电动汽车认知在行业中呈流行趋势。在本节中我们将在系统级别上描述纯电动汽车感知的架构设计。图5描述了工业应用中传感器融合的两种典型范例。在BEV感知研究之前大多数自动驾驶公司构建基于透视图输入的感知系统。如图5a所示在透视图PV管道中激光雷达轨迹直接提供3D结果而基于图像的3D结果通过几何先验从2D结果转换而来。然后通过手工制作的方法将图像和激光雷达的预测融合在一起。相反如图5b所示基于BEV的方法执行特征级的2D到3D转换并集成特征而不是来自不同模态的直接检测输出从而减少手工设计提高鲁棒性。 基于BEV的方法的核心在于它们将这些不同模态的数据首先转换为一个统一的3D表示即鸟瞰图这是一种从顶部视角展示环境的2D图像。这个过程通常包括以下步骤 特征提取从各种传感器收集的原始数据2D图像、点云等中提取特征。 2D到3D转换将2D特征尤其是来自相机的图像映射到3D空间中。这通常涉及到估计场景的深度信息并将2D像素位置转换到3D空间坐标。 特征融合将来自不同传感器的3D特征集成到一个统一的BEV表示中。这意味着将各种类型的数据例如视觉数据和距离信息结合到一个共同的参考框架中。 减少手工设计传统的传感器融合方法可能需要大量的手工调整和规则设计来处理不同传感器的数据。相比之下基于BEV的方法通过自动学习数据之间的关系减少了这种手工设计。 提高鲁棒性由于特征级的融合是在更高的、更抽象的层面上进行的因此基于BEV的方法通常对传感器的噪声和偏差更为鲁棒。此外它们可以更好地处理来自不同视角和距离的数据提高在多变环境下的性能。 总之基于BEV的方法通过将不同模态的数据统一到3D空间中的一个共同框架里并在特征级上进行融合从而减少了对手工设计的需求并提高了系统对各种条件变化的鲁棒性。这对于复杂且动态的自动驾驶场景来说是非常重要的。 图6总结了全球企业提出的各种纯电动汽车感知架构。详细的模型/输入选项在附录的第D节中进行了说明。请注意本次调查中提供的所有信息都是从公共资源中收集的不同方案之间的比较和分析是基于事实的。图6中的纯电动汽车融合架构遵循图5b所示的流水线由输入数据、特征提取器、PV到纯电动汽车的转换、特征融合模块、时间和空间模块以及预测头组成。我们将在下面详细介绍每个模块。
输入数据
基于BEV的感知算法支持不同的数据模式包括相机、激光雷达、雷达、IMU和GPS。相机和激光雷达是越野驾驶的主要感知传感器。一些产品仅将摄像头用作输入传感器例如Tesla[6]、PhiGent[128]、Mobileye[129]。其他的采用了一套相机和激光雷达的组合例如Horizon[127]、HAOMO[130]。请注意IMU和GPS信号通常用于传感器融合计划[6127130]如特斯拉和地平线等。 相机 优点能够捕捉到丰富的环境信息包括颜色、纹理、标志和交通信号。相机数据对于物体识别和场景理解至关重要。缺点在光线不足或过强的环境下性能下降无法直接提供距离信息对环境的深度感知依赖于复杂的算法。 激光雷达Light Detection and Ranging, LiDAR 优点提供高精度的距离测量和三维点云数据非常适合精确地理解环境的形状和位置。缺点价格昂贵数据处理要求高性能可能受雾、雨等恶劣天气影响。 雷达Radio Detection and Ranging 优点能在各种天气条件下稳定工作尤其擅长速度测量通常用于自适应巡航控制ACC系统。缺点分辨率比激光雷达低难以识别小物体或细节。 惯性测量单元Inertial Measurement Unit, IMU 优点能够精确测量和报告车辆的即时速度、方向和加速度信息对于估算车辆的位置和行驶轨迹非常有用。缺点随时间积累误差需要与其他系统如GPS结合使用来校准。 全球定位系统Global Positioning System, GPS 优点能提供全球范围内的位置信息对于长距离导航不可或缺。缺点在城市峡谷、隧道或室内等地方信号可能受到干扰精度受到卫星信号质量的影响有时可能不够精确。 在实际应用中这些传感器通常结合使用以克服各自的限制并提高整体性能。例如激光雷达可以补充相机在深度感知上的不足而IMU和GPS可以帮助车辆在激光雷达和相机无法操作的环境中导航。雷达则为高速行驶时的快速反应提供了可靠的数据支持。通过数据融合自动驾驶系统能够获得周围世界的全面、准确的认知从而安全地导航。 特征提取器
特征提取器用于将原始数据转换为适当的特征表示该模块通常由主干和颈部组成。脊椎和颈部有不同的选择。例如HAOMO[130]中的ResNet[117]和Tesla[6]中的RegNet[131]可以用作图像主干。颈部可以是HAOMO[130]的FPN[132]、Tesla[6]的BiFPN[133]等。至于点云输入HAOMO[120]的基于支柱的选项或Mobileye[129]的基于体素的选项是骨干的理想候选者。
PV到BEV的转换
工业中进行视图转换的方法主要有四种a固定IPM。基于平地假设固定变换可以将光伏特征投影到BEV空间。固定IPM投影可以很好地处理接地平面。然而它对车辆颠簸和路面平整度很敏感。b 自适应IPM利用通过一些姿态估计方法获得的SDV的外部参数并相应地将特征投影到BEV。尽管自适应IPM对车辆姿态具有鲁棒性但它仍然是基于平地假设的。c 基于变压器的纯电动汽车变换采用密集变压器将光伏特征投影到纯电动汽车空间中。特斯拉Tesla、地平线Horizon、好物HAOMO都广泛采用了这种基于数据驱动的转换方法。d 2018年初Waymo和Mobileye首次在不同的场地并行提出了ViDAR[13129]以表明使用像素级深度基于相机或视觉输入将PV特征投影到BEV空间的做法类似于LiDAR中的表示形式。ViDAR一词相当于大多数学术文献中提出的伪激光雷达的概念。配备了ViDAR可以将图像和随后的特征直接转换为点云。然后可以应用基于点云的方法来获得BEV特征。最近我们看到了许多ViDAR应用[6131123134135]例如特斯拉、Mobileye、Waymo、丰田等。总体而言Transformer和ViDAR的选择在行业中最为普遍。 自适应IPM的工作原理简述 姿态估计首先通过姿态估计方法比如使用IMU惯性测量单元、GPS或者视觉里程计获取自驾车辆SDV当前的姿态信息包括车辆的俯仰角pitch、偏航角yaw和翻滚角roll。外部参数利用这些姿态信息被视为车辆的外部参数用来调整IPM转换的参数以确保图像转换能够反映出真实世界中的几何关系。特征投影接着相机捕捉的透视图像特征根据这些调整后的参数被投影转换到BEV。 基于平地假设的限制 自适应IPM通常是基于这样一个假设被观察的环境比如路面是平坦的。这意味着它假设没有大的坡度或者凹凸不平的路面。当这个假设不成立时例如在多变的地形或是有坡度的道路上传统的IPM方法可能会出现误差因为它无法正确处理路面的倾斜或者凹凸。 自适应IPM的优点和挑战 优点自适应IPM在车辆姿态发生变化时能够动态调整投影参数从而保持了对路面的准确映射提高了鲁棒性。挑战尽管有这种自适应能力但自适应IPM仍然依赖于平地假设。在复杂的路面条件下例如驶过坑洼或斜坡这种方法可能无法提供准确的BEV因为实际的路面和平地假设之间存在差异。 总的来说自适应IPM是一种有用的技术可以提高车辆对环境的理解但是它也有自己的局限性特别是在处理复杂路况时。自动驾驶系统通常需要结合其他传感器和技术来克服这些限制。 基于变压器的BEV转换的工作原理简述 光伏特征提取首先从多个相机捕获的透视图PV图像中提取特征。这些特征包含了路面、车辆、行人等对象的视觉信息。特征转换然后通过使用密集变压器网络这些特征被转换到BEV空间。变压器网络能够通过其自注意力机制有效地处理和整合这些特征以反映它们在实际世界中的空间布局。数据驱动方法这种变换方法是数据驱动的意味着它依赖于大量的标注数据来训练网络模型从而学习如何从透视图到BEV的映射。 ViDAR视觉检测和测距是一种技术它使用来自相机的像素级深度信息来创建与激光雷达相似的数据表示。这种技术使得相机捕捉的图像能够转换为点云形式类似于激光雷达扫描的输出进而利用点云处理方法提取特征。ViDAR提供了一种方法允许仅使用相机输入来模拟激光雷达系统的某些功能。以下是ViDAR的关键点 像素级深度信息ViDAR利用计算机视觉技术从二维图像中提取深度信息。这通常通过使用深度感知算法如立体视觉、结构光或时间飞行ToF摄像头或者更先进的深度学习方法来完成。 伪激光雷达Pseudo-LiDARViDAR技术在学术界通常被称为“伪激光雷达”。它创建了一个激光雷达风格的三维点云但是使用来自视觉传感器的数据而非激光雷达。 BEV特征获取将图像转换为点云之后就可以使用那些设计用来处理激光雷达数据的方法来处理这些伪激光雷达数据进一步转换为BEV特征。 行业应用Waymo、Mobileye、特斯拉、丰田等领先的自动驾驶和车辆制造商都在探索或应用ViDAR技术。这些公司的目的是通过相机捕获的数据提高感知系统的性能尤其是在没有激光雷达或者作为激光雷达的补充时。 总结ViDAR允许自动驾驶车辆的感知系统通过单一或多个相机而非昂贵的激光雷达来获取周围环境的深度信息和三维结构。这降低了成本并简化了系统设计同时保持了一定水平的感知精度。此外通过模拟激光雷达输出ViDAR使得现有的基于点云的算法可以无缝地应用于由相机捕获的数据从而增强了车辆的环境感知和决策能力。 融合模块
在之前的纯电动汽车转换模块中已经完成了不同相机源之间的对准。在融合单元中他们进一步聚合来自相机和激光雷达的BEV特征。通过这样做来自不同模式的特征最终被整合到一个统一的形式中。
时间和空间模块
通过在时间和空间上堆叠BEV特征可以构建特征队列。时间堆栈每隔固定时间推送和弹出一个特征blob而空间堆栈每隔固定距离推送和跳出一个特征blob。在将这些堆栈中的特征融合为一种形式后它们可以获得时空BEV特征该特征对遮挡具有鲁棒性[6130]。聚合模块可以是3D卷积、RNN或Transformer的形式。基于时间模块和车辆运动学可以维护ego车辆周围的大型纯电动汽车特征图并在本地更新特征图就像特斯拉[6]的空间RNN模块一样。 通过结合时间和空间信息自动驾驶系统可以创建一个更为全面的环境感知模型这对于动态和复杂的道路场景至关重要。以下是对时间和空间堆叠BEV特征以及如何创建鲁棒的时空BEV特征的总结 特征队列构建特征队列是通过在时间和空间上堆叠BEV鸟瞰图特征来实现的。这使得车辆能够记录和分析在连续时间点和不同位置的特征数据。 时间堆栈时间堆栈通过周期性地添加推送新捕获的特征blob并移除弹出旧的特征blob来工作。这样系统保留了最近的历史特征信息形成了一个随时间变化的特征序列。 空间堆栈与时间堆栈类似空间堆栈在车辆通过一定距离后添加新特征blob并移除旧的特征blob。这有助于捕捉随着车辆移动而变化的环境特征。 特征融合这些堆栈中的特征经过融合处理可以生成包含时间连续性和空间连续性的时空BEV特征。这种特征在处理遮挡问题时特别有效。 聚合模块对特征的聚合可以采用多种不同的方法包括3D卷积、递归神经网络RNN或变换器Transformer。这些模块处理堆叠的特征提取用于后续决策的有用信息。 动态特征图维护系统可利用时间模块和车辆运动学来维护围绕自车的大型BEV特征图并且根据车辆的实际移动在本地更新特征图。 实例应用例如特斯拉就使用空间RNN模块来实时更新其BEV特征图以适应车辆周围环境的变化。 总结这种时空特征聚合方法使自动驾驶车辆能够更准确地理解和预测其环境。通过考虑时间连续性和空间变化这些系统能够更好地处理如遮挡等复杂情况并提高决策的安全性和可靠性。 预测头
在BEV感知中多头设计被广泛采用。由于BEV特征聚集了来自所有传感器的信息从BEV特征空间对所有3D检测结果进行解码。同时在一些设计中还从相应的PV特征中解码PV结果。预测结果可分为三类[127]a低水平结果与物理约束有关如光流、深度等。b实体水平结果包括物体的概念即车辆检测、车道线检测等。c 结构级结果表示对象之间的关系包括对象跟踪、运动预测等 在基于BEV鸟瞰图的感知系统中多头设计是一种常见的架构它允许同时从同一个特征空间解码出不同类型的预测结果。以下是对这种多头设计的理解总结 多头设计这种设计使用多个“头”在神经网络中通常指不同的输出层或模块每个头负责从BEV特征空间中解码不同类型的预测结果。 BEV特征空间这是一个聚合了来自所有传感器如相机、激光雷达、雷达信息的特征表示。在BEV空间中数据被转换为鸟瞰图表示这为理解和处理3D场景提供了有利的视角。 3D检测结果解码从BEV特征空间中系统可以直接对3D检测结果进行解码这涉及到对车辆、行人等实体的空间定位和分类。 PV结果解码在一些设计中除了BEV结果之外还会从相应的透视视图PV特征中解码结果。这可能是因为某些任务在透视视图中更容易解决或提供了更多的细节。 结果类型 a低水平结果这些结果涉及物理属性的直接测量如光流场景中对象的视觉运动和深度估计。b实体水平结果这些结果涉及对场景中具体对象的识别和分类如车辆检测、车道线检测。c结构级结果这些结果表示对象之间的关系和相互作用如对象跟踪和运动预测它们对于理解场景动态和未来状态预测非常关键。 总结多头设计在BEV感知中允许高度集成的预测方式结合了来自不同传感器源的信息能够同时解决从低级物理属性到高级场景理解的多种任务。通过这种方式自动驾驶系统能够获得关于周围环境的全面认知从而做出更准确和可靠的决策。