本文已参与「新人创造礼」活动,一同开启创造之路!

点击进入→自动驾驶之心技能沟通群

后台回复【ECCV2022】获取ECCV2022一切自动驾驶方向论文!

论文链接:arxiv.org/pdf/2204.05…

摘要

本文提出统一结构M2BEV,能够在BEV空间中与多镜头图画联合实现3D方针检测和BEV切割。与之前作业的区别在于,M2BEV运用一个模型输出两个使命并提高了功率。M2BEV有效地将多视图2D图画特征转换为ego-car坐标系中的3D BEV特征。这种BEV表明的重要性在于它能够使不同的使命能够同享单个编码器。M2BEV结构进一步包含了四点重要的设计,其能够在提高功能的同时提高功率:1)一种有效的BEV编码器设计,能够削减体素特征图的空间维度;2)一种动态框分配战略,运用learning-to-match的办法来分配带anchor的3D GT Box;3)BEV centerness re-weighting,经过更大的权重优化远距离猜测成果;4)大规模2D检测预练习和辅佐使命。本文的试验标明,以上四点设计对缺少深度信息的根据不适定相机的3D感知使命有巨大的优点。M2BEV对内存更友好,允许以更高的分辨率图画输入,而且推理速度更快。nuScenes上的试验标明,M2BEV在3D方针检测和BEV切割使命上均取得了最先进的成果,最好的模型取得了42.5 mAP和 57.0 mIoU。

本文的首要贡献如下:

  1. 提出了一个统一的结构,将多摄像头图画转换为BEV表明,用于多使命autonomous vehicles(AV)感知,包含3D方针检测和BEV切割。据作者称,这是在单个结构中输出两个使命的首篇作业。
  2. 提出了几种新颖的设计,例如高效的BEV编码器、动态框分配和BEV centerness。这些设计有助于提高GPU内存的功率并明显提高算法功能。
  3. 本文的试验标明,运用2D标示和2D辅佐监督进行大规模预练习能够明显提高3D使命的功能。因而,本文的办法在nuScenes的3D方针检测和BEV切割均实现了最先进的功能,标明BEV表明对于下一代AV感知很有前景。

介绍

现有根据摄像头的算法不适合360°多使命的AV感知,本文以三种干流的根据摄像头的办法打开阐明:1)单目3D方针检测算法,如CenterNet [10]和FCOS3D [7]别离猜测每个视图内的3D box。它们需求额定的后处理过程来融合不同视图的猜测成果并去重。这些过程不稳定且不可导,因而不适合与下流使命进行端到端联合推理;2)根据伪激光雷达的办法,如pseudo-LiDAR [9]。这些办法能够重建具有深度信息的3D体素,但对深度估计中过错信息很敏感,而且一般需求额定的深度真值和练习监督;3)根据Transformer的办法。最近,DETR3D [11]运用了一个Transformer的结构,将3D方针query投影到多视图2D图画上,并运用自上而下的办法与图画特征交互。尽管DETR3D支撑多视角的3D检测,但无法输出BEV切割和其他多使命,由于DETR3D只考虑了没有密布BEV表明的方针query。

如下图展示两种不同的办法:上图是传统的使命特定的范式,而下图是M2BEV办法:

图片

办法

M2BEV的算法结构如下图所示:

图片

M2BEV

Overview:M2BEV运用多视图的N个RGB图画和对应的内外参作为输入。输出是方针的3D Box和BEV切割成果。多视角图画首要运用2D骨干获取2D特征。然后投影到3D空间构建3D体素。接着将3D体素输入到BEV编码器中获取BEV特征。最后,接上使命特定的head,输出多使命成果。

Part1—2D Image Encoder:运用常见的2D骨干网络(ResNet等)和FPN输出不同分辨率的特征图(1/4、1/8、1/16、1/32)。然后将这些特征上采样至1/4原图大小,concatenate后接1×1卷积得到融合后的特征。不同视角的图画别离获取相同大小的特征图,用于下一步投影至3D ego-car坐标系中。

Part2—2D→3D Projection:2D→3D投影是本文多使命练习的中心模块。N个相同大小的多视角特征图组兼并投影到3D空间获取体素特征,如下图(c)所示。

图片

Part3:—3D BEV Encoder:给定输入的4D体素,需求运用BEV编码器来降维并输出BEV特征图。直观的主意是在Z轴上运用几个stride=2的3D卷积,可是这种办法功率很低。因而,本文运用一个新颖的Spatial to Channel(S2C)算子将4D张量降维到3D。

Part4:—3D Detection Head:得到统一的BEV特征后,就能够运用一些经典的head进行3D方针检测。本文运用PointPillars [1] 的检测头,与其不同的是,M2BEV提出了一种动态框分配的战略分配GT的anchor。

Part5:—BEV Segmentation Head:切割头也很简单,在BEV特征后接四个3×3卷积,最后运用一个1×1卷积输出2类的猜测成果,即可行驶区域和车道线。

Efficient 2D→3D Projection

Preliminary:运用如下的公式将体素坐标投影到2D图画坐标中。P为图画,E为相机外参,I为相机内参,V表明体素张量。

图片

Our Approach:本文假定沿射线的深度分布是均匀的,即沿相机射线的一切体素都填充有与2D中间中单个像素对应的相同特征。这种统一的假定经过削减可学习的参数来提高核算和内存功率。

Improvement Designs

Dynamic Box Assignment:先前的许多作业如PointPillars [1]运用固定的IoU阈值分配GT的Anchor。但这对M2BEV来说是次优解,由于本文的BEV特征没有考虑LiDAR的深度,因而BEV表明或许编码了不太准确的几何信息。受2D方针检测算法FreeAnchor [30] 的启示,M2BEV将其扩展到3D方针检测中。

图片

BEV Centerness:“中心”的概念一般用于2D检测器 [17, 31] 以重新加权正样本。本文则运用non-trivial distance-aware的办法将“中心”的概念从2D扩展到3D BEV坐标中。过程如上图a所示。动机是BEV空间中远离自车车身的区域对应图画中更少的像素。所以一个直观的主意是让网络重视更远的区域。具体而言,BEV Centerness定义如下:

图片

2D Detection Pre-training:本文发现在大规模2D检测数据集上预练习模型,能够明显提高3D功能,如上图b所示。即先运用nuImage数据集练习2D骨干网络。在nuScenes上练习时,骨干运用上述预练习的模型初始化。

2D Auxiliary Supervision:在获取到图画特征后,本文在不同标准的特征上增加2D检测头,并运用从ego-car坐标中的3D Box生成2D GT Box核算丢失。2D检测头与FCOS中的相似。辅佐head只在练习阶段进行,推理时是不用的,因而不会引入额定的核算成本。上图c阐明了怎么从3D Box生成2D GT Box。

Training Losses

M2BEV的丢失包含三项,检测丢失、BEV切割丢失和2D辅佐丢失:

图片

试验成果

3D方针检测成果如下所示:

图片

BEV切割成果如下所示:

图片

融化试验也很充分:

图片

运行时刻如下:

图片

对标定过错的鲁棒性分析:

图片

M2BEV的约束

本文提出的 M2BEV 结构并不完美,当路况复杂时,3D检测和BEV切割都存在失利事例,如下图所示。虽然本文的办法在根据相机的办法中优势比较明显,但与根据LiDAR的办法比较仍有很大的改善空间。相机噪声也是现实场景中不可避免的问题,当存在严重的校准差错时,M2BEV也会出现明显的猜测质量下降的情况。

图片

自动驾驶之心】全栈技能沟通群自动驾驶之心是首个自动驾驶开发者社区,聚焦方针检测、语义切割、全景切割、实例切割、要害点检测、车道线、方针盯梢、3D感知、多传感器融合、SLAM、高精地图、规划操控、AI模型部署落地等方向;

参加咱们: 自动驾驶之心技能沟通群汇总!

自动驾驶之心【知识星球】想要了解更多自动驾驶感知(分类、检测、切割、要害点、车道线、3D感知、多传感器融合、方针盯梢)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划操控、范畴技能计划、AI模型部署落地实战、职业动态、岗位发布,欢迎扫描下方二维码,参加自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚职业和学术界大佬,前沿技能方向尽在掌握中,期待沟通!