BEV感知系列同享是整数智能推出的一个全新同享系列，在这个系列中，咱们将介绍BEV感知相关的算法和数据集等内容。BEV感知系列首要分为以下几篇文章：

BEV感知，是下一代自动驾驶感知算法风向吗？
BEV感知的开源数据集同享
BEV常见的开源算法系列
- BEV空间的生成
- BEV下的多模态交融
- BEV下的时序交融

在本系列中，咱们将介绍到目前为止发布的优异BEV算法。咱们将该系列分为BEV空间的生成、BEV下的多模态交融算法、BEV下的时序交融算法。

本篇将从BEV空间的生成算法开端，介绍BEV算法的开展前史，而且要点介绍根据Transformer的BEV空间生成算法。这些算法创始性地运用Transformer更高效，更精确地生成BEV空间。

BEV算法的开展前史

在 BEV空间中，传统的 BEV改换算法通常是在图画空间中进行特征提取，并发生切割成果，再运用逆透视改换（IPM）将其转化为 BEV空间。

IPM的功能是消除视觉上的影响，比如，在自动/辅佐驾驶中，因为在前视的照相机拍照的图画中，原本平行的物领会因为透视的原因而发生穿插。

IPM是把印象与 BEV空间连接起来的一种简便、直接的办法，要得到一幅印象的 IPM，就有必要了解摄像机的内参（焦距、光心）和外参（俯仰角、偏航角和地上高度）。在这个过程中，摄像机有必要坚持俯仰角，但这种约束太严格，难以在实际运用中得到满意。一起，因为参数的改变，会引起体系对物体的感知能力的改变，然后下降视觉质量，构成平行车道之间的夹角。

为减小俯仰角对视觉的影响，在改善后的算法中，选用了摄像机的实时位姿，并将俯仰校对添加到相邻的帧中，这样能够取得较好的逆改换作用，但因为实时位姿难以精确地取得，因而无法取得最理想的成果。

这两年BEV相关算法的开展让深度学习运用于BEV空间转化的办法逐渐成为主流。与以往的算法相比，运用神经网络进行二维 BEV空间改换能够取得更好的视觉作用。

该办法首要流程是：首先运用主干网对各个摄像机进行特征提取，再运用 Transformer等将多摄像机数据从图画空间转化为 BEV空间。在 BEV空间中，因为运用同一坐标体系，能够很方便地将 Lidar、 Radar等传感器数据与其他传感器数据进行交融，还能够进行时序交融构成4D空间，这也是当下BEV技术的大趋势。

根据Transformer的PV2BEV算法

01 BEVFormer

【论文地址】

arxiv.org/abs/2203.17…

【简介】

BEVFormer能够有效地聚合来自多视角摄像机的时空特征和前史BEV特征。由BEVFormer生成的BEV特征能够一起支持多种三维感知使命，如三维物体检测和地图切割，这对自动驾驶体系是很有价值的。

【算法结构】

BEVFormer网络结构

BEVFormer网络结构如上图所示，它有6个编码器层，除BEV查询，空间穿插留意和时间自我留意三种定制规划外，每个编码层都遵从Transformer的常规结构。

BEV Queries

作者预先设定了一组网络形状的可学习的参数

作为BEVFormer的queries。其间H和W是BEV平面的空间尺寸。具体来说，查询在

处，Q负责BEV平面中相应的网络单元区域。每个BEV平面中的网络单元对应于s米的实在巨细。BEV特征的中心在默许情况下对应于ego car的方位。依照常见的做法，数据输入BEVFormer之前，向BEV queries Q添加了可学习的方位编码。

Spatial Cross-Attention

作者规划了一种空间穿插留意力机制，使BEV queries从多相机特征中经过留意力机制提取所需的空间特征。因为本办法运用多尺度的图画特征和高分辨率的BEV特征，直接运用最朴素的global attention会带来无法负担的核算代价。因而作者运用了一种根据deformable attention的稀少留意力机制使每个BEV query和部分图画区域进行交互。具体而言，对于每一个位于（x, y）方位的BEV特征，咱们能够核算其对应实际世界的坐标x’, y’。然后作者将BEV query进行lift操作，获取在z轴上的多个3D points。有了3D points，就能够经过相机表里参获取3D points在view平面上的投影点。受到相机参数的限制，每个BEV query一般只会在1-2个view上有有效的投影点。根据Deformable Attention，咱们以这些投影点作为参阅点，在周围进行特征采样，BEV query运用加权的采样特征进行更新，然后完成了spatial空间的特征聚合。

Temporal Self-Attention

除了空间信息之外，时序信息对于视觉体系了解周围环境来说也是至关重要的。例如，在没有时间线索的情况下，推断运动物体的速度或者从静态图画中检测高度遮挡的物体是很有挑战性的。作者规划了Temporal Self-Attention经过结合BEV的前史特征表明当前的环境。

作者将BEV特征视为类似能够传递序列信息的memory，每一时间生成的BEV特征都从上一时间的BEV特征获取了所需的时序信息，这样保证能够动态获取所需的时序特征，而非像堆叠不一起刻BEV特征那样只能获取定长的时序信息。

【试验成果】

在3D方针检测使命上，BEVFormer在验证集上比曾经最好的办法DETR3D高出9.2分（51.7% NDS vs. 42.5% NDS）。在测验集上，BEVFormer在没有附加条件的情况下取得了56.9%的NDS，比DETR3D（47.9%的NDS）高9.0个百分点。该办法甚至能够达到与一些根据LiDAR的基线适当的功能，如SSN（56.9% NDS）和PointPainting（58.1% NDS）。

在nuScenes验证集上3D检测成果

02 PersFormer

【论文地址】

arxiv.org/abs/1912.04…

【简介】

作者提出一种端到端单目3D车道检测器，它具有根据变压器的空间特征转化模块。该模型以相机参数为参阅，重视相关的前视部分区域生成BEV特征。PersFormer选用一致的2D/3D锚点规划和辅佐使命一起检测2D/3D车道，增强了特征一致性，同享了多使命学习的优点。

【算法结构】

PersFormer网络结构PersFormer全体结构如上图所示，由主干、透视变压器和车道检测头三部分组成。

主干以调整后的图画为输入，生成多尺度的前视图特征，其间选用盛行的ResNet变体。
透视转化器以摄像机的前视图特征为输入，凭借摄像机的表里参数生成BEV特征。作者不是简略地从正面视图向BEV投影1对1的特征对应，而是引进Transformer来重视部分上下文并聚合周围的特征，然后在BEV中构成一个健壮的表明。
车道检测头负责预测2D/3D坐标以及车道类型。

【试验成果】

PersFormer超过之前的SOTA算法在整个验证集和每个场景集上取得了最高的F-Score

【标示demo视频】

03CoBEVT

【论文地址】

arxiv.org/abs/2207.02…

【简介】

作者提出了第一个通用的多智能体多摄像机感知框架CoBEVT，假定一切智能体获取的信息是准确的，传输的信息是同步的，运用多个智能体之间的同享信息来取得全体的BEV切割图，协同生成BEV地图预测。为了在底层Transformer架构中有效地交融来自多视图和多署理数据的相机特征，作者规划了一个交融轴向留意（FAX）模块，它能够跨视图和署理捕获稀少的部分和大局空间交互。

【算法结构】