高度提炼 | Fast-BEV：高效的BEV感知框架

文摘 2024-07-30 08:17 上海

Projection：https://github.com/Sense-GVT/Fast-BEV.

本期概述

不得不说，当前的感知模型仍然是BEV的天下，几乎所有的端到端自动驾驶模型都采用BEV作为感知方案。（重点回顾我们学习到的几个端到端模型方案哦！

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)）

本期介绍一个高效的感知模型：Fast-BEV：基于鸟瞰图（Bird's-Eye View, BEV）表示的快速且高效的3D感知框架。Fast-BEV表示可以在没有昂贵的基于Transformer的转换或深度表示的情况下表现出足够强大的性能！目前车载大模型的算力大部分都耗在了感知侧，如果这个模型真的能解决计算资源问题，那确实值得一读！我们来学习一下吧~

PipeLine

本文提出了一种简单而有效的框架，旨在能够在车载芯片上实现更快的BEV感知。研究通过实验证明，Fast-BEV由五个部分组成：(1)轻量级的部署友好的视图转换（Fast-Ray Transformation），可以快速将2D图像特征转换为3D体素空间；(2)多尺度图像编码器（Multi-Scale Image Encoder）；(3)高效的BEV编码器（Efficient BEV Encoder.），专门设计用于加速车载推理；(4)数据增强策略（Data Augmentation），避免过拟合；(5)多帧特征融合机制（Temporal Fusion）。

视图转换（Fast-Ray Transformation）：负责将2D图像特征投影到3D体素空间。这个模块通过预先计算的查找表（Look-Up-Table, LUT）和多视图到单体素（Multi-View to One-Voxel）的操作，实现了极高的推理速度。具体来说，LUT 存储了固定的投影索引，使得在推理过程中可以通过查询LUT快速获得投影索引。这种方法避免了昂贵的体素聚合操作，通过将所有摄像头的图像特征投影到同一个体素，从而大幅提升了投影速度。

每个离散体素单元的鸟瞰视图，比较了基本视图转换方法与Fast-BEV方法在体素聚合上的差异。(a) 基本视图转换方法：在基本视图转换中，每个摄像头都生成一个稀疏体素，这些体素在整个空间中非常分散。这种方法在计算上非常耗费资源，因为需要处理大量的空体素和进行复杂的体素聚合。(b) Fast-BEV方法。Fast-BEV方法让所有摄像头的图像特征投影到一个密集的体素上，避免了昂贵的体素聚合操作。

多尺度图像编码器 (Multi-Scale Image Encoder) ：使用多层特征金字塔网络结构，从多视图图像中提取多尺度图像特征。每一层FPN融合了相同尺寸的特征，并通过卷积层上采样到更高层次。最终输出的多尺度图像特征为:

高效BEV编码器（Efficient BEV Encoder）：设计了三个降维操作符：空间到通道（Space-toChannel, S2C) 、多尺度级联融合 (Multi-Scale Concatenation Fusion, MSCF) 和多帖级联融合 (Multi-Frame Concatenation Fusion, MFCF) 。这些操作符将体素张量转换为 BEV张量，减少了内存和计算量。具体来说，S2C操作符将4D体素张量转换为3D BEV张量:

然后，MSCF和MFCF操作符在通道维度上连接多尺度和多帧特征。

数据增强（Data Augmentation）：在图像空间和BEV空间分别进行了数据增强，如随机翻转、裁剪和旋转等。

时间融合（Temporal Fusion）：将历史帧特征与当前关键帧特征结合，通过空间对齐操作和连接操作进行融合。

首先提取三个历史帧的特征，并将其投影到相应的BEV空间。投影后的历史帧特征通过相机外参和全局坐标对齐到当前帧。T-3、T-2和T-1表示三个历史时刻的BEV特征。随后，这些特征与当前帧T的BEV特征进行对齐。对齐后的多帧BEV特征在通道维度上进行连接和融合。

Experiments

在不同平台（Xavier，Orin，T4）上的延迟通过三个部分的总和进行评估，包括图像编码器（2D）、视图转换（2D到3D）和BEV编码器（3D）。总体来看，T4平台表现最佳，具有最低的延迟和最高的帧率。Xavier平台延迟最大，帧率最低。Orin平台介于两者之间，延迟和帧率均较为均衡。

本期结语

李小毛理解，本项研究工作主要完成了图像的拼接预处理，通过整体分析多视角输入，来实现计算的加速！

往期回顾

GaussianBEV：首次将3D Gaussian引入BEV感知应用

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！