高度提炼 | Fast-BEV:高效的BEV感知框架

文摘   2024-07-30 08:17   上海  

Projection:https://github.com/Sense-GVT/Fast-BEV.

本期概述

不得不说,当前的感知模型仍然是BEV的天下,几乎所有的端到端自动驾驶模型都采用BEV作为感知方案。(重点回顾我们学习到的几个端到端模型方案哦!

无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)

CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 Pipeline详解

高度提炼|自动驾驶算法船新框架?CVPR 2023 Best PaperUniAD框架解析(1)

本期介绍一个高效的感知模型:Fast-BEV:基于鸟瞰图(Bird's-Eye View, BEV)表示的快速且高效的3D感知框架。Fast-BEV表示可以在没有昂贵的基于Transformer的转换或深度表示的情况下表现出足够强大的性能目前车载大模型的算力大部分都耗在了感知侧,如果这个模型真的能解决计算资源问题,那确实值得一读!我们来学习一下吧~

PipeLine

本文提出了一种简单而有效的框架,旨在能够在车载芯片上实现更快的BEV感知。研究通过实验证明,Fast-BEV由五个部分组成:(1)轻量级的部署友好的视图转换(Fast-Ray Transformation),可以快速将2D图像特征转换为3D体素空间;(2)多尺度图像编码器(Multi-Scale Image Encoder);(3)高效的BEV编码器(Efficient BEV Encoder.),专门设计用于加速车载推理;(4)数据增强策略(Data Augmentation),避免过拟合;(5)多帧特征融合机制(Temporal Fusion)。

视图转换(Fast-Ray Transformation:负责将2D图像特征投影到3D体素空间。这个模块通过预先计算的查找表(Look-Up-Table, LUT)和多视图到单体素(Multi-View to One-Voxel)的操作,实现了极高的推理速度。具体来说,LUT 存储了固定的投影索引,使得在推理过程中可以通过查询LUT快速获得投影索引。这种方法避免了昂贵的体素聚合操作,通过将所有摄像头的图像特征投影到同一个体素,从而大幅提升了投影速度。

每个离散体素单元的鸟瞰视图,比较了基本视图转换方法与Fast-BEV方法在体素聚合上的差异。(a) 基本视图转换方法:在基本视图转换中,每个摄像头都生成一个稀疏体素,这些体素在整个空间中非常分散。这种方法在计算上非常耗费资源,因为需要处理大量的空体素和进行复杂的体素聚合。(b) Fast-BEV方法。Fast-BEV方法让所有摄像头的图像特征投影到一个密集的体素上,避免了昂贵的体素聚合操作。

多尺度图像编码器 (Multi-Scale Image Encoder) :使用多层特征金字塔网络结构,从多视图图像中提取多尺度图像特征。每一层FPN融合了相同尺寸的特征,并通过 卷积层上采样到更高层次。最终输出的多尺度图像特征为:

高效BEV编码器(Efficient BEV Encoder):设计了三个降维操作符:空间到通道(Space-toChannel, S2C) 、多尺度级联融合 (Multi-Scale Concatenation Fusion, MSCF) 和多帖级联融合 (Multi-Frame Concatenation Fusion, MFCF) 。这些操作符将  体素张量转换为 BEV张量,减少了内存和计算量。具体来说,S2C操作符将4D体素张量转换为3D BEV张量:
然后,MSCF和MFCF操作符在通道维度上连接多尺度和多帧特征。
数据增强(Data Augmentation):在图像空间和BEV空间分别进行了数据增强,如随机翻转、裁剪和旋转等。

时间融合(Temporal Fusion):将历史帧特征与当前关键帧特征结合,通过空间对齐操作和连接操作进行融合。

首先提取三个历史帧的特征,并将其投影到相应的BEV空间。投影后的历史帧特征通过相机外参和全局坐标对齐到当前帧。T-3、T-2和T-1表示三个历史时刻的BEV特征。随后,这些特征与当前帧T的BEV特征进行对齐。对齐后的多帧BEV特征在通道维度上进行连接和融合。
Experiments

在不同平台(Xavier,Orin,T4)上的延迟通过三个部分的总和进行评估,包括图像编码器(2D)、视图转换(2D到3D)和BEV编码器(3D)。总体来看,T4平台表现最佳,具有最低的延迟和最高的帧率。Xavier平台延迟最大,帧率最低。Orin平台介于两者之间,延迟和帧率均较为均衡。
本期结语

李小毛理解,本项研究工作主要完成了图像的拼接预处理,通过整体分析多视角输入,来实现计算的加速!

往期回顾

GaussianBEV:首次将3D Gaussian引入BEV感知应用

无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)

高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!

ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...

深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!

如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通

点击在看,我们一起充电!


端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章