Projection:https://github.com/Sense-GVT/Fast-BEV.
本期概述
不得不说,当前的感知模型仍然是BEV的天下,几乎所有的端到端自动驾驶模型都采用BEV作为感知方案。(重点回顾我们学习到的几个端到端模型方案哦!
无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)
CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 Pipeline详解
高度提炼|自动驾驶算法船新框架?CVPR 2023 Best PaperUniAD框架解析(1))
本期介绍一个高效的感知模型:Fast-BEV:基于鸟瞰图(Bird's-Eye View, BEV)表示的快速且高效的3D感知框架。Fast-BEV表示可以在没有昂贵的基于Transformer的转换或深度表示的情况下表现出足够强大的性能!目前车载大模型的算力大部分都耗在了感知侧,如果这个模型真的能解决计算资源问题,那确实值得一读!我们来学习一下吧~
PipeLine
本文提出了一种简单而有效的框架,旨在能够在车载芯片上实现更快的BEV感知。研究通过实验证明,Fast-BEV由五个部分组成:(1)轻量级的部署友好的视图转换(Fast-Ray Transformation),可以快速将2D图像特征转换为3D体素空间;(2)多尺度图像编码器(Multi-Scale Image Encoder);(3)高效的BEV编码器(Efficient BEV Encoder.),专门设计用于加速车载推理;(4)数据增强策略(Data Augmentation),避免过拟合;(5)多帧特征融合机制(Temporal Fusion)。
视图转换(Fast-Ray Transformation):负责将2D图像特征投影到3D体素空间。这个模块通过预先计算的查找表(Look-Up-Table, LUT)和多视图到单体素(Multi-View to One-Voxel)的操作,实现了极高的推理速度。具体来说,LUT 存储了固定的投影索引,使得在推理过程中可以通过查询LUT快速获得投影索引。这种方法避免了昂贵的体素聚合操作,通过将所有摄像头的图像特征投影到同一个体素,从而大幅提升了投影速度。
每个离散体素单元的鸟瞰视图,比较了基本视图转换方法与Fast-BEV方法在体素聚合上的差异。(a) 基本视图转换方法:在基本视图转换中,每个摄像头都生成一个稀疏体素,这些体素在整个空间中非常分散。这种方法在计算上非常耗费资源,因为需要处理大量的空体素和进行复杂的体素聚合。(b) Fast-BEV方法。Fast-BEV方法让所有摄像头的图像特征投影到一个密集的体素上,避免了昂贵的体素聚合操作。
李小毛理解,本项研究工作主要完成了图像的拼接预处理,通过整体分析多视角输入,来实现计算的加速!
往期回顾
GaussianBEV:首次将3D Gaussian引入BEV感知应用
无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!