GaussianBEV：首次将3D Gaussian引入BEV感知应用

文摘 2024-07-28 08:20 上海

arxiv:https://arxiv.org/abs/2407.14108

本期概述

哈喽大家周末好！BeV（Bird's-eye View）自被提出以来就是感知侧绕不开的话题，今天的这篇研究内容：GaussianBeV，是首个在在线环境中使用3D Gaussian建模和渲染过程的方法，能够无需对特定场景进行优化，直接集成到单阶段模型中进行BeV场景理解。听起来很厉害哦！李小毛和大家一起学习一下吧！

研究内容

GaussianBeV，一种新的 3D 感知模型，通过 3D Gaussian 表示实现鸟瞰图（BeV）语义分割。该模型处理来自多视角摄像机的图像，利用图像骨干网络提取特征，再通过 3D Gaussian 生成器将这些特征转化为精细的 3D 表示。然后，使用 BeV 栅格化器将这些 3D 表示渲染为 BeV 特征图，最终通过 BeV 主干网络和分割头生成分割结果。

研究的主要贡献包括：提出了一种新的视图转换方法，利用 3D Gaussian 表示实现在线 3D 场景建模，并且首次将这种表示集成到一个感知模型中

多种表示方法在BeV语义分割中的应用。这些方法分别是基于深度的方法 (a)、基于投影的方法(b)、基于注意力的方法(c)和本文提出的 GaussianBeV方法(d)。图中每个子图都用不同颜色表示了街灯（蓝色）、汽车（红色）和车道标记（绿色）。(a)基于深度的方法：这种方法将图像特征放置在物体表面的光学射线上。这种方法的缺点在于特征定位依赖于深度离散化的粒度，可能会导致特征定位不准确。(b)基于投影的方法：这种方法将3D网格点投影到摄像机上，并从中收集相应的特征。缺点是光学射线上的所有网格点都会接收到相同的特征，导致2D到3D的反投影不准确。(c)基于注意力的方法：这种方法使用下采样的密集空间查询以减少内存成本，虽然在3D物体检测中有效，但在BeV表示中的密集查询会导致计算成本高。(d)GaussianBeV方法：场景通过一组旋转的Gaussian表示，这些Gaussian精细地描述了场景中的语义结构。这种方法允许在3D空间中以不同的细节级别覆盖场景，提供更精细的建模。

Pipeline

GaussianBeV 模型的总体PipeLine。（1）输入图像包含来自多个摄像头的图像，每个图像的维度为，其中是摄像头数量，和分别是图像的高度和宽度，3 表示颜色通道 (RGB)。图像通过图像骨干网络和颈部 (Image backbone + neck) 提取特征，生成特征图。（2）接下来，3D Gaussian 生成器模块接收特征图，并预测场景的 3D Gaussian 表示集合，其维度为，其中和是特征图的高度和宽度，是通道数， 11 表示每个 Gaussian 的参数（包括位置、尺度、旋转等）。然后，3D Gaussian 集合通过 BeV 栅格化器模块，生成 BeV 特征图，其维度为，其中和分别是 BeV 特征图的高度和宽度。（3） BeV 特征图通过 BeV 主干网络和分割头进行处理，生成最终的预测结果。

（1）3D Gaussian 生成器：从输入特征图中预测场景的 3D Gaussian 表示。这一模块通过多个预测头对每个像素进行处理，预测 Gaussian 的中心位置、尺度、旋转、不透明度和嵌入特征。

现在我们对3D Gaussian 生成器的各个输出进行详细解释~

1.输入特征图: 输入的特征图来自图像骨干网络和颈部，维度为，其中是图像数量，和分别是特征图的高度和宽度，是特征图的通道数。

2.深度头 (Depth head)：深度头预测每个像素的视差，结合摄像头内参矩阵，计算每个像素在相机参考系中的初始 3 D 位置 :

3.3D 偏移头 (3D offsets head)：3D 偏移头预测 3D 偏移量，用于细化初始 3D 位置:

4.旋转头 (Rotation head): 旋转头预测相对于光学射线的旋转，转换为相对于相机参考系的旋转 :

5.位姿计算 (Cams to world)：将 3D 位置和旋转从相机参考系转换到世界参考系，使用外参矩阵和 :

6.尺度头 (Scale head)、不透明度头 (Opacity head) 和特征头 (Feature head): 分别预测 Gaussian 的尺度、不透明度和嵌入特征。

7.合并 (Concatenation): 所有预测的 Gaussian 参数进行合并，生成场景的 3D Gaussian 表示集合 :

（2）BeV 栅格化器：用于将 3D Gaussian 表示渲染为 BeV 特征图。该过程基于 Gaussian splatting 渲染技术，适应了语义重建任务中需要渲染维特征而非颜色的需求。渲染算法被参数化为生成正交投影，而非透视投影，更适合场景的 BeV 表示。

（3）GaussianBeV 训练：模型的训练通过以下损失函数进行端到端优化:

其中，是二元交叉熵损失，是中心度损失，是偏移损失，和是权重参数。

为了提高 Gaussian 表示的质量，还引入了两个正则化损失:

1.深度损失 ，其中是真实深度，是预测深度:

2.早期监督损失，,优化bev特征图在应用bev主干网络和分割头之前的表示质量，损失函数为:

Experiments

GaussianBeV 模型在不同场景下的实验结果。实验结果显示GaussianBeV 在各种复杂场景下均能准确地进行语义分割，主要体现在以下几个方面：

1.高精度的预测：对比真实值和预测结果，GaussianBeV 能够准确地分割出车辆和车道标记，特别是在复杂的城市环境和交叉路口等场景中，表现出色。

2.细节捕捉能力：在行人、车辆和车道标记等细节处，GaussianBeV 能够很好地捕捉和还原，显示出其在处理高复杂度场景方面的优势。

3.BeV 特征图质量：通过 PCA 可视化的 BeV 特征图展示了 GaussianBeV 在生成高质量特征表示方面的能力。这些特征图不仅展示了场景的整体结构，还能反映出细节信息，如车道标记和车辆的位置和形状。

4.鲁棒性：在各种天气和光照条件下（如阴天、晴天、不同光照角度等），GaussianBeV 依然能够保持较高的分割精度，表明其在实际应用中的鲁棒性。

使用不同的输入分辨率和不同的可见性滤波，在nuScenes验证集上进行车辆分割的结果。

在场景验证集上行人分割的结果。

在nuScenes验证集上的可驾驶区域和车道边界分割结果。

本期结语

相比之前的AIGC研究，本期的研究更偏向于应用层面，对模块没有做太多修改，如果有同学觉得本期内容太过“Easy”，欢迎回顾小毛之前分享的硬核内容哦！常温常新，我们一起为自己加油！

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉