Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

科技 2024-12-16 12:19 北京

写在前面&出发点

三维语义占用预测是稳健的视觉主导自动驾驶中的一项重要任务，它预测周围场景的精细几何结构和语义信息。大多数现有方法采用密集的基于网格的场景表示，忽略了驾驶场景的空间稀疏性。尽管三维语义高斯分布作为一种以对象为中心的稀疏替代方案，但大多数高斯分布仍以低效的方式描述空旷区域。为解决这一问题，我们提出了一种概率高斯叠加模型，该模型将每个高斯分布解释为其邻域被占用的概率分布，并遵循概率乘法原则来推导整体几何结构。此外，我们采用精确的高斯混合模型进行语义计算，以避免高斯分布的不必要重叠。为了有效地在非空旷区域初始化高斯分布，我们设计了一个基于分布的初始化模块，该模块学习像素对齐的占用分布，而不是表面的深度。在nuScenes和KITTI360数据集上进行了大量实验，GaussianFormer-2模型以高效率实现了最先进的性能。

代码地址：https://github.com/huang-yh/GaussianFormer

一些基础介绍

在自动驾驶领域，与基于激光雷达（LiDAR）的同类产品相比，以视觉为中心的系统更具成本效益。然而，它们无法捕捉任意形状的障碍物，这对驾驶的安全性和可靠性构成了挑战。三维语义占用预测方法的出现通过预测周围三维环境的精细几何结构和语义信息，缓解了这一局限性。这一进展支持了一系列新兴应用，包括端到端自动驾驶、四维占用预测以及自监督三维场景理解。

尽管三维语义占用预测有着广阔的应用前景，但其本质上是一项密集的三维分割任务，因此需要一种既高效又有效的三维场景表示方法。基于体素的方法使用密集的三维体素作为表示，以最精细的细节描述场景。然而，它们忽略了三维占用中的空间冗余，并面临高计算复杂度的挑战。为了规避这一问题，平面表示方法，如鸟瞰图（BEV）和透视投影体素（TPV），通过沿某一轴压缩三维网格来生成二维特征图，从而减少标记数量。尽管如此，它们在建模环境时仍然考虑了空旷区域，这损害了其模型容量和效率。作为以对象为中心的稀疏场景表示的先驱，三维语义高斯分布通过为每个高斯分布学习均值、协方差、不透明度和语义，以稀疏的方式描述三维空间。然而，当前的三维语义高斯表示仍存在一些局限性：1）每个高斯分布仍然可以描述空旷区域，考虑到三维占用的空间稀疏性，在以对象为中心的公式中，大多数高斯分布都是无用的。2）聚合过程忽略了重叠问题，直接累加每个高斯分布的贡献以产生占用预测，这导致语义逻辑回归值无界，并进一步增加了高斯分布之间的重叠。因此，独立描述占用区域的有效高斯分布的比例可能极低，这损害了三维语义高斯表示的效率。这里我们引入了一种概率高斯叠加模型，以解决三维语义高斯分布的上述局限性，并提高利用率和效率。具体来说，我们提出了概率高斯表示，通过将每个高斯分布解释为其邻域被占用的概率分布，使三维高斯分布专门用于建模非空旷区域。采用概率乘法定理来聚合独立概率分布，并推导出几何预测。此外，我们将高斯混合模型整合到我们的概率高斯表示中，以生成归一化的语义预测，从而避免逻辑回归值无界，并防止高斯分布发生不必要的重叠。由于我们的表示仅建模占用区域，这里还设计了一个基于分布的初始化模块，以有效地在非空旷区域周围初始化高斯分布，该模块学习像素对齐的占用分布，而不是表面的深度值。我们分别在nuScenes和KITTI-360数据集上进行了广泛的实验，用于环视和单目三维语义占用预测。GaussianFormer-2模型以高效率超越了最先进的方法。此外，定性可视化结果表明，GaussianFormer-2能够生成整体且逼真的场景感知。

GaussianFormer-2方法

我们提出了一种概率高斯叠加方法，用于高效的三维语义占用预测。首先，我们回顾了原始的三维语义高斯表示法及其局限性。然后介绍了我们的概率高斯建模方法，以及如何基于概率乘法定理和高斯混合模型来推导几何和语义预测。最后详细阐述了基于分布的初始化模块，该模块可有效地在占用区域周围初始化概率高斯。

3D 语义高斯表示

以视觉为中心的3D语义占用预测旨在获取3D场景的精细几何结构和语义信息。具体而言，其目标是根据输入图像，预测体素级别的语义分割结果，其中C、{X, Y, Z}、N分别代表预定义类别的集合、占用的空间分辨率和输入视图的数量。

为了实现这一目标，3D语义高斯表示采用了一组P个高斯基元，其中每个通过其均值、尺度、旋转、不透明度和语义来描述一个局部区域。GaussianFormer将这些基元解释为局部语义高斯分布，这些分布通过加性聚合对整体占用预测做出贡献：

其中，表示第i个语义高斯对的贡献，是在位置x处的整体占用预测。贡献g进一步计算为在位置x处评估的相应语义高斯分布的值：

其中，Σ表示协方差矩阵，R表示由四元数r通过函数q2r(·)构造的旋转矩阵，S表示由函数diag(·)得到的对角尺度矩阵。

尽管与密集体素的数量相比，由于高斯分布如等式（2）所示的可变形特性，高斯数量有所减少，但3D语义高斯表示仍存在一些局限性。首先，它使用语义属性c以相同的方式对占据区域和未占据区域进行建模，由于室外场景中空旷区域占比巨大，导致大多数高斯被归类为空。其次，语义高斯表示鼓励高斯重叠，因为等式（1）中的聚合过程独立地累加每个高斯的贡献，导致无界的占用预测oˆ。为了优化，模型会学习分配更多的高斯来描述同一区域，由于oˆ的无界特性，这加剧了高斯之间的重叠。这些局限性源于当前对高斯的解释，阻碍了3D语义高斯表示的效率和有效性。我们的方法从概率的角度探讨了基于高斯的对象中心表示，为解决这些问题提供了根本性的方案，如图2所示。

概率高斯叠加

我们提出概率高斯叠加作为一种高效且有效的3D场景表示方法。如图3所示，将3D建模目标分解为几何和语义预测，并分别采用概率乘法定理和高斯混合模型从概率的角度来解决这些问题。几何预测。为了限制高斯仅表示几何预测中的占据区域，我们将高斯基元解释为它们周围空间被占据的概率。具体来说，在高斯中心分配100%的概率值，该值随着与中心m的距离呈指数衰减。

其中，α(x; G)表示由高斯G引起的点x被占据的概率。等式（4）在点x接近高斯G的中心时赋予其较高的占据概率，从而防止任何高斯描述空区域。为了进一步推导出整体的占据概率，我们假设不同高斯描述的点被占据的概率是相互独立的，因此可以根据概率乘法定理将它们聚合起来。

其中，α(x) 表示点 x 处的总体占据概率。除了具备以目标为中心的特性外，等式（5）还避免了高斯分布之间的不必要重叠，因为对于任意高斯分布 Gi，都有 α(x) ≥ α(x; Gi) 成立。这意味着，如果点 x 足够接近任意一个高斯分布，则预测该点被占据。

语义预测。除了以目标为中心的无重叠几何建模外，我们还需要在语义预测上实现相同的目标。首先，由于空类已经在几何预测中考虑过了，我们从高斯分布的语义属性c中移除了表示空类的通道。然后，我们将高斯集合G解释为高斯混合模型，其中语义预测可以表述为在给定的概率高斯混合模型下计算期望语义。具体来说，将原始的不透明度属性a作为高斯分布的先验分布，该分布是L1标准化的。此外采用由均值m、尺度s和旋转r参数化的高斯概率分布作为条件概率。然后使用softmax对原始语义属性c进行归一化，以确保预测语义的有界性。最后，我们计算期望e(x; G)。

在给定了几何和语义预测后，我们迈出了简单的一步，将它们结合起来以生成最终的语义占据预测。

Distribution-Based Initialization

之前的3D语义高斯表示采用了一种可学习的初始化策略，该策略在训练开始时随机初始化高斯属性的值，并以数据驱动的方式优化这种初始化。这种策略使模型能够学习到整个数据集占据情况的先验分布，这依赖于后续网络的精细化调整以适应每个单独样本的分布。然而，高斯分布的局部感受野限制了其移动性，这阻碍了每个高斯分布在后续精细化调整中学习到达正确位置的路径。对于我们的概率高斯叠加表示（其中高斯分布仅用于建模占据区域）来说，这个问题甚至更加严重。

为了解决这个问题，我们提出了一个基于分布的初始化模块，该模块为高斯分布提供了更准确且全面的样本特定初始化，如图4所示。我们使用来自占用注释的像素对齐占用分布来监督来自2D主干网络的图像特征。具体来说，首先利用相机校准数据确定与每个图像特征相对应的射线的原点b和方向d。然后，我们在这条射线上固定深度范围内等间隔地采样R个参考点。对于每个参考点，我们查询其在相应位置的地面真实占用情况O，以获得表示参考点是否被占用的二进制标签然后，我们将作为监督信息来优化我们的初始化模块，该模块由一个图像主干网络B和一个分布预测器M组成。分布预测器M直接将图像特征解码为沿相应射线的占用分布，这些分布与l使用二进制交叉熵损失进行匹配：

与以前使用激光雷达监督来预测深度值的初始化方案不同，我们的方法学习的是整体的占据分布，而不仅仅是场景的可见表面，并且不需要任何额外的模态作为监督信息。

总体而言，我们的基于分布的初始化模块用于初始化高斯分布，这些高斯分布随后被送入到如GaussianFormer中所述的B个基于注意力的架构块中。每个块由自编码、图像交叉注意力和细化模块组成，其中概率高斯属性稳步提高，然后，通过我们提出的新方法（鼓励更高程度地利用高斯分布）对所得高斯分布进行聚合。

实验对比分析

参考

[1] Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

一些基础介绍

相关工作回顾

GaussianFormer-2方法

3D 语义高斯表示

概率高斯叠加

Distribution-Based Initialization

实验对比分析

参考