华为BEV+OCC拿下第一

汽车 2024-11-29 13:51 北京

华为最新的论文《VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving》，10位作者中有5位来自华为诺亚方舟实验室，其余基本都是香港中文大学，且这其中还有3个人是在华为诺亚方舟实验室实习，可以说有8个人来自华为诺亚方舟实验室。VisionPAD提出了一种比较新颖的预训练方法来提升OCC性能，将OCC性能关键指标mIoU推高到45%，达到业内第一，学术界一般研究超前课题，但华为依然研究BEV+OCC，显示出传统算法还有很强的生命力。

图片来源：论文《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》

BEV+3D语义分割栅格占有法是目前性能最强的感知算法，栅格占有法一般缩写成OCC。虽然模块式端到端没有显性输出，但论到感知性能，传统算法是可以碾压端到端的，而端到端在决策规划、轨迹预测方面比传统算法潜力要深很多。

近年来主要的3D OCC研究论文荟萃（截至2024年6月）

Modality: C - Camera; L - LiDAR; R - Radar; T – Text。Feature Format: Vol - Volumetric Feature; BEV - Bird’s-Eye View Feature; PV - Perspective View Feature; TPV - Tri-Perspective View Feature; Point - Point Feature。Lightweight Design: TPV Rp - Tri-Perspective View Representation; Sparse Rp - Sparse Representation; TRDR - Tensor Residual Decomposition and Recovery。

Head: MLP+T - Multi-Layer Perceptron followed by Thresholding.

Task: P - Prediction; F - Forecasting; OP - Open-Vocabulary Prediction; PO - Panoptic Occupancy。Loss: [Geometric] BCE - Binary Cross Entropy, SIL - Scale-Invariant Logarithmic, SI - Soft-IoU; [Semantic] CE - Cross Entropy, PA - Position Awareness, FP - Frustum Proportion, LS -Lovasz-Softmax, Foc - Focal; [Semantic and Geometric] Aff - Scene-Class Affnity, MC - Mask Classifcation; [Consistency] SC - Spatial Consistency, MA - Modality Alignment, Pho -Photometric Consistency; [Distillation] KD - Knowledge Distillation。

表来源：论文《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》

3D OCC主要缺陷是数据集成本过高，绝大部分3D OCC算法都是使用强监督数据集，而3D OCC的数据集打造成本高昂，基本上无法使用机器标注，只能人工标注，费时费力费钱传统算法就是如此，而全局型端到端最大的优点就是可以使用完全非监督（自监督）数据，即数据集成本可以是零，而使用多模态大模型做全局型端到端更是大幅度节约成本，基本不需要算法工程师了，自动驾驶团队裁员95%都能正常运转。

Self-Supervised Learning（自监督学习）是一种无监督表示学习方法，其核心在于通过设计辅助任务（也称为“预训练任务”或“前置任务”）来挖掘数据自身的表征特征作为监督信号，从而提升模型的特征提取能力。为了自监督Self-Supervised Learning，业内有两条思路，一是对比学习，具体可以看论文《BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point Clouds》作者基本都来自宝马自动驾驶主要供应商法雷奥。二是MAE（Masked Autoencoders，即掩码自编码器）是一种在计算机视觉领域广泛应用的自监督学习方法。MAE通过在输入的图像或文本中随机遮盖部分数据（如图像中的patches或文本中的单词），然后让模型去预测被遮盖的部分，并将预测结果与真实的部分进行比较，计算误差作为损失。这种方法使模型能够直接重构被遮盖的数据，从而实现自监督学习。

Self-Supervised Learning vs Supervised Learning

图片来源：网络

对比学习和MAE这两种粗略coarse监督，无法捕捉到3D几何信息、语义信息和基于时间序列的动态元素，浙江大学提出了《UniPAD: A Universal Pre-training Paradigm for Autonomous Driving》，上海AI实验室提出了《Visual Point Cloud Forecasting enables Scalable Autonomous Driving》即ViDAR。UniPAD从体素特征重建多视角深度地图和图像来实现预训练，使用可微分函数体渲染（体渲染是一种基于逆光线传输方程的3D重建方法）重建一个完整的几何表示。ViDAR则是将transformer预测的下一帧和未来Lidar帧监督渲染的深度图结合。这两种方法都严重依赖Lidar深度信息的强监督来学习3D几何信息，而目前自动驾驶领域是以摄像头为核心，特别是BEV领域。顺便说一句，纯激光雷达感知性能远比纯视觉要好，两者融合，性能只有非常轻微的提升，几乎可以忽略不计。

华为在UniPAD上加以改进，下图是两者的对比

UniPAD vs. VisionPAD