冠军方案详解 | CVPR 2024 全球自动驾驶挑战赛浪潮信息 F-OCC 方案实践

汽车 2024-07-26 10:00 辽宁

近日，在全球权威的CVPR 2024自动驾驶国际挑战赛（Autonomous Grand Challenge）中，浪潮信息AI团队所提交的“F-OCC”算法模型以48.9%的出色成绩斩获占据栅格和运动估计(Occupancy & Flow)赛道第一名。

图1 浪潮信息AI团队斩获占据栅格和运动估计赛道第一名

本篇文章将根据浪潮信息提交的技术报告“3D Occupancy and Flow Prediction based on Forward View Transformation”，详解其使用的模型架构、优化措施和实验结果。

PART.01

背景与挑战

图2 Occupancy and Flow示意图

3D场景感知在自动驾驶系统中扮演着非常重要的角色。当前城市道路交通环境中，道路布局复杂、交通参与元素多样，对自动驾驶感知任务提出了极大的挑战。传统的三维物体检测方法使用3D框来描述物体的位置、大小和方向，缺乏对物体复杂几何形状的详细描述。同时，此类方法大多只关注目标物体，如车辆、行人、自行车等，缺乏对路面、人行横道、建筑物等静态交通元素的检测。占据栅格是一种新的自动驾驶场景表示，其将车辆周围3D空间进行体素化，并对每个立体网格添加占据、语义和运动信息。占据栅格预测需要对3D空间中的每个体素的占据信息和语义标签进行预测，为自动驾驶系统提供更精细、全面的场景感知信息，以提升自动驾驶系统在复杂场景下的安全性和可靠性。

基于相机数据的3D场景感知框架可以大致分为三类。第一类是以LSS和BEVDet为代表的前向投影方法。这类方法利用相机内参、外参数据，将图像特征通过估计的图像深度信息，投影到以车辆为中心的3D空间，并进行体素化以得到3D特征。第二类是以BEVFormer为代表的逆向投影方法。其首先在3D空间中构建查询点，然后通过相机内参和外参将查询点投影到2D图像特征空间，以获取对应的图像特征信息。第三类是以FB-OCC为代表的双向投影方法，这类方法融合上述两种方法来构建3D特征。

PART.02

方法介绍

2.1

整体架构

F-OCC模型采用了前向投影框架以兼顾准确度与运行效率。首先，多摄像头数据通过图像编码网络，得到2D图像特征。然后，深度预测网络利用2D图像特征估计每个特征点的深度信息。利用估计的深度信息，模型将图像空间中的2D特征投影到以车辆自身为中心的3D空间，并进行体素化。3D编码网络对得到的3D特征进行特征增强，以提升其表征能力。最后，检测网络输出3D空间中每个点的占据信息、语义标签和运动信息预测。图3为F-OCC的模型架构图。

图3 模型架构图（右上：不同颜色表示不同类别的体素，右下：颜色代表速度方向，亮度代表速度大小，背景体素为灰色）

2.2

优化措施

2.2.1 数据预处理

图4 掩模生成过程示意图（左：原始真值示意图；中：模拟激光射线示意图；右：掩模后真值示意图）

本次挑战提供的训练数据中，很多相机无法直接观测到的体素点也被标记了语义信息，例如，被其它物体遮挡的体素、物体内部不可见的体素。这些体素数据在训练过程中，会对基于相机数据的预测网络的优化产生干扰。参考SparseOcc，本方法对真值数据进行掩模处理。如图4中间子图，在训练过程中，根据车辆行驶轨迹模拟多个LiDAR发射点，并在每个发射点模拟生成多束激光射线，每束激光射线终止于触碰到的第一个有语义信息的体素。激光射线触碰的占据体素和与发射点之间的非占据体素标记为True，其余的体素点标记为False，以此生成真值体素的掩模标签。训练过程中，只用掩模标记为True的体素进行模型训练，忽略掉标记为False的体素点。图4右图展示了掩模后的有效体素。可以看到，在模型训练中，遮挡的点或者物体内部的点，没有参与模型的训练。

图5 掩模示意图与改进

模型预测过程中，3D感知区域边缘会出现很多错检点。原因之一是在掩模生成过程中，忽略了部分感知区域边缘的体素信息。推理过程中，由于深度估计的误差，部分检测范围外的物体特征映射到了检测区域内，导致错检。基于这种考虑，我们对掩模生成方案进行了优化，在检测范围的边缘附近随机添加了20%的体素点，参与模型训练。优化前后的有效体素可视化如图5右图。优化后，模型的Occ_score从0.32提升到0.34。

2.2.2 图像基础网络

图像编码网络的性能对整个模型的预测精度非常重要。考虑到模型的运算效率和预测精度寻求，我们选择FlashInternImage系列的图像编码模型作为模型的图像编码网络。这种网络优化了InternImage网络中的DCN算子，提升了模型的检测速度和检测精度。在测试实验中，我们使用了FlashInternImage-Tiny和FlashInternImage-Large进行测试。在最终版本中，我们使用了FlashInternImage-Large，其包含了大约220M的模型参数。

2.2.3 可形变3D卷积

图6 可形变3D卷积示意图

相比于传统的卷积操作，可形变卷积具有较大的感知范围和较强的编码能力，其在图像检测任务上展示了较强的性能。本模型将可形变卷积算子DCNv4在3D特征上进行了拓展。在3D体素特征编码模块中，传统的3D卷积算子替换为可形变3D卷积算子，提升了模型的整体检测能力。为提升模型的运算速度、降低模型的显存消耗，我们使用CUDA对DCN3D进行了实现与优化。相较于Pytorch版本，CUDA实现版本提升了模型的运算速度，同时降低了显存消耗。

PART.03

实验结果

表1 不同设置下的占据栅格和运动预测表现

为验证优化措施的有效性，本文在Validation数据子集上进行了消融实验，结果如表1所示。Baseline为官方提供的基于BEVFormer的预测模型。Version A中，我们在基础模型的训练中添加了可视化掩模的数据预处理。为降低类别不均衡，这两种方法中，我们在非占据的体素中随机挑选了20%参与训练。在Version B到Version D的实验中，我们以FB-OCC为框架，测试了掩模和DCN3D的有效性。其中，Version B使用初始的掩模数据进行训练，Version C使用改良的掩模数据进行训练。Version D中，我们将3D体素编码中的传统3D卷积算子替换为DCN3D算子。通过结果可见，基于掩模的数据预处理和DCN3D都可以提升模型的检测精度。Version E中，我们采用了前向投影架构，并将Image backbone替换为FlashInternImage-Tiny。在version F、G、H中，我们分别测试了骨架网络、图像尺寸和体素分辨率对预测结果的影响。通过表格可见，提升图像估价、图像尺寸和体素分辨率可以提升模型的检测性能。

最终提交结果的模型骨架为F-Occ，基础网络为FlashInternImage-L，图像尺寸为1600x640，体素分辨率为0.4m。最终综合Occ得分为0.489。在检测头中，Flow预测分支与Occupancy预测分支的网络结构相似。后处理过程中，在输出Flow预测结果前，我们对预测的Flow估计进行了处理。我们将所有占据网络预测分支中估计为背景（非前8类）或者Free的体素对应的Flow值设置为0。模型没有进行TTA（test-time augmentation）和模型集成的操作。

PART.04

总结

本文介绍了获得占据栅格和运动估计赛道第一名的“F-OC”算法模型。模型通过数据预处理、图像基础网络筛选、算子优化等措施，提升了对占据栅格和运动估计的检测能力。

参考文献

[1]Jonah Philion and Sanja Fidler. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d. In Proceedings of the European Conference on Computer Vision, 2020

[2]Junjie Huang and Guan Huang. Bevdet4d: Exploit temporal cues in multi-camera 3d object detection. ArXiv 2022

[3]Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, et al. Efficient deformable convnets: Rethinking dynamic and sparse operator for vision applications. ArXiv, 2024

[4]Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view representation from multi-cameraimages via spatiotemporal transformers. ECCV, 2022

[5]Zhiqi Li, Zhiding Yu, David Austin, Mingsheng Fang, Shiyi Lan, Jan Kautz, and Jose M Alvarez. Fb-occ: 3d occupancy prediction based on forward-backward view transformation. ArXiv, 2023

[6]Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, and Limin Wang. Fully Sparse 3D Occupancy Prediction. ArXiv 2023

[7]Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, et al. Internimage: Exploring large-scale vision foundation models with deformable convolutions. CVPR, 2023

公号👇发消息“我来了”，可直接领取“10G+自动驾驶相关资料”

<- 联系 & 声明 ->

【声明】除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

转发、点赞、在看

，安排一下？

http://mp.weixin.qq.com/s?__biz=Mzg5OTA2MDA0MA==&mid=2247518591&idx=1&sn=e87098c07430e68057b39995e1f2481d

ADS智库

聚焦 ADAS \x26amp; ADS 相关内容，公号发消息『我来了』免费领取 10G+ 自动驾驶资料

最新文章

技术趋势 | 2025年度中国汽车十大技术趋势发布，多项智驾技术入选

主控拆解 | 小米汽车智驾/智能座舱控制器

关于端到端，地平线丢出一关键招数

端到端的另一种声音：听一听 Mobileye CEO 的观点

Kalman Filter For Dummies

倒计时2天｜2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即！

近万字干货 | C-NCAP 2024 ADAS 主动安全导读与分析【建议收藏】

一图看懂｜GB/T 44461 智能网联汽车组合驾驶辅助系统技术要求及试验方法

端到端对传统的自动驾驶算法开发影响有多大？

大盘点 | 自动驾驶中的规划控制概述

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

PlanKD：压缩的端到端自动驾驶运动规划器的第一个知识蒸馏框架（CVPR 2024）

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

24 年 8 月国内自动驾驶领域中标项目一览

自动驾驶三大主流芯片架构分析

端到端自动驾驶的秘密（三）5 家可能支持/潜在支持端到端架构的芯片企业方案介绍

【预告】2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即，报名通道已开启！

端到端自动驾驶的秘密（二）概述

自动驾驶哪些技术必须掌握？

从定点到SOP，汽车零部件开发的关键节点解析

端到端自动驾驶的秘密（一）导读篇

自动驾驶哪些技术必须掌握？

自动驾驶域控制器的来龙去脉（2024版）：L3、大模型、还是舱驾一体？

说人话版 GB_T 34590，看完带你入门功能安全

线上直播注册 | 2024 MathWorks 中国汽车年会

冠军方案详解 | CVPR 2024 全球自动驾驶挑战赛浪潮信息 F-OCC 方案实践

干货 | 详解芯片内部各个电路结构

E-NCAP 2024 高速公路和城际辅助系统-测试评估规则介绍

1.5 万多字 Robotaxi 产业详解

从 ECU 系统视角理解 CAN 通讯需求

智驾激光雷达新趋势

中国科学院大学：通过隐式世界模型增强端到端自动驾驶

干货 | 2 万字综述多模态大型语言模型（MLLM）

2024 年车载摄像头趋势

功能安全实例：LKA，ACC

域控拆解 | 上汽智己 ICC 智算域控制器设计方案

地平线 VADv2：通过概率规划实现矢量化端到端自动驾驶

干货 | 一份相机标定指南

清华等：端到端自动驾驶系统的关键技术与发展趋势

清华 && 地平线 SparseDrive：重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法！

小鹏理想华为等多家公司都推出端到端方案了，后面的岗位都会倾向于这个方向吗？

对端到端的系统架构闭环的思考

30 多家国内车企背后庞大的汽车供应链盘点！建议收藏~

Delphi：更适合端到端模型的 world model，更长更真更可控！（理想汽车&西湖大学）

NOA 智驾背后的关键运作奥秘被这本书讲透了

24 年 5 月国内自动驾驶领域中标项目一览

李想是真懂自动驾驶细节

功能安全入门 | SoC 设计漫谈

智能车『智商测试体检表』

初探自动驾驶 SOC 芯片设计流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉