北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

科技 2024-12-04 12:45 北京

写在前面 & 笔者的个人理解

开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。在本文中，我们介绍了OpenAD，这是第一个用于3D目标检测的现实世界开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型（MLLM）集成的角案例发现和标注管道之上。所提出的管道以统一的格式为五个具有2000个场景的自动驾驶感知数据集标注corner case目标。此外，我们设计评估方法，评估各种2D和3D开放世界和专业模型。此外，我们提出了一种以视觉为中心的3D开放世界目标检测基线，并通过融合通用和专用模型进一步引入了一种集成方法，以解决OpenAD基准现有开放世界方法精度较低的问题。

项目链接：https://github.com/VDIGPKU/OpenAD

总结来说，本文的主要贡献如下：

提出了一个开放世界基准，同时评估目标检测器的领域泛化和开放词汇表能力。据我们所知，这是3D开放世界物体检测的第一个现实世界自动驾驶基准。
设计了一个与MLLM集成的标注管道，用于自动识别极端情况场景，并为异常目标提供语义标注。
提出了一种结合二维开放世界模型的三维开放世界感知基线方法。此外，我们分析了开放世界和专业模式的优缺点，并进一步介绍了一种融合方法来利用这两种优势。

OpenAD概览

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

由于现有3D感知数据的规模有限，直接训练基于视觉的3D开放世界感知模型具有挑战性。我们利用具有强大泛化能力的现有2D模型来解决这个问题，并为3D开放世界感知提出了一个以视觉为中心的基线。

如图4所示，最初采用任意现有的二维开放世界目标检测方法来获得二维边界框及其相应的语义标签。同时，缓存由2D模型的图像编码器生成的图像特征图。随后，引入了一个结合了多个特征和一些可训练参数的2D到3D Bbox转换器，将2D box转换为3D box。

具体来说，我们使用现有的深度估计模型，如ZoeDepth、DepthAnything和UniDepth，通过2D框获得裁剪图像的深度图。我们还包括一个可选的分支，该分支利用激光雷达点云和线性拟合函数，通过将点云投影到图像上来细化深度图。同时，为了消除2D边界框内不属于前景目标的区域，我们利用Segment Anything Model（SAM）以2D框为提示对目标进行分割，从而产生分割掩码。之后，我们可以使用像素坐标、深度图和相机参数为分割掩模构建伪点云。我们将伪点云投影到特征图和深度图上，并通过插值将特征分配给每个点。然后，我们采用PointNet来提取伪点云的特征fp。同时，2D边界框内的深度图和特征图沿着通道维度连接，其特征fc是通过卷积和全局池化得到的。最后，我们利用MLP来预测具有fp和fc级联特征的目标的3D边界框。

在此基线中，2D到3D Bbox Converter中只有少数参数是可训练的。因此，培训成本低。此外，在训练过程中，每个3D目标都充当此基线的数据点，从而可以直接构建多域数据集训练。

General and Specialized Models Fusion

在实验中，我们发现现有的开放世界方法或通用模型在处理属于常见类别的目标方面不如闭集方法或专用模型，但它们表现出更强的领域泛化能力和处理极端情况的能力。也就是说，现有的通用和专用模型是相辅相成的。因此，我们利用它们的优势，通过结合两种模型的预测结果，提出了一个融合基线。具体来说，我们将两种模型的置信度得分对齐，并使用双阈值（即IoU和语义相似性）执行非最大抑制（NMS），以过滤重复项。

实验结果

结论

在本文中，我们介绍了OpenAD，这是第一个用于3D目标检测的开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型集成的角案例发现和注释管道之上。该管道以格式对齐五个自动驾驶感知数据集，并为2000个场景注释角案例目标。此外，我们还设计了评估方法，并分析了现有开放世界感知模型和自动驾驶专业模型的优缺点。此外，为了应对训练3D开放世界模型的挑战，我们提出了一种结合2D开放世界模型进行3D开放世界感知的基线方法。此外，我们引入了一种融合基线方法，以利用开放世界模型和专用模型的优势。

通过对OpenAD进行的评估，我们观察到现有的开放世界模型在域内上下文中仍然不如专门的模型，但它们表现出更强的域泛化和开放词汇能力。值得注意的是，某些模型在域内基准测试上的改进是以牺牲其开放世界能力为代价的，而其他模型则不是这样。这种区别不能仅仅通过测试域内基准来揭示。

我们希望OpenAD可以帮助开发超越专业模型的开放世界感知模型，无论是在同一领域还是跨领域，无论是对于可见还是未知的语义类别。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

写在前面 & 笔者的个人理解

相关工作回顾

Benchmark for Open-world Object Detection

2D Open-world Object Detection Methods

3D Open-world Object Detection Methods

OpenAD概览

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

General and Specialized Models Fusion

实验结果

结论