全面理解运动预测、规划、建图!DriveMLLM:自动驾驶多模态的空间理解基准

科技   2024-11-25 07:02   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

作者:Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen

机构:Wuhan University、Chinese Academy of Sciences、Waytous、University of Technology Sydney、University of Oxford、TikTok、Xi’an Jiaotong University

原文链接:https://arxiv.org/abs/2411.13112

代码链接:https://github.com/XiandaGuo/Drive-MLLM

1. 导读

自动驾驶需要对3D环境有全面的了解,以促进运动预测、规划和映射等高级任务。在本文中,我们介绍了DriveMLLM,这是一个专门用于评估自动驾驶中多模态大型语言模型(MLLMs)的空间理解能力的基准。DriveMLLM包括2,734个前置摄像头图像,并引入了绝对和相对空间推理任务,并伴有语言多样的自然语言问题。为了测量多层线性最小模型的性能,我们提出了新的评价指标集中在空间理解。我们在DriveMLLM上评估了几个最先进的MLLM,我们的结果揭示了当前模型在理解驾驶环境中复杂空间关系方面的局限性。我们认为这些发现强调了对更先进的基于MLLM的空间推理方法的需求,并突出了DriveMLLM推动自动驾驶进一步研究的潜力。

2. 引言

基于视觉的自动驾驶系统的首要任务之一是从视觉图像或视频中实现对三维场景的整体理解,这为后续的高级任务(如运动预测、规划和地图构建)提供了基础信息。尽管我们在各种大规模数据集的辅助下,见证了以物体为中心的识别任务取得了巨大进展,包括检测、跟踪、光流估计和语义分割,但在自动驾驶中,从RGB图像进行物体间的空间关系推理却一直被忽视,尽管这对于实现三维场景的整体理解至关重要。

在计算机视觉领域,图像内的空间关系推理在大规模视觉基因组数据集的辅助下得到了深入研究。然而,先前的工作主要聚焦于简单关系。例如,左/右和上/下是相对位置关系。这些简单关系远不能充分表示三维场景中潜在的复杂空间关系。近年来,大型语言模型(LLM)的出现极大地解锁了解决各种高级视觉任务的潜力。尽管我们在基于多模态大型语言模型(MLLM)的任务上取得了上述巨大进展,但自动驾驶中的基于多模态大型语言模型的空间理解问题仍有待解决。如前两段所述,LLM时代之前的空间理解一致地聚焦于以物体为中心的识别任务。然而,物体间的空间理解对于实现高级且全面的自动驾驶场景理解至关重要。得益于LLM的巨大潜力和近年来的进步,我们提出利用MLLM来解决高级、物体间的空间理解问题。在本文中,我们提出了一个名为DriveMLLM的大规模基准,专为自动驾驶中的空间理解任务与MLLM量身定制。

我们从nuScenes数据集精心构建了DriveLLM,这是一个大规模自动驾驶数据集。由于nuScenes数据集包含来自六个摄像头的图像,覆盖了360°全视野,因此它成为构建DriveMLLM基准的理想数据源,并确保所构建的基准基于真实的驾驶场景。具体而言,我们重点关注了nuScenes数据集验证集中前置摄像头的图像。我们精选了880张包含清晰外观的感兴趣物体的图像。对于空间关系,我们既关注绝对空间推理,也关注相对位置关系推理。我们进一步构建了语言多样且上下文相似的自然语言问题,并提出了新的相应评估指标,以评估各种MLLM的空间理解能力。我们在各种MLLM模型上对DriveMLLM进行了综合评估。

3. 效果展示

不同MLLMs表现的可视化,通过成功率加权平均准确度衡量每个空间理解能力。

4. 主要贡献

我们对这项工作做出了以下三个主要贡献:

我们提出了一个名为DriveMLLM的大规模基准,用于自动驾驶中基于多模态大型语言模型(MLLM)的空间理解,这是一个尚未讨论但至关重要的研究课题。推荐课程:多传感器标定不得不聊的20种标定方案(Lidar/Radar/Camera/IMU等)

我们基于nuScenes数据集构建了DriveMLLM。它包含880张图像和多样化的基于自然语言的问题。DriveMLLM引入了绝对和相对空间关系推理任务,这对于实现全面的自动驾驶场景理解至关重要。

我们在各种MLLM模型上验证了DriveMLLM,结果显示大多数MLLM模型在自动驾驶空间理解方面能力不足。反过来,这也展示了我们所引入的DriveMLLM基准在促进进一步研究方面的重要性和巨大潜力。

5. 方法

最近的进展已经看到MLLM直接被用于自动驾驶和具身智能,这极大地依赖于复杂的空间感知和推理。然而,这些工作缺乏对MLLM空间推理能力的详细研究,无法证明当前MLLM在空间信息方面的可靠性。

5.1 数据源

我们使用nuScenes数据集的数据构建了我们的基准,这是一个专门为自动驾驶研究设计的大规模公共数据集。它收集了丰富的传感器数据,包括来自六个摄像头的图像(覆盖360°全视野),以及激光雷达、雷达和GPS/IMU数据。该数据集是在波士顿和新加坡的城市环境中采集的,涵盖了各种交通状况、天气场景和一天中的不同时间段。这种多样性确保了模型在各种真实驾驶场景中进行测试,增强了评估的鲁棒性。

对于我们的基准,我们重点关注了nuScenes数据集验证集中前置摄像头的图像。该子集包含复杂场景,其中有动态和静态物体,如车辆和行人。这些图像具有高分辨率,并附有全面的注释,使其成为需要详细空间理解任务的理想选择。

5.2 数据过滤

我们通过细致的数据过滤和细化过程,精心构建了一个包含880张图像的数据集。这一多步骤过滤过程确保了每张图像都支持明确的空间推理。数据过滤过程包括以下四个主要步骤:

1、从nuScenes中初步选择图像:我们首先从nuScenes数据集验证集中提取前置摄像头的图像。这一初步选择产生了6,019张包含感兴趣物体(如车辆和行人)的图像。

2、有效性与相关性筛选 以确保空间推理评估的适用性,我们采用了严格的筛选标准:

• 边缘侧重筛选:我们排除了中心不出现在画框内的物体,因为这些物体过于边缘化,不利于有效评估(见图3(a))。这有助于保持待分析物体的完整性。

• 物体大小筛选:我们排除了边界框宽度小于40像素的行人以及边界框面积小于2000像素的车辆,因为它们太小,无法进行可靠评估(见图3(b))。这确保了物体的充分可见性和辨识度。

• 遮挡筛选:我们移除了显示显著遮挡的图像,即重叠物体的相交区域超过较小边界框的30%(见图3(c))。这保证了每个物体都足够可见,不过度被遮挡。

• 歧义筛选:为了减少歧义,我们排除了包含相同物体类型多个实例的图像(例如,两个行人或几辆车),如图3(d)所示。这确保了每张图像都呈现出一个独特、无歧义的评估对象。

应用这些筛选标准后,我们保留了2734张包含清晰可见物体的图像。

3、人工审核与最终选择 尽管进行了自动化筛选,但一些图像仍存在歧义、遮挡或未标记物体(例如,护栏柱部分遮挡车辆)等问题。我们进行了人工审核,以进一步完善数据集,选择了880张包含单一、无歧义、清晰可见且具有可辨识属性的物体的图像。

生成自然语言描述 为了解决nuScenes数据集中缺少自然语言描述的问题(这对于评估多模态大型语言模型至关重要),我们使用了一个130亿参数的InstructBLIP模型为每个物体生成标准化的描述性文本,以最小化对特定大型语言模型惯例的偏见。行人通过衣物(例如,“穿红色衬衫的行人”)来识别,车辆通过颜色(例如,“红色的卡车”)来识别,从而确保描述的一致性并支持对模型空间理解能力的稳健评估。

5.3. 基准构建

为了评估自动驾驶场景中多模态大型语言模型的空间理解能力,并回答上述提出的问题,我们设计了一个全面的基准测试,重点关注两个关键方面:绝对空间推理和相对位置关系。

绝对空间推理任务 这些任务评估模型确定图像中物体精确空间信息的能力,要求理解像素级别的细节。为了提供直观理解,我们对这些任务进行了可视化,并在图2中展示。

物体定位坐标:模型必须识别和提供图像中指定物体的精确坐标[x, y]。此任务测试模型在图像平面上准确定位物体的能力。

问题:{}在图像中的什么位置?

物体边界框确定:此任务涉及计算特定物体的边界框坐标[min x, min y, max x, max y]。它评估模型划定物体空间范围的能力。

问题:{}在图像中的边界框是什么?

摄像机到物体距离估计:模型使用推断的空间信息计算摄像机到指定物体的欧几里得距离。这评估模型的深度感知和距离估计能力。

问题:摄像机距离{}有多远?

垂直距离计算:此任务要求根据物体的z坐标计算摄像机与物体之间的垂直距离。这测试模型对垂直空间关系的理解。

问题:摄像机距离{}的垂直距离是多少?

相对位置关系任务 这些任务评估模型理解和比较场景中多个物体之间空间关系的能力。为了进一步说明这些概念,我们在图2中提供了视觉示例。

最左/最右物体识别:模型确定两个指定物体中哪一个在图像中更靠左/右,基于推断的x坐标测试横向空间推理能力。

问题:{}和{}中,哪一个更靠左/右?

前后位置判断:模型根据深度线索评估一个物体是否在另一个物体前面或后面,评估对z坐标关系的理解。

问题:{}在{}的前面还是后面?

物体间距离测量:此任务涉及计算三维空间中两个物体之间的欧几里得距离,评估全面的空间推理能力。

问题:{}和{}相距多远?

物体间水平距离计算:模型计算两个物体之间的水平距离,定义为它们x坐标的绝对差值,测试精确的横向距离估计能力。

问题:{}和{}之间的水平距离是多少?

任务格式与评估协议 对于每个任务,模型都会收到一张图像和一个按指定格式提出的问题。为确保一致性和便于自动化评估,模型必须在指定的标记内输出答案。

6. 实验结果

这些模型在相对和绝对空间推理任务上均进行了评估。在表1中,我们报告了每个空间评估的准确性以及每个模型在不同任务上的综合准确性得分(AccS)。在所有实验设置中,Gemini-1.5-Flash始终取得最高的AccS,这表明其空间推理能力卓越。Gemini-1.5-Flash在所有镜头评估中获得最佳分数,表现优于其他模型。

然而,另一个重要的指标是成功率。在某些场景下,多模态大语言模型(MLLM)可能无法回答问题。表3展示了不同镜头设置下的效率得分(EffS)。根据第4.2.3节中提到的公式,我们在表2中报告了基准的最终得分。我们最终选择单次拍摄设置作为我们的最终基准结果,因为大多数模型在此设置下达到了最高的EffS。结论依然相同,即Gemini-1.5-Flash在空间理解能力方面优于其他模型。这一结果是合理的,因为在所有这些模型中,只有Gemini官方承认其模型经过微调,具备空间理解能力。

7. 总结 & 未来工作

在本文中,我们从nuScence数据集中收集数据,并创建了首个基准数据集,该数据集包含8个方面的问题,用于评估自动驾驶场景下的空间理解能力。结果凸显了当前多模态大语言模型在自动驾驶环境中的空间推理能力的现状和局限性。尽管像Gemini-1.5-Flash这样的模型表现出色,但在达到人类水平的理解方面仍存在差距,尤其是在绝对空间任务中。本工作的局限性也很明确,即仅提出了DriveMLLM基准,但尚未提出明确的方法来提升多模态大语言模型的空间能力。未来的工作应探索先进的训练技术,并融入领域特定知识,以增强多模态大语言模型的空间理解能力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章