点击下方卡片,关注“Ai fighting”公众号
作者| xiandan guo 编辑| Aifighting
Abstract
自动驾驶需要对三维环境的全面理解,以促进运动预测、规划和建图等高级任务的实现。在本文中,我们提出了DriveMLLM,一个专门设计用于评估多模态大语言模型(MLLMs)在自动驾驶中空间理解能力的基准。DriveMLLM包括2734张前置摄像头图像,并引入了绝对和相对空间推理任务,配以语言多样化的自然语言问题。为了衡量MLLMs的表现,我们提出了专注于空间理解的新评价指标。我们对几个最先进的MLLMs在DriveMLLM上的表现进行了评估,结果揭示了当前模型在驾驶环境中理解复杂空间关系的局限性。我们认为,这些发现强调了需要更先进的基于MLLM的空间推理方法,并突显了DriveMLLM在推动自动驾驶研究中的潜力。
代码获取:https://github.com/XiandaGuo/Drive-MLLM
欢迎加入自动驾驶实战群
Introduction
基于视觉的自动驾驶系统的主要任务之一是通过视觉图像或视频实现整体的3D场景理解,这些信息本质上为运动预测、规划和地图构建等高级任务提供了基础支持。尽管借助于各种大规模数据集,包括检测、跟踪、光流估计和语义分割,在每个对象为中心的识别任务上取得了巨大进展,然而,RGB图像中涉及到的对象间空间关系推理却被忽视了,即便其在实现全面的3D场景理解中至关重要。
在计算机视觉领域,图像内的空间关系推理已经通过大规模视觉基因组数据集得到了深入研究。然而,以前的工作主要集中在简单的关系上。例如,左/右和上/下是相对位置关系。这些简单的关系远不能充分表示3D场景中存在的潜在复杂空间关系。近年来,大语言模型(LLM)的兴起在很大程度上释放了应对各种高级视觉任务的潜力。
尽管在各种基于多模态大语言模型(MLLM)的任务上取得了上述重大进展,但基于MLLM的自动驾驶中空间理解仍有待解决。如前两段所述,LLM之前的空间理解一致集中于每个对象的识别任务。然而,理解对象间的空间关系对于实现高级且全面的自动驾驶场景理解至关重要。受益于LLM的巨大潜力及近年来所取得的进展,我们提议通过利用MLLM来解决高级的对象间空间理解问题。在本文中,我们提出了一个大规模基准,称为DriveMLLM,专为基于MLLM的自动驾驶空间理解任务量身定制。
我们从大规模自动驾驶数据集nuScenes中精心筛选了DriveMLLM的内容。由于nuScenes数据集包含来自六个摄像头的图像,覆盖了完整的360°视野,它是构建DriveMLLM基准的理想数据源,并确保了所策划的基准基于现实的驾驶场景。具体而言,我们集中于nuScenes数据集验证分割中的前置摄像头图像,精选了880张具有清晰外观的目标对象图像。在空间关系方面,我们关注绝对空间推理和相对位置关系推理。同时,我们进一步构建了语言多样化和语境相似的自然语言问题(如图2所示),并提出了新的对应评价指标,用于评估各种MLLM的空间理解能力。我们在各种MLLM模型上对DriveMLLM进行了全面评估,如图1所示。
3.DriveMLLM基准
近年来的进展表明,多模态大语言模型(MLLMs)已被直接应用于自动驾驶和具身智能,这些领域高度依赖复杂的空间感知和推理。然而,这些工作缺乏对MLLMs空间推理能力的详细研究,以证明当前MLLMs在空间信息上的可靠性。在本节中,我们介绍了如何构建DriveMLLM基准,其中第3.1节详细描述了我们构建该基准的数据来源,第3.2节详细说明了标签构建过程和筛选过程。
3.1 数据来源
我们使用nuScenes数据集构建了基准,这是一个专为自动驾驶研究设计的大规模公共数据集。它收集了丰富的传感器数据,包括覆盖360°视野的六个摄像头的图像,以及LiDAR、雷达和GPS/IMU数据。该数据集在波士顿和新加坡的城市环境中采集,涵盖了多样化的交通状况、天气场景和不同时段。这种多样性确保了模型在各种真实驾驶场景中得到测试,从而增强了评估的稳健性。
对于我们的基准,我们专注于nuScenes数据集验证分割中前置摄像头的图像。这部分数据包含了动态和静态对象(如车辆和行人)的复杂场景。这些图像具有高分辨率,并附有全面的标注,非常适合需要详细空间理解的任务。
3.2 数据筛选
我们通过一个精细的数据筛选和优化过程,精选了880张图像。这一多步骤筛选过程确保了每张图像都支持明确的空间推理。数据筛选过程包括以下四个主要步骤:
1.从nuScenes数据集中初步选择图像
我们首先从nuScenes数据集验证集中提取前置摄像头的图像。这次初步选择获得了6019张包含车辆和行人等感兴趣对象的图像。
2.有效性和相关性筛选
为了确保适合空间推理评估,我们应用了严格的筛选标准:
(1) 边缘重叠筛选:排除物体中心不在画面内的对象,因为它们过于边缘化,不适合有效评估(见图3(a))。此步骤保证了被分析对象的完整性。
(2) 对象大小筛选:排除宽度小于40像素的行人和面积小于2000像素的车辆,因为它们太小,难以进行可靠评估(见图3(b))。此步骤确保了对象的可见性和辨识度。
(3) 遮挡筛选:去除遮挡显著的图像,定义为重叠对象的交集面积超过较小边界框的30%(见图3©)。此步骤保证了每个对象的足够可见性,避免过度遮挡。
(4) 歧义筛选:为了减少歧义,排除了包含同一对象类型多个实例的图像(例如,两个行人或多个车辆),如图3(d)所示。此步骤确保了每张图像中呈现的对象明确且唯一。
应用这些筛选标准后,我们保留了2734张具有清晰可见对象的图像。
3.人工审核与最终选择
尽管经过了自动化筛选,仍有一些图像存在诸如歧义、遮挡或未标注对象(如部分遮挡车辆的护栏)的问题。我们进行了人工审核,以进一步优化数据集,最终选择了880张包含单一、明确且清晰可见对象的图像,这些对象具有可辨属性。
4.生成自然语言描述
由于nuScenes数据集中缺乏自然语言描述(这是评估多模态LLMs的必要条件),我们为每个对象生成了标准化的描述性文本。为此,我们使用了一个具有130亿参数的InstructBLIP模型,以尽量减少对特定LLM约定的偏向。行人通过衣着描述(例如,“穿红色衬衫的行人”),车辆则通过颜色描述(例如,“红色卡车”),确保描述的一致性,并支持模型空间理解的稳健评估。
3.3 基准构建
为了评估MLLMs在自动驾驶场景中的空间理解能力并回答上述问题,我们设计了一个综合基准,重点关注两个关键方面:绝对空间推理和相对位置关系。
绝对空间推理任务
这些任务评估模型确定图像中对象精确空间信息的能力,需要理解像素级的细节。为提供直观理解,我们对这些任务进行了可视化并在图2中展示。
1.对象定位坐标:模型必须识别并提供图像中指定对象的精确坐标[x, y]。该任务测试模型准确定位图像平面内对象的能力。问题:图像中的{}位于哪里?
2.对象边界框确定:该任务要求计算指定对象的边界框坐标[minx, miny, maxx, maxy],以评估模型划定对象空间范围的能力。问题:图像中的{}的边界框是什么?
3.相机到对象距离估计:模型利用推测的空间信息计算相机到指定对象的欧几里得距离,评估模型的深度感知和距离估算能力。问题:相机距离{}有多远?
4.垂直距离计算:该任务要求根据对象的z坐标计算相机与对象之间的垂直距离,测试模型对垂直空间关系的理解。问题:相机与{}的垂直距离是多少?
相对位置关系任务
这些任务评估模型理解和比较场景中多个对象之间的空间关系的能力。为进一步说明这些概念,我们在图2中提供了视觉示例。
5. 最左/最右对象识别:模型确定两个指定对象中哪个在图像中更靠左/右,测试基于推测x坐标的横向空间推理能力。问题:{}或{}哪个更靠左/右?
6.前后位置确定:模型评估一个对象是否在另一个对象前面或后面,基于深度线索,测试对z坐标关系的理解。问题:{}在{}前面还是后面?
7.对象间距离测量:该任务要求计算两个对象在三维空间中的欧几里得距离,评估综合空间推理能力。问题:{}和{}之间的距离是多少?
8.对象间水平距离计算:模型计算两个对象之间的水平距离,定义为它们x坐标的绝对差值,测试精确的横向距离估算能力。问题:{}和{}之间的水平距离是多少?
任务格式和评估协议
对于每项任务,模型将被提供一张图像以及按指定格式生成的问题。为了确保一致性并便于自动评估,模型必须在指定标记内输出答案。
4.Experiment
4.1. 主要结果
模型在相对和绝对空间推理任务上均进行了评估。在表1中,我们报告了每个空间评估的准确率以及每个模型在不同任务上的总体准确率分数(AccS)。Gemini-1.5-Flash在所有实验设置中均始终获得最高的AccS,表明其具有卓越的空间推理能力。Gemini-1.5-Flash在所有样例评估中均获得最佳分数,超越了其他模型。
然而,另一个重要指标是成功率。在某些场景中,MLLM可能无法回答问题。在表3中可以看到不同样例设置下的效率分数(EffS)。根据第4.2.3节提到的公式,我们在表2中报告了基准测试的最终分数。我们最终选择了单样例设置作为最终基准测试结果,因为大多数模型在此设置下达到了最高的EffS。结论保持不变,Gemini-1.5-Flash在空间理解能力方面优于其他模型。这一结果是合理的,因为在所有这些模型中,只有Gemini官方承认其模型进行了空间理解能力的微调。
4.2. 讨论
少样例学习的影响:当提供单样例和五样例示例时,所有模型的性能均有所提升。额外的上下文帮助模型更好地理解任务要求,从而提高了AccS和EffS。例如,GPT-4o在零样例时的AccS为43.16%,而在五样例设置中提升至55.40%。
模型大小与性能:与常见观察结果相反,我们发现模型大小的增大并未显著提升其在空间任务上的性能。这一结论与现有关于多模态大模型的研究结果不同。这一现象表明,当前的SOTA MLLMs在空间理解方面仍有很大的改进空间。例如,LLaVA-ov-72b和Qwen2-vl-72b在大多数任务的相对位置设置中,尤其是任务RHD和RD上,并未优于LLaVA-ov-7b和Qwen-vl-7b。
相对空间推理与绝对空间推理:模型在相对空间推理任务上的准确率高于绝对空间推理任务。这一趋势表明,模型更容易比较对象之间的位置,而不是计算精确的空间测量。这也是合理的,因为大多数语言模型的预训练检查点在与多模态能力桥接之前,仅接受了逻辑选择的训练,而非精确数值预测。然而,如果未来使用更多的空间数据集对MLLMs进行微调,这一问题可能会得到解决。
格式合规性:效率分数(EffS)在模型之间差异显著。像Gemini-1.5-Flash这样的模型在所有任务中均保持较高的EffS,表明其在输出格式上的一致性。由于篇幅限制,请参见表3了解具体结果。
样例数量:消融研究证实,增加提示中的示例数量在一定程度上可以增强模型性能。从零样例到单样例有显著提升,但在超过五样例后增益减少,表明增加示例数量的回报递减。
模型特定行为:不同模型对样例数量的响应不同。例如,LLaVA-ov-7b从零样例到五样例设置表现出显著提升,而Qwen2-vl-72b在不同样例设置中的表现不一致。这种差异表明某些模型比其他模型更能利用少样例学习的能力。
结论
本文作出了以下三大主要贡献:
1.本文提出了一个大型基准,称为DriveMLLM,专注于基于多模态大语言模型(MLLMs)的自动驾驶空间理解研究,这是一个尚未被讨论但极为重要的研究课题。
2.本文基于nuScenes数据集构建了DriveMLLM,包含880张图像和多样化的自然语言问题。DriveMLLM引入了绝对和相对空间关系推理任务,这对于实现全面的自动驾驶场景理解至关重要。
3.本文在各种MLLM模型上验证了DriveMLLM,显示出大多数MLLM模型在自动驾驶空间理解中的能力不足。反过来,这也展示了我们提出的DriveMLLM基准在推动进一步研究中的重要性和巨大潜力。
文章引用:DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。