自动驾驶之星
点击上方蓝字关注 自动驾驶之星
点击下方卡片,关注“自动驾驶之星”
自动驾驶需要全面理解3D环境,以促进诸如运动预测、规划和映射等高级任务。在本文中,作者介绍了DriveMLM,这是一个专门用于评估自动驾驶中多模态大型语言模型(MLMMs)空间理解能力的基准。DriveMLM包括2734个正面摄像头图像,并引入了绝对和相对空间推理任务,以及与语言多样性的自然语言问题相伴随。
为了衡量MLLMs的性能,作者提出了关注空间理解的全新评估指标。作者在DriveMLM上评估了几种最先进的MLLM,作者的结果揭示了当前模型在理解驾驶环境中复杂空间关系方面的局限性。
作者认为这些发现强调了需要更先进的基于MLLM的空间推理方法,并突显了DriveMLM推动自动驾驶领域进一步研究的潜力。
代码将在 https://github.com/XiandaGuo/Drive-MLLM上提供。
1 Introduction
自动驾驶系统的一个主要任务是从视觉图像或视频中实现对整体3D场景的全面理解[9],这实际上是实现进一步高级任务(如运动预测,规划[62, 8, 45]和地图构建[73, 19])的基本信息。尽管作者见证了在各种大规模数据集[20, 30, 56]的帮助下,以单个目标为中心的识别任务取得了巨大的进步,包括检测[34, 35],跟踪[38, 24],光学流估计[22, 55]和语义分割[17, 36],但自动驾驶系统在RGB图像中的目标间空间关系推理却未被忽视,尽管它在实现完全全面的3D场景理解方面具有极其重要的意义。
在计算机视觉领域,利用大规模视觉基因组数据集[40]进行图像空间关系推理已经得到了广泛研究[65]。然而,以前的研究主要集中在简单关系上。例如,左右和上下是相对位置关系。这些简单关系远远不能完全代表3D场景中可能存在的复杂空间关系。近年来,大型语言模型(LLM)[58, 70]的出现,极大地解锁了解决各种高级视觉任务的潜力。
虽然作者在多种多模态大型语言模型(MLLM)的各个任务上取得了巨大的进步和戏剧性的进展,但基于自动驾驶的空间理解的多模态大型语言模型仍待解决。如最后两段所述,在MLLM之前的阶段,空间理解普遍关注每个目标识别任务。然而,目标间的空间理解对于实现高级和全面的自动驾驶场景理解至关重要。得益于LLM的巨大潜力和近年来所取得的进步,作者提出通过利用MLLM解决高级、目标间的空间理解。在本文中,作者提出一个名为DriveMLLM的大规模基准,专门针对使用MLLM的自动驾驶空间理解任务。
作者精心挑选自 nuScenes [11] 数据集的 DriveLLM,这是一个大规模的自动驾驶数据集。由于 nuScenes [11] 数据集包含六个摄像头的图像,覆盖了完整的 视野,因此它成为了构建 DriveMLLM 基准的理想数据来源,并确保了精心挑选的基准建立在实际驾驶场景中。
具体而言,作者关注于 nuScenes [11] 数据集的验证分片中正面摄像头的图像。作者挑选了 880 张具有明显物体的图像。在空间关系方面,作者专注于绝对空间推理和相对位置关系推理。作者还进一步构建了语言多样且上下文相似的自然语言问题(如图2 所示),并提出了新的对应评估指标来评估各种 MLLM 的空间理解能力。作者在各种 MLLM 模型上全面评估了 DriveMLLM,如图1 所示。总之,作者对这项工作做出了以下三个主要贡献:
作者提出了一个名为DriveMLLM的大规模基准,用于研究自动驾驶中的多模态大语言模型(MLLMs),这是一个尚未受到高度重视且至关重要的话题。
作者基于nuScenes[11]数据集构建了DriveMLLM。该数据集包含880张图像和多种基于自然语言的疑问。DriveMLLM同时引入了绝对和相对空间关系推理任务,这对于实现对自动驾驶场景的全面理解至关重要。
作者在各种MLLM模型上验证了DriveMLLM,结果显示大多数MLLM模型在自动驾驶空间理解方面存在不足。同时,这也展示了作者引入的DriveMLLM基准在促进进一步研究方面的重要性以及巨大的潜力。
2 Related Work
Multimodal Large Language Models (MLLM)
近年来,得益于大型语言模型的巨大成功 ,一个新的研究领域专注于将基于自然语言的大型模型(尤其是GPT家族LLM)扩展到多模态大型语言模型(MLLM)。在这些模型中,将视觉集成到语言方面取得了戏剧性的进展,已经开发了各种视觉语言模型(VLM) 用于各种跨模态任务,如视觉问答(VQA) 和跨模态推理 ,得益于各种大规模图像文本数据集 。典型的VLM模型包括BLIP家族,LLaVA家族 和 Qwen-VL家族 。它们要么在网络架构上进行创新 ,要么采用新的训练策略 [6, 78]。
例如,在网络架构创新方面,QWen-VL [6] 和 MiniGPT-4 采用ViT [2] 网络作为视觉编码器,LLaVA [61] 则采用 CLIP ViT-L/14 [64] 进行视觉编码,而 InternVL [18] 采用 InternViT-6B [64] 进行视觉编码。在训练策略方面,QWen-VL [6] 采用三阶段策略:首先在大量图像文本对上进行预训练,然后跨七项主要任务进行多任务预训练,最后在超过350,000个对话上进行微调。MiniGPT-4 [78] 采用两阶段训练策略,首先在包括概念性描述 [13],LAION [67] 和 SBU [60] 的复合数据集上进行预训练,然后在高质量图像描述数据集上进行微调。
Multimodal Large Language Models Benchmark
在LLM时代,更多强大而全面的跨模态数据集已经筛选并发布,用于各种整体和多任务评估目的,极大地扩展了设计各种强大跨模态大语言模型框架的可能性。其中,MM-Yes/No [26] 是早期多模态 Yes/No 问题、视觉感知和语言推理任务的基准。MMBench [50] 扩展到涵盖更多主题和更强大的闭环评估设置。SeedBench [42, 41] 引入了更多的输入来源,如多图像输入和视频。
MM-Vet [74] 整合了之前数据集的六个子特征,实现了如OCR、关注识别的任务和数学等多任务推理能力。除了MM-Yes/No [26]、MMBench [50]、SeedBench [42, 41] 和 MM-Vet [74] 主要关注识别外,一些较新的数据集更关注更通用的AI能力。例如,MMMU [75] 收集了大量需要领域知识的疑问,以推动通用AI的边界。
HallusionBench [33] 数据集旨在模拟语言和视觉幻觉现象。MathVista [54] 专门针对基于图像(如图表、表格和示意图)的数学为中心的视觉问题。BLINK [27] 数据集引入了人类 Level 的感知能力,以实现整体视觉感知。Mega-Bench [14] 将多模态评估扩展到超过500个实际任务。尽管这些各种基准,但专注于自动驾驶空间理解的基准仍然缺失,作者将在本工作中填补这一空白。
3 DriveMLLM Benchmark
近年来,MLLMs被直接用于自动驾驶和具身智能,这些技术严重依赖复杂的空间感知和推理。然而,这些工作缺乏对MLLMs的空间推理能力的详细调查,以证明当前MLLMs在空间信息方面的可靠性。在本节中,作者介绍了如何构建DriveMLLM基准,其中3.1节提供了作者构建这个基准的数据源的详细描述。3.2节提供了标签构建和过滤过程的详细说明。
Data Source
作者构建了作者的基准,使用了来自nuScenes 数据集的数据,这是一个专门为自动驾驶研究设计的大规模公共数据集。该数据集收集了丰富的传感器数据,包括来自六个覆盖360°全景的摄像头的图像,以及LiDAR、雷达和GPS/IMU数据。该数据集在波士顿和新加坡的都市环境中 captured ,特征多种交通状况、天气场景和昼夜时间。这种多样性确保了模型在各种真实世界驾驶场景上进行测试,从而增强了评估的鲁棒性。
对于作者的基准,作者关注于nuScenes [11]数据集的验证子集中的正面摄像头图像。这个子集包括具有动态和静态目标的复杂场景,如车辆和行人。这些图像具有高分辨率,并附带全面的标注,因此对于需要详细空间理解的任务来说,它们是理想的选择。
Data Filtering
作者通过仔细的数据筛选和优化过程,构建了一个包含880张图像的数据集。这一多步骤的筛选过程确保了每张图像都支持明确的空间推理。数据筛选过程包括以下四个主要步骤:
作者首先从 nuScenes [11] 数据集的验证集提取图像。这一初始选择产生了6019张包含感兴趣物体的图像,如车辆和行人。
2 Filtering for Validity and Relevance
为了确保其适用于空间推理评估,作者采用了严格的筛选标准:
边重滤波器: 作者排除了不在图像内的目标的中心,因为它们过于边缘,不适合有效评估(参见图3(a))。这保持了正在分析目标的完整性。
目标大小滤波器: 宽度小于40像素的行人边界框和面积小于2000像素的车辆边界框被排除,因为它们太小,无法进行可靠评估(参见图3(b))。这确保了目标的充足可见性和可识别性。
遮挡滤波器: 作者删除了具有显著遮挡的图像,定义为重叠物体,其交集面积超过较小边界框(参见图3(c))的30%。这确保了每个物体保持足够的可见性,不会被过度遮挡。
模糊滤波器: 为了减轻歧义,作者排除了包含相同物体类型多个实例的图像(例如,两个人行或多个车辆),如图3(d)所示。这确保了每个图像都呈现了一个独特的、无歧义的物体进行评估。
在应用这些过滤器之后,作者保留了2,734张清晰可见物体的图像。
3 Manual Review and Final Selection
尽管进行了自动化过滤,但仍有一些图像存在问题,如歧义、遮挡或 未标注 的目标(例如,部分遮挡车辆的岗亭)。为了进一步优化数据集,作者进行了手动审查,并挑选出880张包含单一、明确且可识别属性的清晰目标的图像。
4 Generating Natural Language Descriptions
为了弥补 nuScenes 数据集中自然语言描述的缺失,这对于评估多模态语言模型至关重要,作者使用一个 13B 参数的 InstructBLIP 模型为每个物体生成标准化描述文本,以最小化特定语言模型的偏见。通过服装(例如,“穿红衬衫的行人”)识别行人,通过颜色(例如,“红卡车”)识别车辆,确保描述的一致性,并支持对模型空间理解的强大评估。
Benchmark Construction
为了评估自动驾驶场景下MLLMs的空间理解能力,并回答上述问题,作者设计了一个全面的基准,主要关注两个关键方面:绝对空间推理和相对位置关系。
绝对空间推理任务These任务评估模型在图像中确定物体的精确空间信息的能力,需要了解像素 Level 的细节。为了直观理解,作者在图2中可视化这些任务并呈现它们。
物体定位坐标: 模型必须识别并提供图像中指定物体的精确坐标 。该任务测试在图像平面内准确确定物体的能力。
问题: 在图像中的位置是什么?
物体边界框确定: 该任务涉及计算特定物体的边界框坐标。它评估模型区分物体的空间范围的能力。 问题: 图像中的的边界框是什么?
相机到物体距离估计:模型利用推理出的空间信息计算相机到特定物体的欧几里得距离,以评估模型的深度感知和距离估计能力。
问题:相机距离有多远?
垂直距离计算: 任务要求根据物体的坐标计算相机和物体之间的垂直距离。这测试了模型对垂直空间关系的理解。 _问题:相机距离有多远? 相对位置关系任务 这些任务评估模型在场景中理解并比较多个物体之间空间关系的能力。为了进一步阐明这些概念,作者在图2中提供了视觉示例。
左侧/右侧物体识别:模型确定图像中两个指定物体中,哪个物体位于更靠左/右侧,通过推理坐标来测试横向空间推理。问题:哪个物体更靠左/右侧,还是?
前后位置确定:模型根据深度线索判断一个物体是否在前一个物体前方,或是否在后一个物体后方,从而评估对坐标关系的理解。 _问题: 在的前面/后面?
物体间距离测量:该任务涉及在三维空间中计算两个物体之间的欧几里得距离,以评估全面的空间推理能力。 _问题:${\}{\}$ 之间的距离有多远?
水平距离计算:模型计算两个物体之间的水平距离,定义为它们在坐标上的绝对差值,以测试精确的横向距离估计。问题:和之间的水平距离是多少?
任务格式和评价协议:
对于每个任务,模型将获得一张图像和一个相应的问题,按照指定的格式格式化。为了确保一致性和方便自动化评估,模型必须在指定的 Token 内输出其答案。
4 Experiment
Experimental Setup
为了评估自动驾驶背景下 MLLMs 的空间推理能力,作者进行了使用之前描述的 DriveMLM 基准的实验。作者选择了包括 GPT-4o, GPT-4o-mini, LLAVA 视觉模型(LLAVA-ov-7b 和 LLAVA-ov-72b), Qwen2-VL 模型(qwen2-vl-7b 和 qwen2-vl-72b)以及 Gemini-1.5-Flash 在内的多种最先进的 MLLM 进行评估。这些模型在规模和训练数据方面存在差异,提供了对不同架构的全面评估。
作者在三种实验设置下测试了每个模型:零样本、单样本和五样本学习。在零样本设置中,模型在没有特定任务示例的情况下进行评估。单样本和五样本设置为模型提供了一个和五个示例,以评估它们利用少样本学习提高性能的能力。
所有模型都使用标准化的提问方式,并要求严格按照指定的格式生成输出,以确保评估过程中的公平性和一致性。
Metrics
为了定量评估模型在DriveMLLM基准测试上的性能,作者定义了一组度量指标,这些指标可以衡量模型在各种任务上的准确性和效率。
4.2.1 Accuracy Metrics
准确度指标量化了模型对不同类型任务预测的正确性。每个样本的个体准确度根据任务类型定义如下:
二分类准确率(任务L/R, F/B)对于二分类任务,如左/右(L/R)判断和前/后(F/B)判断,个体准确率 被定义为:
其中:- 是模型对样本 的预测标签。- 是样本 的真实标签。
整体准确性 是由各个个体准确性之和求平均得出的:
基于距离的准确性(任务 RHD、RD、CVD、CD)对于涉及距离测量的任务,如相对水平距离(RHD)、相对距离(RD)、摄像头垂直距离(CVD)和摄像头距离(CD),个体准确性 采用如下公式计算:
在此AI论文中:- 是模型对样本 的预测距离。- 是样本 的真实距离。- 是控制偏差惩罚的缩放因子,设定为 。
位置定位准确性(任务PPos)对于像素位置定位任务,个体准确性 是基于预测和 GT 坐标的欧几里得距离误差:
在此,作者定义 - 是模型对样本 的预测坐标。- 是样本 的真实坐标。- 是一个缩放因子,设置为 。
边界框精度(任务BBox)对于边界框定位任务,精度通过预测框和真实框之间的交点与边界的比值(IoU)来衡量:
在此,- 是模型对样本 的预测框。- 是样本 的真实框。 表示框的面积。
聚合准确率得分 聚合准确率得分(AccS)将所有任务和样本的个体准确率进行综合:
4.2.2 Efficiency Metrics
效率指标评估模型是否符合所需的输出格式,这对于自动化评估至关重要。对于每个样本 ,作者定义效率指标 为:
The Efficiency Score (EffS) 的计算公式为:
4.2.3 Final Score
模型在相对和绝对空间推理任务上进行了评估。在表1中,作者报告了每个空间评价的准确性以及每个模型在不同任务上的累积准确率(AccS)。Gemini-1.5-Flash在所有实验设置下都始终实现了最高的AccS,表明其具有卓越的空间推理能力。Gemini-1.5-Flash在所有射击评价中表现最佳,超越了其他模型。
然而,另一个重要的指标是成功率,在某些场景下,MLLM可能无法回答问题。不同设置下的效率得分(EffS)可见于表3。根据第4.2.3节提到的方程,作者在表2中报告了基准的最终得分。作者最终选择单次设置作为作者的最终基准结果,因为在这个设置下,大多数模型达到了最高的EffS。结论仍然相同,Gemini-1.5-Flash在空间理解能力方面优于其他模型。这个结果是合理的,因为在这所有模型中,只有Gemini官方承认该模型具有空间理解能力。
Discussion
少样本学习的 Impact: 所有模型在提供单次和五次示例后,性能都有所提高。额外的上下文有助于模型更好地理解任务需求,从而实现更高的AccS和EffS。例如,GPT-4o 在零样本设置下的AccS为43.16%,而在五次示例设置下提高到55.40%。
模型大小与性能:与常见的观察相反,作者发现模型大小增加时,在空间任务上的性能并未显著提高。这一结论与关于多模态大型模型现有研究的结果不同。这一现象表明,当前最先进的SOTA MLLMs在空间理解方面仍有很大的改进空间。例如,在相对位置设置下,LaMDA-ov-72b和Qwen2-vl-72b在大多数任务上并未分别优于LaMDA-ov-7b和Qwen-vl-7b,特别是在任务RHD和RD上。
相对空间推理与绝对空间推理:模型在相对空间推理任务上的准确性高于绝对空间推理任务。这一趋势表明,模型更容易比较物体的位置,而不是计算精确的空间测量。这也是合理的,因为大多数语言模型预训练预训练权重,在它们与多模型能力相结合之前,仅使用逻辑选择而不是精确的数字预测进行训练。然而,这个问题可能通过使用更多的空间数据集来微调MLLMs得到解决。
格式一致性:效率得分(EffS)在不同模型之间存在显著差异。像Gemini-1.5-Flash这样的模型在所有任务上都能保持较高的EffS,表明其对输出格式的符合程度保持一致。受限于篇幅,请参阅表3以获取结果。
数量:该消融研究证实,在 Prompt 中增加示例数量可以在一定程度上提高模型性能。虽然从零样本到一样本的改进显著,但超过五样本后,收益逐渐减少,表明增加额外示例的边际效应递减。
模型特定的行为:不同的模型对图片数量有不同的响应。例如,LLaVA-ov-7b从零样本到五样本设置上显示显著改善,而qwen2-vl-72b在不同图片设置上表现出不一致的性能。这种变化表明,某些模型比其他模型更擅长利用少样本学习。
5 Conclusion and Limitation Discussion
在本文中,作者从nuScence数据集中收集数据,并创建了第一个包含8个方面的基准数据集,以评估自动驾驶场景下的空间理解能力。
结果凸显了MLLM在自动驾驶场景下空间推理的当前能力和局限性。尽管像Gemini-1.5-Flash这样的模型展示了令人鼓舞的表现,但在实现人类 Level 的理解方面仍存在差距,尤其是在绝对空间任务方面。
本工作的局限性仍然清晰,本文仅提出了DriveMLM基准数据集,但尚未提出一种明确的方法来提高MLLM的空间能力。未来的工作应探索先进的训练技术,并纳入特定领域的知识,以增强MLLM的空间理解能力。
参考文献
[0]. DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving.
知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧