摘要
点击下方卡片,关注“自动驾驶之星”
近年来,二维视觉-语言模型(VLMs)在图像-文本理解任务中取得了显著进展。然而,它们在3D空间理解方面的性能仍然有限,这对于具身智能至关重要。最近的进展利用了3D点云和多视图图像作为输入,取得了有希望的结果。然而,我们提出了一种纯粹基于视觉的解决方案,该方案受到人类感知的启发,仅依赖视觉线索进行3D空间理解。本文实证研究了VLMs在3D空间知识方面的局限性,揭示了它们的主要缺陷在于场景与单个帧之间缺乏全局-局部对应关系。为了解决这个问题,我们引入了GPT4Scene,这是一种新颖的VLM训练和推理中的视觉提示范式,有助于建立全局-局部关系,显著提高了室内场景的3D空间理解能力。具体来说,GPT4Scene从视频中构建3D鸟瞰图(BEV)图像,并在帧和BEV图像中标记一致的对象ID。然后,模型输入带有标记的拼接BEV图像和视频帧。在零样本评估中,GPT4Scene在性能上优于像GPT-4o这样的闭源VLMs。此外,我们还准备了一个包含165K文本注释的处理过的视频数据集来微调开源VLMs,在所有3D理解任务上达到了最先进的性能。令人惊讶的是,经过GPT4Scene范式的训练后,VLMs在推理过程中即使没有视觉提示和BEV图像作为显式对应关系也能持续改进。这表明所提出的范式有助于VLMs发展出理解3D场景的内在能力,为扩展预训练VLMs以进行3D场景理解提供了一种非侵入式的方法。
代码地址:https://gpt4scene.github.io
引言
具身人工智能(Embodied AI)指的是能够通过与物理环境的交互来执行各种任务的智能系统[10, 41, 68]。它在工业检测、智能家居和智慧城市中有广泛的应用[10, 21, 41]。3D场景理解涉及多模态语言模型对室内环境的整体布局以及物体之间的空间关系的理解[6, 13, 22]。因此,有效理解场景是具身智能的坚实基础。
目前,3D点云大语言模型(LLMs)是理解室内场景的一种流行方法,它使用点云作为输入,并将点特征与LLMs对齐以执行场景理解任务[21, 38]。然而,这种方法有几个局限性。首先,点云提供的细节信息有限,如精细的几何细节、材料属性和复杂的纹理。其次,尽管一些点LLMs[21, 40, 121]尝试使用点云和多图像作为输入,但它们在文本、图像和点云模态的对齐方面面临挑战。此外,点云与文本/视频数据量的显著不平衡也带来了进一步的复杂性。
这些局限性促使我们探索使用纯视觉输入进行室内场景理解的方法。这种方法更接近人类的感知方式,因为人们可以在不依赖明确的3D数据(如点云)的情况下理解3D场景。视觉-语言模型(VLMs)已在图像-文本多模态任务中展示了令人印象深刻的结果[54, 61, 90, 119]。然而,它们在理解沉浸式3D室内场景方面的应用尚未得到充分探索。我们进行了初步研究,通过直接向VLMs输入场景视频来调查这一潜力。我们的结果表明,这种方法导致VLMs无法理解3D场景。核心问题在于缺乏全局场景信息和每个帧的局部位置与国际背景之间的错位。
4. 方法论
在本节中,我们将介绍我们的方法。我们在第4.1节中介绍了GPT4Scene框架,该框架通过视频输入增强VLMs的3D场景理解能力。在第4.2节中,我们讨论了如何利用零样本提示来解锁强大的闭源VLMs的潜力。在第4.3节中,我们应用微调来增强较小规模的开源VLMs的3D理解能力。
4.1 GPT4Scene框架
图3展示了GPT4Scene框架,并解释了提供全局场景信息和对象级注释如何提高VLMs对3D场景的理解。首先,我们假设拍摄的视频是在室内场景中移动时捕获的。它由N帧组成,表示为。使用VLMs处理图像序列存在挑战,如图像容量有限、快速消耗上下文和更高的推理成本。因此,我们均匀采样n帧:
这里,表示采样的帧,索引为。我们将采样的视频表示为:
这种预选大大减少了VLMs在训练和推理过程中的时间和成本,同时没有丢失重要的室内场景信息。
全局信息:3D鸟瞰图(BEV)。自拍视频只能捕捉局部信息,缺少更广泛的场景上下文。为了解决这个问题,我们从视频重建整个场景作为点云,并渲染全景图像作为鸟瞰图,为VLM提供一个完整的场景概览。具体来说,从室内场景视频和相应的相机外参开始,我们使用3D重建技术生成3D网格和点云:
这里,表示重建过程,我们假设相机内参已知。然后,我们从全局点云生成场景的BEV图像:
这里,表示俯视图的相机外参,表示根据相机外参渲染相应视图的过程,从而生成场景的BEV图像。值得注意的是,我们继续以图像的形式向VLMs提供全局3D信息。
时空对象标记。为了帮助VLMs关注特定对象,我们引入了时空对象标记(STO标记),确保2D帧和3D BEV图像之间的一致性。从输入视频重建3D点云。应用3D实例分割(如Mask3D[82])得到实例掩码,其中K表示场景中的对象总数。
对于BEV图像,我们首先将3D掩码投影到xy平面上,然后提取由投影形成的边界框的中心坐标,表示为,然后在BEV图像上显示。对于自拍2D标记,我们首先将投影到视频帧上,然后使用2D掩码形成的边界框的中心作为2D标记,表示为。带有标记的2D帧和BEV图像分别表示为:
这里,和分别指带有STO标记的视频或图像。我们可以观察到2D和3D标记在空间上是对齐的,代表同一个对象。此外,在不同帧之间也是一致的,实现了时间对齐。
4.2 利用零样本提示解锁VLMs
我们在零样本设置中评估VLMs,最初专注于强大的闭源VLMs(例如GPT-4o),以评估GPT4Scene框架是否能够有效地实现3D场景理解。这个过程称为“解锁”,它使VLMs能够通过提示而不是额外训练来理解3D场景。具体来说,我们输入和。为了降低成本,我们将中的图像拼接成一个大图像。我们评估了三个任务:3D问答、密集描述和视觉定位。在3D问答中,目标是回答与场景相关的问题,例如,“地板的颜色是什么?”在密集描述中,任务是描述特定对象,例如,“描述由表示的对象。”在视觉定位中,目标是从描述中识别对象ID,例如,“窗户旁边的黑色椅子的ID是什么?”虽然问答与对象标签无关,但密集描述和视觉定位需要对象标记。这些任务涉及检测对象并根据它们的边界框的IoU进行过滤。与Chat-Scene[40]和Robin3D[50]一致,我们使用Mask3D分割结果作为预测的边界框来计算IoU。
除了传统任务外,我们还在零样本设置中进行了进一步实验。定性结果如图4所示。通过输入和,VLMs可以理解室内场景的全局特征。此时,GPT-4o仍然可以接受其他图像,并能够理解当前在场景中的位置以规划后续行动。此外,6表1. ScanAlign的文本注释。我们通过多样化与ScanNet相关的文本注释获得了ScanAlign的文本注释,总共165K文本注释。
使用GPT-4o作为代理,VLMs可以根据给定的问题确定任务类型并选择适当的提示。因此,GPT4Scene框架显示出作为下一代具身智能核心技术的巨大潜力。
4.3 通过ScanAlign微调增强VLMs
零样本提示可以解锁强大VLMs的3D理解能力,但如图2所示,这种方法并没有改善较小的VLMs。因此,我们旨在通过微调来增强开源的、较小的VLMs。我们首先构建了一个室内场景数据集ScanAlign,该数据集包含自拍、BEV图像和文本注释,基于ScanNet[25]。数据集包括三个3D视觉相关任务,表示为。视觉输入包括带有STO标记的选定视频帧和BEV图像,T表示从五个ScanNet注释中派生的文本注释,如表1所示。我们使用提示随机改变注释格式以增加注释多样性,更多细节请参阅补充材料。该数据集总共包含约165K注释。
由于我们的方法不需要额外的模态对齐步骤,我们可以直接在ScanAlign数据集上进行单阶段指令微调,以增强模型的3D空间理解能力。在训练阶段,训练损失是语言模型的交叉熵损失。目标是通过最小化目标答案的负对数似然来优化可学习参数,表示为;我们将系统消息和用户的问题统一为。因此,损失函数可以表示如下:
k表示响应序列中的标记数,表示响应中的前个标记。可学习参数集是视觉语言投影层。
在微调后,推理时我们可以输入,其中Q表示问题。或者,我们可以在不使用3D BEV图像的情况下进行推理,仅使用。对于3D问答任务,我们甚至可以去掉所有对象标记,并使用仅有原始视频帧进行推理,即,无需任何额外处理。我们的实验表明,经过ScanAlign微调后,小型VLMs的3D场景理解能力显著增强。
实验
在本节中,我们将展示实验结果。第5.1节概述了实施细节,而第5.2节提供了3D问答、密集描述、视觉定位和定性结果的主要结果。最后,第5.3节涵盖了消融研究,证明了在训练过程中包含全局信息和STO标记的有效性。
5.1 实施细节
我们所有的场景数据都基于ScanNet数据集[25],该数据集包含1,513个场景。我们的基准测试与ScanNet使用相同的数据划分。我们的基准测试分为三个任务:3D问答、密集描述和视觉定位。对于3D问答任务,我们采用了ScanQA[6]和SQA3D[66]作为基准。对于3D密集描述任务,我们选择了Scan2Cap[22]作为基准。对于3D视觉定位任务,我们使用了ScanRefer[13]和Multi3DRef[114]来评估定位能力。与ScanRefer[13]相比,Multi3DRef评估多个对象,使其更加全面和合理。我们使用了原始版本的相同指标。
我们使用ScanNet的原始重建方法[26]进行重建,并对点云进行对齐。然后我们使用Mask3D[82]进行3D实例分割,
5.2 主要结果
3D问答。3D问答结果显示在表2中。我们将方法分为三类:专注于3D问答任务的特定任务模型、基于3D点的大语言模型(LLM)和基于视觉的大语言模型(VLM)。GPT-4o(GPT4Scene)在零样本设置中优于所有特定任务模型,突出了GPT4Scene作为提示的有效性。相比之下,未经过GPT4Scene微调的开源VLM在零样本模式下表现不佳,这与我们的初步研究结果一致。通过采用GPT4Scene策略,我们对Qwen2-VL-7B进行了微调,达到了卓越的问答效果。值得注意的是,Qwen2-VL-7B(GPT4Scene)在所有其他方法中表现最佳,达到了最先进的性能。与原始Qwen2-VL-7B相比,ScanQA的BLEU-1提高了56.1%(从27.8提高到43.4),CIDEr提高了68.6%(从53.9提高到90.9)。在SQA3D上,EM-1提高了41.0%(从40.7提高到57.4)。与零样本模式下的GPT-4o相比,这些指标分别提高了21.9%、23.7%和34.1%。我们的方法显著提高了模型对3D室内场景的理解。
3D密集描述和视觉定位。我们还评估了模型在密集描述和视觉定位任务上的表现,这些任务与问答不同,因为它们需要标记来完成。实验结果表明,经过GPT4Scene微调的Qwen2-VL-7B显著提高了VLMs的3D描述和定位能力。在高分辨率和大帧设置下(HD),我们的模型达到了最先进的性能,超越了所有现有方法。
5.3 消融研究
在本节中,我们进行了消融研究,以验证我们的设计模块,并分析分辨率和帧数等因素的影响。
对我们的模块进行消融。图2表明,BEV图像和STO标记增强了空间理解能力。我们使用3D问答任务进一步验证这一点,因为仅使用视频输入而不使用STO标记或BEV图像就足够了。同时,标记对于密集描述和视觉定位任务至关重要,因为它们需要在评估期间引用对象。如表5所示,训练和推理过程中去掉BEV图像会导致性能下降,进一步去掉STO标记会导致问答性能进一步下降,
对我们的帧数和分辨率进行消融。我们使用3D问答和视觉定位作为基准进行实验。表6的结果表明,图像分辨率对视觉定位性能有显著影响,但对问答任务的提升有限。最后三行结果表明,增加帧数可以提高室内场景理解能力,对定位性能的提升比问答任务更为明显。
结论
我们的论文做出了以下主要贡献:
● 我们介绍了GPT4Scene,这是一个框架,增强了视觉-语言模型(VLMs)直接从纯视觉输入理解3D场景的能力。
● 我们引入了两项技术:(1)具有全局上下文信息的3D鸟瞰图(BEV)图像和(2)用于BEV图像和视频帧之间时空一致性的时空对象标记(STO标记)。
● 我们构建了ScanAlign数据集,该数据集包含视频帧、带有STO标记的BEV图像和文本注释。在此数据集上微调VLMs显著增强了它们的3D场景理解能力。
● GPT4Scene在零样本和微调设置中表现出色,在各种3D场景理解任务中达到了最先进的性能。
文章名字:GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧