点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
为了解构视觉语言模型(VLM)对物理世界的理解,第一步是捕捉视觉世界的时序动态,例如物体状态如何在时间上演变(例如整个苹果变成切片苹果)。
作者的论文旨在调查预在网络规模数据上进行训练的VLM是否学会编码物体的状态,这些状态可以用零样本文本提示提取。
作者整理了一个物体状态识别数据集Changelt-Frames,并评估了九个开源VLM,包括使用对比和生成目标的模型。作者观察到,尽管这些最先进的视觉语言模型可以可靠地执行物体识别,但它们始终无法准确地区分物体的物理状态。
通过大量实验,作者确定了VLM优化以更好地编码物体状态的三个领域,即物体定位的质量、将概念绑定到物体的架构和用于学习区分物体状态的视觉和语言编码器的目标。
数据和代码已在GitHub发布。https://github.com/brown-palm/object-states。
1 Introduction
视觉语言模型(VLMs)已经成为了各种视觉理解任务的基础,包括物体识别 [13],视觉问答 [9] 和机器人应用 [3]。这些模型将视觉和语言数据相结合,实现了对图像和视频的敏锐解释和交互。然而,VLMs的一个关键且被忽视的方面是它们编码物体的物理状态的能力,例如一个苹果是否完整还是切片。理解这些状态对于物理常识推理至关重要,这支撑了许多实用应用,从帮助日常任务(例如,认识到热水可以倒入一个空玻璃中)到增强机器人系统中的交互。
作者定义物体状态为物体的物理和功能条件或配置,可以从视觉数据中得知。例如,物体的状态可以表示物体是否被融化,污秽或正在经历切割或倒水这样的过程。虽然物体状态识别通常与视频分析相关,因为其在生成时间动态和行为识别模型方面的应用,但作者的研究重点关注包含感兴趣物体状态的关键帧,人类标注员可以在不考虑时间上下文的情况下准确标记状态,而且在这些关键帧上应用预训练的VLMs生成伪标签 [16]。
为了探索VLMs在这个领域的能力,作者将它们作为零样本分类器,使用作者引入的数据集ChangeIt-Frames进行评估。这个数据集包含在自然场景中表示各种物体状态的图像。作者将这个数据集 augment 了,为其中的1,736张图像的子集添加了边界框标注,这些图像的原有状态标签是由人类标注员进行验证的。作者评估了9种最先进的开源模型。作者使用了两种类型的VLMs:双塔VLMs,这些模型根据图像和文本嵌入的相似度基于对比学习进行图像分类,以及多模态大型语言模型(MLLMs),这些模型使用视觉编码器与生成语言模型的联合体来根据提示进行响应。作者观察到,尽管这些模型在物体识别方面表现出色,但它们始终在可靠地识别物体的物理状态上表现不佳。
在图像中识别物体物理状态面临着独特的挑战。作者的研究揭示了使用物理根基的数据[2]进行标准微调的VLMs,或者在使用经过编辑的数据集进行预训练,并不能一定会增强Changelt-Frames数据集中的物体状态识别性能。作者假设对于VLMs来说,有效地将视觉特征与相应的目标进行链接是准确区分物体状态的关键。
为了测试这个假设,作者使用CLIP构建了以物体为中心的表示,并证明了这些经过修改的VLMs在解决涉及颜色和形状的概念绑定任务时进步明显,而CLIP则表现不佳 [8]。
然而,以物体为中心的VLMs在识别物体状态方面仍然存在局限性,这作者认为主要是由于物体定位不足以及视觉和语言表示的不够有效。
作者还观察到,模型参数或训练数据量的增加可以提供改进,但性能仍然远远不满意,而且这种挑战在多模态大型语言模型,例如La VA和PaliGemma中仍然存在。
2 Recognizing Object States
作者的评估数据集,ChangeIt-Frames,源于基于视频的ChangeIt数据集[15],该数据集包含了44个目标类别的650个视频,其中这些视频涉及目标在不同状态下的各种改变。从中提取出25,735张图像,每张图像描绘了96种不同的目标状态。基于图像的数据集只用于对视觉语言模型(VLMs)进行零样本评估。
为了提供详细的标注,作者从ChangeIt-Frames中手动标记了一个子集的1,736张图像,并在目标目标周围绘制了边界框。
每张图像都标记为一个与特定状态下的目标相对应的单一边界框。这些标注使用亚马逊机械土耳其提供的默认标注器池进行。这些标注发布在MIT许可下。
过去有几种方法来探索目标的组成性和它们的状态,其中最著名的是MIT-States [6]和C-GQA [12]。与C-GQA不同,其包含的状态(例如“可爱的小狗”) 可能 并不能一定是由可观察到的物理变化产生的,ChangeIt-Frames专属关注物体上的不可逆物理状态的变化。
这也将ChangeIt-Frames与MIT-States区分开来,后者主要通过形容词-名词对来组织状态变化,这些状态变化(例如,打开/关闭的门,或杂乱无章/空荡荡的房间)是可逆的。此外,MIT-States使用 Bing 搜索引擎进行有限的人工标注,导致状态标签的缺失或不准确。
评估设置:对于每张图像,作者选择一个描述目标可能状态的列表,例如“整个苹果”或“煎炸培根”。作者称正确描述为“正面提示”,错误描述为“负面提示”。作者采用两种策略来选择负面提示:标准策略,选择同一物体类别内不同状态的负面提示,例如 剥皮苹果 对于 整个苹果。
剩下的负面提示从候选池中随机选择,共计10个提示。作者还考虑使用 干扰策略,负面提示由专门设计的语义相似但关于目标状态错误的干扰器组成。例如,对于正面提示 _整个苹果_,干扰器提示可能包括 一个被切的苹果 或 _一个被剥皮的苹果_。剩下的提示随机选择,确保总共10个提示。这个设置旨在挑战模型的能力,去分辨物体状态的微小差异。
作者利用两种方法对零样本分类进行了计算:对于双塔视觉语言模型(VLMs),作者计算图像和文本嵌入之间的余弦相似度。最高相似度的标签被选择为预测输出。
对于多模态语言模型,作者用类似于这个问题的提示格式:“这副图像描绘的是哪一个:[编号的提示列表]?只需要回答对应正确答案的单一数字。”模型输出然后被用来确定预测标签。这些方法让作者评价模型在跨不同架构下正确识别物体状态的能力。
Metrics 作者分别计算了物体准确率和状态准确率。对于物体准确率,预测被认为正确,如果预测的标签包括了物体的名称(例如,对于苹果图像, both whole apple 和 cut apple 是正确的)。对于状态准确率,模型必须预测图像中 exact 的 GT 物体状态。
结果与分析:作者在CLIP ViT-L/14 [13], OpenCLIP ViT-L/14 [5], ALIGN [7], FLAVA [14]和PhysVLM [4]上进行了实验。值得注意的是,CLIP,OpenCLIP和ALIGN都依赖于图像 Level 的表示进行图像文本对比学习;
FLAVA使用不同于图像 Level 的表示的块 Level ; PhysVLM用“物理基础”的标注收集 [18] 并微调InstructionBLIP [2]。作者的结果总结了Table 1,表明虽然物体识别精度通常很高,但在状态识别精度上有一致性的大约30%下降。
当干扰提示被使用时,模型性能通常会明显下降。FLAVA表现出了更多的鲁棒性,只有7%的下降。值得注意的
讨论: 作者的结果表明,仅仅通过在 PhysVLM 中进行更多符合实际的物理数据的微调,并不会帮助 VLM 更好地编码目标状态。这可能甚至对性能造成损害,这很可能是因为微调数据与 Changelt-Frames 之间的领域不匹配。
作者还进一步观察到,在更具有挑战性的干扰设置下,FLAVA 在其他 VLMs 中超过了其他模型。作者猜想这可能是因为其采用了基于patch Level 的表示,这可以支持目标区域和文本描述之间的关联。作者在下一节中测试这个猜想。
3 Exploring Possible Remedies
在本节中,作者探讨了在视觉语言模型中改善目标状态识别的潜在解决方案。作者认为,由于这些模型中没有明确的概念,它们无法识别物理状态。这些模型可能会将以图像作为一“概念包”进行处理,并将其与整个场景关联,而不是与单个实体关联。
为了应对这个问题,作者研究了使用目标中心表示的方法。同时,作者对在更广泛数据上训练的更大规模的视觉语言模型进行了评估,看看低性能是否可以通过放大来纠正。这些改进的测试台也在Changelt-Frames的子集中完成了,该子集包括边界框标注和验证目标状态标签,这两种标注都由人工标注完成。
为了测试关注特定目标是否可以增强状态识别,作者实现了目标中心的视觉语言模型。这种方法涉及到使用边界框信息来隔离目标,要么来自数据集,要么来自像GroundingDINO这样的现成检测模型。通过裁剪图像到这些目标区域,作者试图创建一种明示地将视觉概念与不同的实体关联起来的表示。
Object-Centric VLMs
作者评估了以目标为中心的表示的有效性在两个主要任务:概念绑定和物理状态识别。对于概念绑定,作者使用CLEVR-Binding标记的基准数据集[8],它涉及到对诸如“红立方体与蓝球”与“蓝立方体与红球”等视觉概念进行区分,以及对两个物体之间的空间关系,如“立方体在球体的左边”与“球体在立方体的左边”等进行区分。在表2和3中,作者报告了CLEVR-Binding训练、验证和泛化部分的准确率。作者的观察是,以目标为中心的VLMs在两者任务上都远远优于以图像为中心的VLMs。
对于物理状态识别,作者使用作者人类标注的Changelt-Frames数据集子集,在完整的图像或真实物体上评估VLMs,作者在表4中提出了结果。尽管表2中结果表明,使用目标为中心的表示可以有效将视觉概念与相应的物体关联,但这种改进并没有延伸到在识别物理状态时表现更好。这可以从表4(GT Crop)中看出,当模型提供 GT 裁剪时,一般模型并没有提升。这表明目标裁剪并不能强迫模型执行所需的状态识别。
Larger VLMs
作者还研究了是否可以利用宽广数据集训练的更大规模的VLMs更好地识别目标状态。作者的评估包括OpenCLIP ViT-G-14 [5]和SigLIP [17],作者在标注的Changelt-Frames数据集的标准和干扰设置上评估其性能。观察到,尽管更大双塔模型在与CLIP和OpenCLIP相比表现出改良性能,但在干扰设置上存在挑战,两者均被FLAVA超过。
在作者的状态识别实验中,作者发现模型在干扰设置下的性能通常会下降。为了进一步探索状态识别,作者研究了多模态大型语言模型(MLLMs),这是视觉语言模型(VLMs)的一种最新进展。与依赖标准文本编码器的VLMs相比,MLLMs引入了一个生成语言模型来处理语言输入,从而显著增加了总模型参数。考虑这一点后,作者测试了MLLMs的额外参数和增强语言能力是否可以在标准设置上提高准确性并解决干扰设置所带来的更复杂的语言挑战。
要研究这一点,作者评估了PaliGemma [1]和两个LLaVA-NeXT [10]模型(Mistral-7B和LLama-8B)。表5中的结果表明,双塔VLMs中的状态识别问题在MLLMs中表达。即使使用了大型语言模型(LLM)和广泛的视觉指令调优,干扰设置仍然具有挑战性。
4 Inspecting the Encoded Representations
作者已经排除了几种可能的解决方案来修复现有的预训练VLMs在识别物体物理状态方面的缺陷,
作者首先调查文本编码器是否可以适当地反映物理状态描述,作者使用T-SNE来可视化“状态 + 物体”组合的CLIP文本嵌入。如图2所示,文本提示的代表被物体类别而不是物理状态聚集在一起,这表明文本编码器未能学习物体物理状态的区分性表示。
作者进一步通过可视化相同物体的相反状态下的编码目标级和图像级视觉表示分布,验证了低性能。作者观察到t-SNE投影没有明确地区分状态,同样,对于某个状态的裁剪图像嵌入与整个图像嵌入并不更接近。作者还观察到裁剪对表示的影响大于状态本身,表明嵌入对变形不鲁棒。例如,见图3。
尽管作者已经证明了在编码文本和视觉表示中存在物体状态的缺乏区分性信息,但有许多需要进一步研究的可行解决方案。作者假定,结合VLMs中更强的目标定位和建模(如在视频中可能经历状态转变的目标的跟踪),并训练目标明确鼓励物体状态的识别(如跟踪在视频中可能经历状态转变的目标),将有助于激发VLMs捕捉物体物理状态。
5 Conclusion
尽管在零样本目标识别方面表现出色,但作者证明现有的预训练视觉语言模型在编码目标状态信息上存在困难,作者认为这限制了它们理解和推理物理世界的潜在能力。
作者假设这种挑战可能源于物理 grounded 训练数据的缺乏,或者是视觉语言模型缺乏以目标为中心的归纳偏见来将概念绑定到目标上。
作者收集了 ChangeIt-Frames 基准数据集,其中有物体边界框和物理状态标注,并进行了大规模评估。作者观察到仅解决数据或模型架构问题并不能解决物体状态识别,作者期待在物体定位质量、概念绑定和预训练目标上取得更大的进展。
作者希望作者的发现将有助于开发能够更好地捕获物体状态的未来一代视觉语言模型。
参考
[1].Do Pre-trained Vision-Language Models Encode Object States?.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)