关注+标星,邂逅每一篇经典!
文章摘要
深入到第一人称视角视觉领域,指代表视频对象分割(RVOS)的发展对于理解人类活动至关重要。然而,现有的RVOS任务主要依赖于静态属性,如对象名称,来分割目标对象,这在区分目标对象和背景对象以及识别正在经历状态变化的对象方面带来了挑战。为了解决这些问题,本工作提出了一种新颖的动作感知RVOS设置,称为ActionVOS,旨在使用人类动作作为关键语言提示,仅在第一人称视频中分割活跃对象。这是因为人类动作精确描述了人类的行为,从而帮助识别真正参与交互的对象,并理解可能的状态变化。还构建了一种专门为此特定设置设计的方法。具体来说,开发了一个动作感知标记模块,配备了高效的动作引导焦点损失。这样的设计使得ActionVOS模型能够利用现有的现成注释优先处理活跃对象。在VISOR数据集上的实验结果表明,ActionVOS显著减少了不活跃对象的错误分割,证实了动作帮助ActionVOS模型理解对象的参与度。在VOST和VSCOS数据集上的进一步评估表明,当遇到涉及对象状态变化的挑战性情况时,新颖的ActionVOS设置增强了分割性能。
学术地址:
https://arxiv.org/pdf/2407.07402
代码地址:
https://github.com/ut-vision/ActionVOS
前世今生
探索第一人称视角(第一人称视角)的领域,指代表视频对象分割(RVOS)的发展对于理解人类活动至关重要。RVOS的目标是使用自然语言表达来分割目标对象,为机器全面理解视觉语言和时间信息奠定基础。通过整合各种模态,RVOS为第一人称视角中的开创性应用铺平了道路,例如文本指导的对象识别和视频中的实时对象跟踪。这在最近的研究中得到了体现,包括指代表达理解[27,51]、活跃对象定位[70,78]和意图驱动的视觉定位[28,62]。正如最近的工作[8,9,16,32,83]所强调的,第一人称应用的进步导致了与第一人称互动相关的数据激增。这随后增加了从第一人称视角对RVOS的需求。
图1:人类动作作为语言提示有助于识别活跃对象。
在RVOS领域,现有的基准测试主要依赖于静态属性,例如对象名称和颜色,来描述视频中的目标对象。在简单场景中,这些静态属性足以识别目标对象。然而,当场景变得复杂时,这些静态属性在准确识别目标对象方面就不够了,例如当类似的冗余对象共存或对象状态正在变化时。图1(a)展示了静态属性的两个失败案例。在“胡萝卜&碗”示例中,静态属性识别了冗余且不活跃的“胡萝卜&碗”。在“钉子”案例中,静态属性未能识别从粉红色变为蓝色的钉子。
为了解决这些问题,作者使用人类动作作为识别目标对象的重要线索。这是因为人类动作作为一种强大的语言提示,可以精确描述人类的行为。这样的动作提示有助于识别真正参与交互的对象,并理解可能的状态变化。如图1(b)所示,当提供动作提示“把胡萝卜放进碗里”时,参与“放”动作的具体胡萝卜和碗被准确识别。类似地,使用“涂钉子”提示也可以正确识别正在被涂漆的特定钉子。因此,动作提示显著解决了由冗余实例和对象状态变化引起的歧义。
在这项工作中,作者提出了ActionVOS,这是一种新的RVOS动作感知设置,旨在使用动作提示在第一人称视频中分割活跃对象。如图2所示,与传统的RVOS设置不同,ActionVOS增加了一个额外的语言提示,即动作叙述。在这些动作提示的指导下,ActionVOS只分割参与交互的活跃对象,而不管它们的冗余或状态变化如何。
不幸的是,现有的视频对象分割数据集缺乏识别活跃对象的注释,即它们是否参与了交互。在训练期间,这一限制导致ActionVOS在获取分类对象是否活跃的注释时面临困难。为了解决这个问题,提出了一个动作感知标记模块,从现有的现成注释中生成伪标签,包括动作叙述、语义分割和手-对象分割。该模块使ActionVOS模型能够在不手动注释它们的参与的情况下,获得有关对象参与动作的训练数据。此外,设计了一个有效的动作引导焦点损失,与动作感知标记模块一起工作。这种提出的损失减少了生成的伪标签中假阳性的影响,优先考虑真正的活跃对象。
作者在三个视频对象分割数据集VISOR[9]、VOST[59]和VSCOS[75]上评估了提出的方法。与传统的RVOS设置相比,ActionVOS在VISOR数据集上显著减少了不活跃对象的错误分割,不活跃对象的mIoU减少了35.6%。在VOST和VSCOS数据集上的评估表明,ActionVOS设置在遇到涉及对象状态变化的挑战性情况时增强了对象的分割性能,实现了状态变化对象的mIoU增加了3.0%。这些结果证实了动作提示帮助ActionVOS模型专注于活跃对象,并增强了对状态变化的理解。
这项工作的主要贡献如下:
提出了一种新的指代表视频对象分割的动作感知设置,ActionVOS。这种设置通过使用动作叙述作为额外的语言提示,在第一人称视频中分割活跃对象。
为ActionVOS开发了动作感知标记模块和动作引导焦点损失。这种设计使ActionVOS模型能够使用现有的现成注释来分割活跃对象。
广泛的评估结果表明,ActionVOS显著减少了不活跃对象的错误分割,并增强了状态变化对象的分割。
匠心独运
图2:ActionVOS与传统RVOS设置之间的比较。
图3:ActionVOS中正样本对象的例子。
图4:所提出方法的概述。
卓越性能
总结展望
在本文中,作者提出了ActionVOS,这是一种新颖的动作感知设置,用于指代表视频对象分割。这种设置通过使用动作叙述作为额外的语言提示,在第一人称视频中分割活跃对象。具体来说,为ActionVOS开发了一个动作感知标记模块和一个动作引导的焦点损失。这种设计使ActionVOS模型能够使用现有的现成注释来分割活跃对象。至于未来的工作,考虑通过整合各种动作-对象关系来扩展ActionVOS,减少对密集注释可用性的严重依赖,并适应开放世界中的应用。
https://arxiv.org/pdf/2407.07402