来源:专知 本文约1000字,建议阅读5分钟
本文的贡献拓展了因果建模在视频语义理解中的前沿应用,赋能AI系统掌握因果模式,并在应对视频理解挑战任务中提升性能。
我们提出了一种干预性视频关系检测方法,称为IVRD,旨在解决VidVRD中关系的长尾不平衡问题。尽管尾部关系具有信息性,但由于其在数据集中稀少,难以预测。我们特别提出了一套分层的关系原型,这迫使关系推理模块关注实体之间动态交互的视觉内容,而非依赖于对象与关系标签之间的伪相关性。通过引入因果推理,IVRD为改善长尾不平衡情况下的视频理解提供了一个有前景的方向,使模型能够更好地泛化到现实世界场景中,特别是在稀有或不常见的关系在场景理解中扮演关键角色时。 我们引入了一种视频问答中的不变性定位方法,称为IGV,这是一种与模型无关的学习框架,旨在解决由答案-环境之间的伪相关性带来的负面影响。IGV通过定位问题关键的(因果)场景,发现因果推理模式。具体而言,IGV利用了因果场景与答案之间的关系在环境变化时仍保持不变这一事实,并且去除因果场景应导致问题回答失败。通过定位这些关键场景,IGV使VideoQA模型能够专注于准确推理所需的视觉内容,同时避免环境负面的影响,从而显著提升了模型的推理能力。 我们提出了视频问答中的等变性定位方法EIGV,进一步增强了鲁棒性和视觉可解释性。基于IGV,EIGV还引入了等变性,促使回答过程对因果场景和问题中的语义变化更为敏感。相较之下,不变性定位要求回答过程对环境场景的变化不敏感。这两种正则化机制协同工作,区分因果场景与环境场景,并通过呈现视觉-语言对齐提供更多的透明性。通过结合不变性和等变性定位的优势,EIGV创建了一个更加鲁棒且可解释的VideoQA框架。 我们发现了视频问答中的时空推理,解决了长视频和多对象样本(即复杂视频问答)上的低准确性问题。现有的VideoQA实践(包括预训练模型如SeVila [162])大多是在短视频片段(约15秒)和少数实体(约2个)上进行训练的,因此在复杂视频(超过80秒且包含5个以上对象)上表现较差。原因在于长视频不可避免地引入大量冗余和伪相关性,因为许多与问题无关的环境对象存在。为应对这一挑战,我们首先强调建模问题关键的时间片段和空间对象的重要性,接着提出了时空推理(Spatio-Temporal Rationalization, STR)方法,通过可微选择模块自适应地收集问题关键的时间片段和对象,并通过跨模态交互进行推理。结合更合理的候选答案解码策略,STR有效识别出与问题无关的帧和对象作为因果模式,尤其在复杂场景下显著改善了预测性能。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU