党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割
文摘
科技
2024-12-15 12:02
北京
文章下载
党吉圣, 郑慧诚, 王笔美, 李俊成, 丁恒辉, 赖剑煌. 基于逐帧和逐段时空交互记忆网络的高效视频目标分割. 中国科学:信息科学, 2024, doi: 10.1360/SSI-2024-0187
视频目标分割(Video Object Segmentation, VOS)是一项旨在自动分割视频中目标的核心任务,广泛应用于视频编辑、机器人导航、自动驾驶等领域。然而,现有方法在处理复杂视频场景时面临诸多挑战,例如目标遮挡、相似目标混淆、动态背景干扰等问题,导致分割精度和效率受限。为了解决上述问题,本文提出了一种新型逐帧和逐段时空交互记忆网络(FSSTIM),通过整合多粒度时空上下文信息,提升了目标分割的准确性和鲁棒性,同时保持了实时的计算效率。这项研究为解决视频分割中的复杂场景提供了全新思路,具有重要的应用价值。本文提出了一种基于逐帧和逐段时空交互记忆的高效视频目标分割方法,其核心创新包括以下几点:在逐帧和逐段时空交互记忆构建模块中,引入时空上下文图网络,提取视频中逐段全局时空记忆特征图,与逐帧记忆特征图进行交互增强。构建了一个信息丰富的逐段时空记忆组和增强的逐帧记忆组,提升了对目标遮挡和相似表观目标的处理能力。提出了一种动态采样记忆读取策略,结合不同粒度的采样窗口,能够从局部和全局视野中高效提取关键历史信息。在显著提升分割性能的同时,减少了计算冗余,显著提升了推理速度。FSSTIM 作为即插即用模块,可轻松集成到现有 VOS 方法中,进一步提升其性能和泛化能力。(1) 引入逐段时空记忆模块,显著提升了目标分割在复杂场景下的鲁棒性。(2) 动态采样机制有效结合了细粒度和粗粒度的信息捕捉策略,平衡了速度与精度。(3) 在多目标场景中,通过多尺度匹配与增强操作实现了更优异的分割性能。图 1 基于逐帧和逐段时空交互记忆网络的视频目标分割整体框架本文方法在多个主流数据集上进行了广泛验证,取得了卓越的表现:在 DAVIS、YouTube-VOS 和 MOSE 数据集上,分割准确性均超越现有方法,尤其在复杂场景中对遮挡目标和相似目标的分割能力表现优异。实验结果显示,FSSTIM 在保持实时推理速度的同时,实现了显著的分割精度提升。在消融实验中,FSSTIM 的逐帧与逐段交互模块和动态采样策略在分割性能和效率上均展示了显著优势。图 2 在严重遮挡和相似实例的复杂场景下的结果比较