北航于天舒,夏长群,李甲 | 面向不平衡运动:基于部件解耦的视频人像分割方法

文摘   科技   2024-08-14 12:02   北京  

研究团队

于天舒:北京航空航天大学计算机学院虚拟现实技术与系统全国重点实验室

夏长群:鹏城实验室

李甲:北京航空航天大学计算机学院虚拟现实技术与系统全国重点实验室、鹏城实验室

文章下载

Tianshu YU, Changqun XIA & Jia LI. Towards imbalanced motion: part-decoupling network for video portrait segmentation. Sci China Inf Sci, 2024, doi: 10.1007/s11432-023-4030-y



研究意义

视频人像分割(Video Portrait Segmentation, VPS)旨在从连续的视频帧序列中发现并分割出所有的显著前景人像。该技术在视频创作领域展现出了广泛的应用潜力,如背景替换、人像效果变换等场景。
然而,当前主流的包含人像的视频分割数据集,如DAVIS、PVSD2.5K、PP-HumanSeg14K在场景复杂性上尚显不足。例如,DAVIS 聚焦于户外人像视频;PVSD2.5K规模较小,仅包含 2530个标注帧,且每个视频片段仅包含单个人像;而PP-HumanSeg14K则局限于远程会议场景,背景的场景都很简单。这使得基于这些简单数据集训练出的模型在应对实际应用中复杂多变的场景时,鲁棒性明显不足。为了提升模型的实际应用能力,构建一个包含互联网常见的各种复杂场景的大规模视频人像分割数据集显得尤为重要。
值得注意的是,与车辆、飞机等整体运动状态一致的常见物体不同,人像的运动因其关节结构而呈现出复杂的不平衡性。如图所示,红框中手臂的运动独立于人像主体的整体运动,尽管现有的方法在常规视频上取得了先进的性能,但这些方法往往将显著目标作为一个整体去进行运动解析,忽略了与整体运动状态不同的部件细节运动,这就导致了这些方法在运动范围较大的手臂附近预测不准确。
由于这种部件关联的运动不平衡性,对不同部件的运动使用相同的注意力进行提取可能会导致人像的定位和分割不准确。因此,直观的想法是构建基于无监督部件解耦的视频人像分割方法,通过分别对具有不同运动状态的人像部件进行处理,以期提升人像定位和分割的准确性。

本文工作

为了解决数据集场景简单的问题,本工作首先构建了大规模多场景视频人像分割数据集MVPS。该数据集由包括常出现在互联网上的娱乐、室内手工、访谈、讲座、新闻、户外活动和网上购物的7大类不同场景的101个视频片段组成。视频中的人像具有不同的姿态和手势,同时背景场景也呈现出复杂多样的特点。这些复杂情形接近于互联网中的实际应用场景。我们从这些视频片段中共采样了53923帧,标注了10843帧。据我们所知,它是目前视频人像分割任务最复杂的数据集。
通过已有数据集的人像视频特性,并进一步结合数据集构建过程中对大量人像视频的观察,我们发现与其他大部分常见物体的运动不同,人像的运动具有部件关联的不平衡性。
为了实现对这种部件关联的人像不平衡运动的精确解析,本工作提出了基于部件解耦的视频人像分割网络(Part-Decoupling Network, PDNet),该网络对不同人像部件的运动关联分别进行提取。在孪生编码器中,我们使用ResNet-50作为主干来提取目标帧和参考帧的空间特征,然后利用FPN结构的优势从深到浅融合空间语义特征和细节特征。整个编码器在两帧之间共享权重,从而获得具有帧间语义一致性的外观特征。针对人像运动的不平衡性,我们提出了帧间部件判别注意力(Inter-frame Part-Discriminated Attention, IPDA)模块,该模块将不平衡的整体人像运动解耦为独立的部件运动。该模块对目标帧和参考帧的人像进行无监督的部件分割,利用不同帧中同一部件之间的交叉注意力运算来提取部件判别运动特征,最后根据这些部件的预测掩膜对部件判别运动特征进行组合,生成全局运动特征。最后通过时空特征融合模块综合外观和运动特征,预测得到最终的人像掩膜。
代码和数据集地址:https://github.com/iCVTEAM/PDNet/

实验结果

通过捕捉人像视频中部件运动的不平衡性这一创新策略,与多种国际先进方法的对比实验表明了我们方法在性能和效率上的优势。我们的方法在包含各种人像运动、姿态、手势,各种复杂背景以及单人/多人场景的视频中可以准确地分割出前景人像,尤其是在与人像主体运动不平衡的区域。






中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章