学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
基于可分解时空残差图的换衣群组重识别方法
张权
IEEE Transactions on Pattern Analysis and Machine Intelligence 2024
撰稿人:张权
通讯作者:赖剑煌
欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!
群组重识别(Group Re-Identification, GReID)旨在正确关联属于同一群组身份的群组图像,这是视频监控中的关键任务。现有方法仅关注传统短时监控场景,对每个图像内的成员特征表示进行建模(视为空间成员),但是这导致已有工作在长时视频监控系统中由于成员更换衣物的行为而检索失败。因此,我们聚焦一个新任务,称为换衣群群组重识别(Cloth-Changing Group Re-Identification, CCGReID),该任务需要同时考虑在传统群组重识别中的群组关系建模和该任务场景下对更换衣物成员的鲁棒群组表示。在本文中,我们提出了一种可分离时空残差图学习框架(Separable Spatial-Temporal Residual Graph, SSRG)。与现有的群组重识别方法不同,SSRG同时考虑了每个群组图像内的空间成员和具有相同身份的多个群组图像之间的时间成员。具体来说,SSRG为每一个批处理数据中的每个群组身份构建完全图,这些完全图将被完整且无冗余地分离成空间成员图(SMG)和时间成员图(TMG)。SMG旨在从空间成员中提取群组特征,而TMG通过特征传播提高更换衣物成员的鲁棒性。可分离性使SSRG能够在推理中使用,而不仅仅是辅助监督训练。残差保证了SSRG对SMG和TMG的高效学习。为了加速换衣群组重识别研究,我们基于现有的单人换衣重识别数据集贡献了两个新数据集,包括GroupPRCC和GroupVC。实验结果显示SSRG实现了最先进的性能,包括最佳准确度和低降级(在GroupVC上仅为2.15%)。此外,SSRG可以很好地泛化到传统群组重识别任务。作为一种弱监督方法,SSRG的性能超过了一些监督方法,甚至接近于在CSG数据集上的最佳性能。
群组重识别旨在将来自一个非重叠摄像机网络中的包含相同成员的感兴趣群组进行关联匹配,这在视频监控场景中有广泛的应用,例如针对儿童或妇女绑架的预警与侦测。群组重识别可以被视为传统人物重新识别的扩展,具体是指感兴趣的目标从单个个体增加到小群组。现有的群组重识别方法总是假设群组内部成员的外观在检索阶段会保持不变。然而,这一假设在长时运作的视频监控系统中难以满足,因为组内可能会发生更换衣服的行为,导致现有群组重识别方法的检索失败。这一现象在传统的人物重新识别中已被广泛验证和研究,被称为换衣行人重识别。相应地,类似的现象也会发生在群组重识别中。如图1所示,当一个群组跨摄像机视角移动时(例如,从室内到室外),一些群组成员会根据当时的温度或天气选择穿更多或脱掉衣服(图中的蓝色和红色框内的人员)。因此,我们提出了一项新的子任务,称为换衣群组重识别,这是一个现实且普遍存在的任务需求。换衣群组重识别的挑战不仅在于建模群组关系和提取群组特征,还在于构建对群组内部成员外观变化具有鲁棒性的群组表示。
不幸的是,现有的研究方法主要关注群组重识别,对换衣群组重识别的研究几乎为空白。更糟的是,直接将现有的群组重识别方法应用于换衣群组重识别几乎无法取得满意的性能。因为大多数基于深度特征学习的群组重识别方法主要关注每个群组图像内部的特征提取,这可以看作是空间成员建模。尽管还有一些基于度量学习的方法试图设计一种鲁棒的策略来评估同一身份群组的两幅图像之间的相似性,它们在特征提取阶段仍然是通过空间成员建模的。当群组成员的外观发生变化(足以混淆身份)时,这种情况下的群组特征严重偏离正常特征分布,导致度量失败。这一限制促使我们构建一种不仅考虑空间成员的特征提取策略。
图 1 本文提出的群组换衣重识别任务的示意图。虚线箭头表示相同身份的群组的跨视角移动。蓝色和红色分别表示同一成员在跨越视角前后的两种外观。
在本文中,我们提出了一种新颖的可分离时空残差图(SSRG)来解决换衣群组重识别任务。SSRG考虑了多个具有相同身份的群组图像中的空间成员建模和时间成员建模。时间成员在不同时间点被捕获,这可能包含潜在的外观变化。利用这些时间成员来增强空间成员的特征表示,可以提高对换装行为的鲁棒性。具体来说,我们构建了一个完整的图结构来描述批处理数据中群组图像内部和之间的关系。此外,我们在完整图中设计了可分离和残差属性,以高效提取群组关系并提升群组表示。
可分离性意味着我们根据不同的边类型在完整图中考虑两个不相关的子图成员关系。一个是空间成员图(SMG),专注于群组图像中所有成员的连接;另一个是时间成员图(TMG),专注于不同群组图像中具有相同群组标签的成员之间的关系。可分离性的好处在于它是专门为应对换衣群组重识别任务的挑战而提出的。SMG可以为每个群组图像建模群组关系并提取群组特征。TMG可以通过其他具有相同群组身份的图像提升当前图像的群组特征表示,从而克服潜在的过拟合问题,即避免从换装成员中学习到敏感的群组表示。另一个好处是我们的模型可以直接在推理阶段起作用,而不仅仅是辅助模型训练。由于TMG的构建需要群组身份,因此在测试阶段不可用。幸运的是,可分离性确保SMG和TMG在原始完整图上是一个完整且非冗余的划分策略,这使得两个子图可以独立学习。残差性通过引入一个恒等路径,确保SSRG能够高效地学习上述两个子图,增强成员节点的表示能力,因为图学习容易出现节点特征的平滑过渡或过度的噪声传播。
为了加快对换衣群组重识别的研究,我们基于两个主流的换衣行人重识别数据集(PRCC和VC),并贡献了两个相应的换衣群组重识别数据集(GroupPRCC和GroupVC)。具体来说,对于现有换衣行人重识别数据集中的每个换装成员,我们在已有的群组数据集中随机选择不同数量的个人身份(例如City1M数据集)作为换衣行人重识别数据集中换装人员的同伴。
大量实验结果表明,我们的SSRG显著优于当前方法,并在两个数据集上实现了最先进的性能。在GroupVC数据集上,SSRG在mINP方面比之前的SOTA方法高出18.46%,且在从GReID场景切换到CCGReID场景时仅有2.15%的性能下降。此外,我们的SSRG还可以直接推广到已有的群组重识别任务。作为一种弱监督方法,SSRG的性能超过了一些监督方法,甚至接近在CSG数据集上的最佳性能。
(1)整体框架
本文所提出的深度框架如图2所示。我们的框架
图 2 所提出的SSRG框架示意图。PK采样表示在每个批次中随机选择P个群组身份,以及为每个群组身份随机选择K个群组图像。每个虚线框表示一个群组图像,每个圆形节点表示从每个群组内部成员中提取的特征。在图结构中,不同颜色表示不同的群组身份。
我们通过一次网络前向过程来说明我们的框架流程。第一步,我们采用
其中,
其中,
第二步,我们根据群组身份构建
其中,
然后将多个注意力结果进行拼接,即:
经过图结构传播后,我们将每个群组特征的最终表达记为:
(2)SSRG中的可分离性与残差性
通过上述描述可以看出,本文框架的核心在于将完全图拆分为空间图和时间图。我们通过一个简单的例子(图3)可以看到,属于空间图的边其所连接的两个节点均来自同一张群组图像,而属于时间图的边其所连接的两个节点均来自不同的两张群组图像。因此可以发现,空间图的边构造关系是不需要身份信息介入的,而是通过批数据构造式的索引即可完成。我们可以将批数据的组织形式具体描述如下:
图 3 一个直观的例子展示了所提出的空间图可分离性属性,当
可以看出,同一个群组图像内部的成员共享群组图像的索引和标签,我们分别将其记为:
实现每张群组图像内部的成员连接,即空间图的边集合构造(对应图3中的空间图SMG部分)。显然,时间图的边集合为
此外,我们引入了另一个残差性来实现高效的图表示学习。如图2所示,我们引入了一条恒等路径,将
(3)损失函数
我们的整个任务设置中只提供群组级别的身份标签信息,因此我们通过经典的交叉熵和三元组损失函数组合作为所提出模型的优化目标,具体可将交叉熵分类函数记为:
同理,可将三元组度量损失函数记为:
其中,
(1)数据集
考虑到现有的群组重识别数据集很少考虑群组内部成员的换装情况,我们贡献了两个换衣群组重识别数据集,包括GroupPRCC和GroupVC,以填补换衣群组重识别任务的空白。具体来说,我们开发了现有的换衣行人数据集PRCC和VC,通过额外引入来自传统数据集中的多个不换装成员,形成了新的群组数据集版本。具体来说,每个换装群组由换装成员和不换装成员组成,这两部分成员的总数在2到6之间随机选择。对于每个换衣群组重识别数据集,换装成员从相应换衣群组重识别数据集中的同一摄像机中选择。剩余的不换装成员则从传统数据集(例如City1M)中的同一摄像机中选择,作为其专属的群组伙伴。除此之外,我们提出的CCGReID数据集考虑了群组换装强度从1到6人不同的变化。图4中展示了几个例子,这些例子包含了更为多样的挑战,包括摄像机视角、分辨率、光照和群组成员数量的变化。
GroupPRCC数据集共包含7514张训练图像,涉及64个群组身份,以及3676张测试图像,涉及32个群组身份,这些图像是在三个摄像机下捕获的。摄像机A和B中的群组成员穿相同的衣服,而摄像机A和C中的换装成员穿不同的衣服。为了构建查询集和图库集,我们为每个测试群组随机选择摄像机A中的图像来构建查询集。所有来自摄像机B和C的图像被选择作为图库集。GroupPRCC的评估包括不换衣设置(SCS,摄像机A和B)和换衣设置(CCS,摄像机A和C)。SCS包括1314张查询图像和1159张图库图像,CCS包括1314张查询图像和1203张图库图像。
GroupVC数据集共包含3832张训练图像,涉及111个群组身份,以及4179张测试图像,涉及118个群组身份,这些图像是在四个摄像机下捕获的。原始VC数据集的主要特点是所有图像都收集于虚拟游戏场景(GTA5)。GroupVC的评估包括不换衣设置(SCS,摄像机2和摄像机3)和换衣设置(CCS,摄像机3和摄像机4)。SCS包括234张查询图像和1756张图库图像,CCS包括234张查询图像和1980张图库图像。
除了常见的性能评测指标外,我们还设计了退化指标,用于衡量模型从不换衣场景切换到换衣场景时所产生的性能退化幅度。我们认为一个理想的模型应该在两个场景下同时拥有最高的精度以及最低的退化幅度。
(2)性能介绍
通过表1可以直观地看到,本文所提出的可分离时空图框架SSRG相比于已有方法,在2个数据集上获得了显著的性能提升,并且同时实现了较低的性能退化,这表明SSRG提取到的群组特征有强的判别性和鲁棒性。
表 1 在GroupPRCC和GroupVC数据集上的模型性能对比。
图 5 对本文提出的可分离性(记为S)和残差性(记为R)进行了消融实验,分别在2个数据集的两种评测设置上证明了每个性质的有效性。
图 5 在2个数据集上的消融实验分析。
表3汇报了本文方法的训练和推理时间代价,其中推理时间是指检索一张群组图像的平均用时,可以看出,相对于baseline方法,本文的方法不论在训练还是测试阶段,并没有显著增加额外负担,基本与baseline保持在同一量级。
表 3 在2个数据集上的消融实验分析。
图6为关于baseline和本文方法的检索结果可视化实验,可以看到,本文所提出方法的首位命中相对更加精确,并且正确的检索的数量也相对更多,对于换衣行为有着较强的鲁棒性。
在本文中,我们提出了一项新任务,称为换衣群组重识别任务,这在长期视频监控中是广泛存在的。我们分析了现有的群组重识别方法无法很好地解决这一任务,并提出了一种新颖的可分离时空残差图(SSRG),在每个批次数据中构建空间图SMG和时间图TMG。然后,SSRG通过SMG和TMG分别提取群组特征并抵抗换装成员的影响。可分离性使得SSRG在测试过程中能够贡献高度凝聚的群组特征,而不仅仅是在训练期间指导监督学习。残差性实现了SSRG的高效和稳定的图学习。最后,我们贡献了两个换衣群组重识别数据集,以弥补现有研究的不足。我们通过大量实验展示了所提出的SSRG的优越性和泛化能力。
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)