NeurIPS 2024 | 基于拓扑同构的分布外鲁棒性: 重建与匹配

科技   2025-01-09 13:33   北京  

导读

本文是VCC龚茗荣同学对论文 Reconstruct and Match: Out-of-Distribution Robustness via Topological Homogeneity 的解读,这来自于深圳大学可视计算研究中心黄惠教授课题组,第一作者为深圳大学首批百人计划陈超奇助理教授。该工作已做为Spotlight Paper发表在机器学习国际顶级会议NeurIPS 2024上,接收率仅为327/15671=2.09%,非常难得。

项目主页: 
https://vcc.tech/research/2024/OOD

该工作提出了一种信息抽象-关系推理的学习框架,旨在通过对同类别数据的拓扑同质性进行显式建模来提升深度学习模型的泛化能力,使其在分布外数据上的鲁棒性得到极大提升。



I


 引言 

深度学习模型在实际应用中常常面临分布偏移 (Distribution Shift)的问题,即训练数据(分布内数据,ID) 与测试数据 (分布外数据,OOD) 的统计分布存在显著差异。这种分布偏移导致模型性能显著下降,严重影响在高风险场景 (如自动驾驶、医疗诊断等的实际部署与安全性。因此,提升模型在OOD场景下的泛化能力和鲁棒性成为机器学习领域的一个核心挑战。现有的OOD泛化方法主要集中在通过正则化学习到的表示或预测器来实现域不变性 (Domain Invariance),例如域对齐、特征解耦合元学习等。这些方法通常假设模型能够通过对齐分布间的低阶统计信息来实现泛化。然而,这类方法忽略了数据的内在拓扑结构和高阶依赖关系,仅关注特征空间中的点对齐,缺乏对数据语义组成部分及其结构关系的建模。此外,模型在测试时往往需要快速适应动态分布变化,传统的测试时自适应 (Test-Time Adaptation, TTA方法在优化过程中也存在对噪声和泛化不足的问题。


与机器不同,人类视觉系统在识别物体时具有天然的结构感知能力:我们通常会先将物体分解为若干主要组成部分,然后分析这些组成部分之间的结构关系,最终基于这些高阶关系做出判断。这种基于拓扑同质性的视觉机制使人类能够在复杂和多变的场景中准确地进行物体识别。受此启发,本研究提出了一种新颖的OOD泛化框架,称为Reconstruct and Match (REMA),旨在模仿人类视觉过程,通过重建与匹配的方式捕获数据的高阶拓扑结构与语义关系。具体而言,REMA框架包括两个关键模块:选择性槽重建模块 (Selective Slot-based Reconstruction, SSR和高阶关系建模模块 (High-Order Relational Reasoning, HORR)。首先,SSR模块通过自监督的方式将密集的像素特征动态映射到稀疏的、离散的槽向量集合,从而有效提取物体的主要组成部分。这种重建过程不仅减少了冗余信息,还保留了对目标物体最具代表性的特征。其次,HORR模块基于超图结构建模不同组成部分之间的高阶关系,通过超图匹配的方式捕获数据的拓扑同质性,显著提升模型在分布外数据上的鲁棒性和泛化能力。


II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种新的模仿人类视觉系统的方法来缓解在分布外数据上的泛化能力;

  • 提出了一个自监督重建来识别场景中的物体信息,并且引入超图匹配推理物体的关系以及不同域的交互;

  • 六个测试基准上REMA在泛化性能和时间效率上都优于当前先进的方法。


III


 方法介绍 
REMA方法由选择性基于槽的重建模块 (SSR) 和高阶关系推理模块 (HORR) 两部分组成,下面将详细解释各个部分。

选择性基于槽的重建模块 (SSR)
如图1所示,该方法引入了基于Slot Attention的自监督重建模块来发现目标中的主要组成部分,将输入特征  通过注意力机制映射到槽向量集合  中,以无监督方式实现关键部件提取。对每个槽  预测重要性分数  并引入交互矩阵  计算槽向量之间的交互 :其中是一个轻量化的多层感知机 (MLP)。最终得到每个槽的分数:以及加权槽表示  只保留最有代表性的组件表示。最后通过损失函数:优化重建过程,其中包含重建误差项和稀疏性正则化项 为平衡参数。

高阶关系推理模块(HORR)
为了建模目标的高阶拓扑关系,该方法采用超图结构  进行建模,其中  为边权重矩阵。首先在超图构建阶段,对视觉槽表示进行线性变换得到图节点,并通过KNN算法和关联矩阵  建立超边连接;接着在超图学习阶段,引入超图卷积:来更新节点特征,实现消息传递和特征聚合;最后在超图匹配阶段,通过Sinkhorn层计算匹配矩阵  度量跨图节点的对应关系,并优化跨域拓扑结构的一致性  实现对高阶语义关系的有效建模。详细的数学推导和实现细节请参考原论文。

接下来介绍REMA的训练和推理过程,REMA的训练与推理过程采用端到端的方式进行优化,其总体损失函数为  其中  为分类交叉熵损失, 和 为平衡不同损失项的超参数。

图1 REMA网络结构图,主要由SSR和HORR两个模块组成:

(1) 抽象: 将物体的特征绑定到一些离散的槽向量 (slot)

 (2) 推理: 通过构建超图,学习匹配,使模型习得图像拓扑一致性


IV


 部分结果展示 

接下来我们展示REMA在三个广泛使用的图像分类基准数据集上的表现,如表1所示。在PACS数据集上,REMA达到了88.7%的准确率,比最近的VNE方法提高了1.8个百分点;在Office-Home数据集上,REMA取得了72.0%的准确率,相比VNE提升了6.1个百分点;在VLCS数据集上,REMA获得了79.4%的准确率,超过VNE 1.3个百分点。平均而言,REMA在三个数据集上的平均准确率达到了80.0%,显著优于所有现有方法,证明了我们提出的基于拓扑结构的方法在处理分布偏移问题上的有效性。

表1 相较于现有方法,REMA在OOD泛化任务上较大提高

接下来是在图像扰动基准测试上的错误率比较,结果如表2所示。在三个数据集CIFAR-10C、CIFAR-100C和ImageNet-C上,REMA分别达到了12.0%、35.8%和52.2%的错误率,平均错误率为33.3%。相比现有最好的方法TSD(错误率分别为13.1%、37.7%和53.2%,平均34.6%),REMA在所有测试场景中都取得了更好的性能。

表2 在图像扰动基准上,REMA的平均错误率是最低的

图2展示了激活图的可视化对比。相比未使用REMA的模型 (w/o REMA和原始ERM方法,使用完整REMA模型 (w/ REMA能够生成更完整和准确的激活区域。这表明REMA成功捕获了目标对象的关键组成部分,使模型能够更好地关注对象的显著特征,从而提供了更准确的表示。

图2 Grad-CAM可视化

图3 特征的t-SNE的可视化结果
图3展示了t-SNE特征可视化,完整的REMA模型展现出最优的聚类效果,不同类别的特征边界更加清晰分明。相比之下,去除SSR模块会导致相近类别 (如动物类) 特征出现混叠,而去除HORR模块则会增大类内变化并降低类别间区分度。这表明SSR和HORR两个模块通过提取稳健语义表示和建模拓扑关系相辅相成,协同促进了更好的特征学习。

V


 总结与展望 
近年来分布外泛化 (OOD和测试时间适应已成为深度学习领域的重要挑战。现有方法主要关注对隐层特征或预测器的配准,但往往忽视了数据的拓扑结构。本文提出的REMA框架通过模仿人类视觉识别过程,显著缩小了这一差距,使深度模型能够更好地捕获目标的拓扑同质性。

在未来研究中,如何将该框架扩展到更复杂和动态变化的场景是一个有价值的方向;同时研究如何降低计算复杂度以支持更大规模的应用也很重要;另一个探索方向是将该方法与自监督学习、元学习等技术相结合,以进一步提升模型的泛化能力。实验结果表明,这种基于拓扑结构的方法为解决分布偏移问题提供了一个很有前景的新思路。

VI


 思考与讨论 
Q: REMA使用Slot Attention将物体特征抽象到稀疏的槽向量中与其他对齐的方法优势是什么?
A: REMA通过插槽注意力机制将密集的像素特征映射到有限数量的槽向量中,形成了对物体的稀疏表示,这种方式能够使得深度模型更聚焦于前景物体特征。同时,REMA通过超图匹配去显式地捕捉物体之间的高阶关系。相比直接特征对齐或者传统的基于稠密图像特征的方法,这种模仿人类视觉系统以物体为中心的"先分解后关联"的处理方式不仅提高了模型的可解释性,也使特征表示更加稳健和高效。

Q: REMA为什么能够同时在OOD泛化以及TTA任务上取得不错的效果? 
A: 与现有的自监督方法依赖旋转预测、拼图和随机遮蔽等启发式代理任务不同,REMA直接通过建模物体的拓扑结构关系来进行特征学习和域适应。这种基于数据内在特性而非人工设计任务的方法使模型获得了更稳健和通用的迁移能力,从而能够自然地应用于包括OOD泛化和TTA的多种分布偏移场景。

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 本文所提出的基于slot的图像表征和关系建模可以看成是子物体层次 (subobject-level) 的操作,那么是否存在原则性的方法来对视觉物体进行分块、token化、依赖关系建模?这个过程与深度视觉模型的泛化性有何具体关联?

-- End --


导 读 | 龚茗荣
审 核 | 陈超奇
编 辑 | 申金、余鑫泉

参考文献

[1] Kartik Ahuja, Karthikeyan Shanmugam, Kush Varshney, and Amit Dhurandhar. Invariant risk minimization games. International Conference on Machine Learning (ICML). 145-155, 2020.

[2] Kaiyang Zhou, Yongxin Yang, Yu Qiao, and Tao Xiang. Domain generalization with mixstyle. International Conference on Learning Representations (ICLR), 2021. 

[3] Marvin Mengxin Zhang, Sergey Levine, and Chelsea Finn. Memo: Test time robustness via adaptation and augmentation. Advances in Neural Information Processing Systems (NeurIPS). 38629-38642, 2022.

[4] Yu Sun, Xiaolong Wang, Zhuang Liu, John Miller, Alexei Efros, and Moritz Hardt. Test-time training with self-supervision for generalization under distribution shifts. International Conference on Machine Learning (ICML). 9229-9248, 2020.

[5] Riccardo Volpi, Hongseok Namkoong, Ozan Sener, John C Duchi, Vittorio Murino, and Silvio Savarese. Generalizing to unseen domains via adversarial data augmentation. Advances in Neural Information Processing Systems (NeurIPS). 5334-5344, 2018.

[6] Qin Wang, Olga Fink, Luc Van Gool, and Dengxin Dai. Continual test-time domain adaptation. Conference on Computer Vision and Pattern Recognition (CVPR). 7201-7211, 2022.

[7] Hanlin Zhang, Yi-Fan Zhang, Weiyang Liu, Adrian Weller, Bernhard Schölkopf, and Eric P Xing. Towards principled disentanglement for domain generalization. Conference on Computer Vision and Pattern Recognition (CVPR). 8024-8034, 2022.

[8] Ya Li, Xinmei Tian, Mingming Gong, Yajing Liu, Tongliang Liu, Kun Zhang, and Dacheng Tao. Deep domain generalization via conditional invariant adversarial networks. European Conference on Computer Vision (ECCV). 624-639, 2018.


arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章