深度学习模型在实际应用中常常面临分布偏移 (Distribution Shift)的问题,即训练数据(分布内数据,ID) 与测试数据 (分布外数据,OOD) 的统计分布存在显著差异。这种分布偏移导致模型性能显著下降,严重影响在高风险场景 (如自动驾驶、医疗诊断等) 的实际部署与安全性。因此,提升模型在OOD场景下的泛化能力和鲁棒性成为机器学习领域的一个核心挑战。现有的OOD泛化方法主要集中在通过正则化学习到的表示或预测器来实现域不变性 (Domain Invariance),例如域对齐、特征解耦合元学习等。这些方法通常假设模型能够通过对齐分布间的低阶统计信息来实现泛化。然而,这类方法忽略了数据的内在拓扑结构和高阶依赖关系,仅关注特征空间中的点对齐,缺乏对数据语义组成部分及其结构关系的建模。此外,模型在测试时往往需要快速适应动态分布变化,传统的测试时自适应 (Test-Time Adaptation, TTA) 方法在优化过程中也存在对噪声和泛化不足的问题。
与机器不同,人类视觉系统在识别物体时具有天然的结构感知能力:我们通常会先将物体分解为若干主要组成部分,然后分析这些组成部分之间的结构关系,最终基于这些高阶关系做出判断。这种基于拓扑同质性的视觉机制使人类能够在复杂和多变的场景中准确地进行物体识别。受此启发,本研究提出了一种新颖的OOD泛化框架,称为Reconstruct and Match (REMA),旨在模仿人类视觉过程,通过重建与匹配的方式捕获数据的高阶拓扑结构与语义关系。具体而言,REMA框架包括两个关键模块:选择性槽重建模块 (Selective Slot-based Reconstruction, SSR) 和高阶关系建模模块 (High-Order Relational Reasoning, HORR)。首先,SSR模块通过自监督的方式将密集的像素特征动态映射到稀疏的、离散的槽向量集合,从而有效提取物体的主要组成部分。这种重建过程不仅减少了冗余信息,还保留了对目标物体最具代表性的特征。其次,HORR模块基于超图结构建模不同组成部分之间的高阶关系,通过超图匹配的方式捕获数据的拓扑同质性,显著提升模型在分布外数据上的鲁棒性和泛化能力。
本工作主要贡献如下:
提出了一种新的模仿人类视觉系统的方法来缓解在分布外数据上的泛化能力;
提出了一个自监督重建来识别场景中的物体信息,并且引入超图匹配推理物体的关系以及不同域的交互;
六个测试基准上REMA在泛化性能和时间效率上都优于当前先进的方法。
接下来介绍REMA的训练和推理过程,REMA的训练与推理过程采用端到端的方式进行优化,其总体损失函数为
图1 REMA网络结构图,主要由SSR和HORR两个模块组成:
(1) 抽象: 将物体的特征绑定到一些离散的槽向量 (slot)
(2) 推理: 通过构建超图,学习匹配,使模型习得图像拓扑一致性
接下来我们展示REMA在三个广泛使用的图像分类基准数据集上的表现,如表1所示。在PACS数据集上,REMA达到了88.7%的准确率,比最近的VNE方法提高了1.8个百分点;在Office-Home数据集上,REMA取得了72.0%的准确率,相比VNE提升了6.1个百分点;在VLCS数据集上,REMA获得了79.4%的准确率,超过VNE 1.3个百分点。平均而言,REMA在三个数据集上的平均准确率达到了80.0%,显著优于所有现有方法,证明了我们提出的基于拓扑结构的方法在处理分布偏移问题上的有效性。
接下来是在图像扰动基准测试上的错误率比较,结果如表2所示。在三个数据集CIFAR-10C、CIFAR-100C和ImageNet-C上,REMA分别达到了12.0%、35.8%和52.2%的错误率,平均错误率为33.3%。相比现有最好的方法TSD(错误率分别为13.1%、37.7%和53.2%,平均34.6%),REMA在所有测试场景中都取得了更好的性能。
-- End --
[1] Kartik Ahuja, Karthikeyan Shanmugam, Kush Varshney, and Amit Dhurandhar. Invariant risk minimization games. International Conference on Machine Learning (ICML). 145-155, 2020.
[2] Kaiyang Zhou, Yongxin Yang, Yu Qiao, and Tao Xiang. Domain generalization with mixstyle. International Conference on Learning Representations (ICLR), 2021.
[3] Marvin Mengxin Zhang, Sergey Levine, and Chelsea Finn. Memo: Test time robustness via adaptation and augmentation. Advances in Neural Information Processing Systems (NeurIPS). 38629-38642, 2022.
[4] Yu Sun, Xiaolong Wang, Zhuang Liu, John Miller, Alexei Efros, and Moritz Hardt. Test-time training with self-supervision for generalization under distribution shifts. International Conference on Machine Learning (ICML). 9229-9248, 2020.
[5] Riccardo Volpi, Hongseok Namkoong, Ozan Sener, John C Duchi, Vittorio Murino, and Silvio Savarese. Generalizing to unseen domains via adversarial data augmentation. Advances in Neural Information Processing Systems (NeurIPS). 5334-5344, 2018.
[6] Qin Wang, Olga Fink, Luc Van Gool, and Dengxin Dai. Continual test-time domain adaptation. Conference on Computer Vision and Pattern Recognition (CVPR). 7201-7211, 2022.
[7] Hanlin Zhang, Yi-Fan Zhang, Weiyang Liu, Adrian Weller, Bernhard Schölkopf, and Eric P Xing. Towards principled disentanglement for domain generalization. Conference on Computer Vision and Pattern Recognition (CVPR). 8024-8034, 2022.
[8] Ya Li, Xinmei Tian, Mingming Gong, Yajing Liu, Tongliang Liu, Kun Zhang, and Dacheng Tao. Deep domain generalization via conditional invariant adversarial networks. European Conference on Computer Vision (ECCV). 624-639, 2018.