北京科技大学方治屿,祝晓斌等 | 基于增强表征对齐的泛化零样本学习

文摘   科技   2025-01-19 12:00   北京  

研究团队

方治屿,祝晓斌,杨春,周鸿杨,覃京燕,殷绪成:北京科技大学

文章下载

Zhiyu FANG, Xiaobin ZHU, Chun YANG, Hongyang ZHOU, Jingyan QIN & Xu-Cheng YIN. Aligning enhanced feature representation for generalized zero-shot learning. Sci China Inf Sci, 2025, 68(2): 122102, doi: 10.1007/s11432-023-4174-4



研究意义

泛化零样本学习作为一种先进的机器学习技术,它通过使用诸如属性、词向量和语义描述等辅助信息,允许模型在没有直接训练数据的情况下识别新类别,建立从已知类别到未知类别的知识迁移。在泛化零样本学习领域,主流方法通过变分自编码器构建有效的通用潜在嵌入,实现不同模态数据的有效对齐。但由于缺乏对单个实例的精细标注这一固有问题的存在,导致这类方法普遍存在后验坍塌问题,严重阻碍了模型对潜在表示的学习。

本文工作

为了解决上述问题,本文提出了一个非对称变分自编码器模型(AEFR),该模型通过对齐增强的特征表示来学习具备强鉴别能力的特征表示。与现有独立处理不同模态的基于VAE的方法不同,本文设计了一个包含两个独立编码器和共享解码器的非对称变分自编码器。其中,视觉编码器中包含一种门控注意力机制(GAM),以加强观察和潜在变量之间的信息交互,目的是有效缓解后验崩溃问题;语义编码器将均值嵌入与方差学习策略相结合,以实现对语义潜在空间的有效建模。此外,本文提出了一种基于分布解耦的对比学习策略,以优化视觉和语义模态在共享潜在空间中的对齐。具体来说,通过结合来自两个编码器的潜在表征和基于分布的增强表征,使模型在特征表示空间的分类级别对齐潜在变量,学习与分类相关的有效信息。最终,使用AEFR编码的强鉴别特征表示训练了一个softmax分类器,在五个基准测试中取得了优于现有先进方法的卓越性能。

本文创新点如下:

(1) 提出一种非对称的变分自编码器模型,在零样本学习的五个基线测试上取得先进结果。

(2) 设计一种门控注意力机制,利用最大化观测和潜在变量的联合分布来增强隐变量的信息交互,从而缓解后验坍塌问题。

(3) 提出了一种新颖的基于分布解耦的对比学习,以对齐不同分布方式模态的表示,同时监督学习分类相关信息。

实验结果

本文所提出的方法在五个领域内公开数据集(CUB、SUN、AwA、APY、FLO)上进行了验证,实验采用模型在已知类和未知类上的平均分类精度,以及它们的调和平均数作为评价指标。为展示所提方法的有效性和优势,本文依据视觉特征是否进行微调将当前先进(SOTA)方法划分为基于特征生成(FG-based)的方法和基于特征微调(FF-based)的方法,并将不同方法在公共基准数据集上的结果列在下表中。结果显示,本文所提方法AEFR在大多数基准数据集上无论是否进行特征微调都取得了有竞争里的性能表现。




中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章