泛化零样本学习作为一种先进的机器学习技术,它通过使用诸如属性、词向量和语义描述等辅助信息,允许模型在没有直接训练数据的情况下识别新类别,建立从已知类别到未知类别的知识迁移。在泛化零样本学习领域,主流方法通过变分自编码器构建有效的通用潜在嵌入,实现不同模态数据的有效对齐。但由于缺乏对单个实例的精细标注这一固有问题的存在,导致这类方法普遍存在后验坍塌问题,严重阻碍了模型对潜在表示的学习。
为了解决上述问题,本文提出了一个非对称变分自编码器模型(AEFR),该模型通过对齐增强的特征表示来学习具备强鉴别能力的特征表示。与现有独立处理不同模态的基于VAE的方法不同,本文设计了一个包含两个独立编码器和共享解码器的非对称变分自编码器。其中,视觉编码器中包含一种门控注意力机制(GAM),以加强观察和潜在变量之间的信息交互,目的是有效缓解后验崩溃问题;语义编码器将均值嵌入与方差学习策略相结合,以实现对语义潜在空间的有效建模。此外,本文提出了一种基于分布解耦的对比学习策略,以优化视觉和语义模态在共享潜在空间中的对齐。具体来说,通过结合来自两个编码器的潜在表征和基于分布的增强表征,使模型在特征表示空间的分类级别对齐潜在变量,学习与分类相关的有效信息。最终,使用AEFR编码的强鉴别特征表示训练了一个softmax分类器,在五个基准测试中取得了优于现有先进方法的卓越性能。
本文创新点如下:
(1) 提出一种非对称的变分自编码器模型,在零样本学习的五个基线测试上取得先进结果。
(2) 设计一种门控注意力机制,利用最大化观测和潜在变量的联合分布来增强隐变量的信息交互,从而缓解后验坍塌问题。
(3) 提出了一种新颖的基于分布解耦的对比学习,以对齐不同分布方式模态的表示,同时监督学习分类相关信息。