北京科技大学方治屿,祝晓斌等 | 基于增强表征对齐的泛化零样本学习

文摘科技 2025-01-19 12:00 北京

研究团队

方治屿，祝晓斌，杨春，周鸿杨，覃京燕，殷绪成：北京科技大学

文章下载

Zhiyu FANG, Xiaobin ZHU, Chun YANG, Hongyang ZHOU, Jingyan QIN & Xu-Cheng YIN. Aligning enhanced feature representation for generalized zero-shot learning. Sci China Inf Sci, 2025, 68(2): 122102, doi: 10.1007/s11432-023-4174-4

研究意义

泛化零样本学习作为一种先进的机器学习技术，它通过使用诸如属性、词向量和语义描述等辅助信息，允许模型在没有直接训练数据的情况下识别新类别，建立从已知类别到未知类别的知识迁移。在泛化零样本学习领域，主流方法通过变分自编码器构建有效的通用潜在嵌入，实现不同模态数据的有效对齐。但由于缺乏对单个实例的精细标注这一固有问题的存在，导致这类方法普遍存在后验坍塌问题，严重阻碍了模型对潜在表示的学习。

本文工作

为了解决上述问题，本文提出了一个非对称变分自编码器模型（AEFR），该模型通过对齐增强的特征表示来学习具备强鉴别能力的特征表示。与现有独立处理不同模态的基于VAE的方法不同，本文设计了一个包含两个独立编码器和共享解码器的非对称变分自编码器。其中，视觉编码器中包含一种门控注意力机制（GAM），以加强观察和潜在变量之间的信息交互，目的是有效缓解后验崩溃问题；语义编码器将均值嵌入与方差学习策略相结合，以实现对语义潜在空间的有效建模。此外，本文提出了一种基于分布解耦的对比学习策略，以优化视觉和语义模态在共享潜在空间中的对齐。具体来说，通过结合来自两个编码器的潜在表征和基于分布的增强表征，使模型在特征表示空间的分类级别对齐潜在变量，学习与分类相关的有效信息。最终，使用AEFR编码的强鉴别特征表示训练了一个softmax分类器，在五个基准测试中取得了优于现有先进方法的卓越性能。

本文创新点如下：

(1) 提出一种非对称的变分自编码器模型，在零样本学习的五个基线测试上取得先进结果。

(2) 设计一种门控注意力机制，利用最大化观测和潜在变量的联合分布来增强隐变量的信息交互，从而缓解后验坍塌问题。

(3) 提出了一种新颖的基于分布解耦的对比学习，以对齐不同分布方式模态的表示，同时监督学习分类相关信息。

实验结果

本文所提出的方法在五个领域内公开数据集（CUB、SUN、AwA、APY、FLO）上进行了验证，实验采用模型在已知类和未知类上的平均分类精度，以及它们的调和平均数作为评价指标。为展示所提方法的有效性和优势，本文依据视觉特征是否进行微调将当前先进(SOTA)方法划分为基于特征生成（FG-based）的方法和基于特征微调（FF-based）的方法，并将不同方法在公共基准数据集上的结果列在下表中。结果显示，本文所提方法AEFR在大多数基准数据集上无论是否进行特征微调都取得了有竞争里的性能表现。

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

曹进德团队 | 非凸控制约束下多智能体系统一致性和包含分析: 终端迭代学习策略

南京大学吕建,马晓星团队 | 神经符号系统：非确定性管理的视角

王兴平,朱建栋,冯俊娥等 | 线性多智能体编队控制的可实现性问题

6G卫星互联网下的广域边缘智能: 时空可感的任务卸载与资源管理方案

上海大学谢少荣团队 | 嵌入预设时间自适应控制与定向拓扑的多机器人系统分布式共识

北京科技大学方治屿,祝晓斌等 | 基于增强表征对齐的泛化零样本学习

上海交通大学李馨月,段慧煜,王嘉,刘笑宏,陈一彤,翟广涛 | 光计算前的场景自适应网络助力快速图像预增强

段广仁院士 | 广义链式系统镇定控制的全驱系统方法

上海大学朱晓锦团队 | 压电智能叶片的优化配置与振动主动控制算法

东北师范大学刘益春院士课题组 | 基于等离激元光电忆阻器的神经形态彩色视觉系统

东南大学章宇轩,卢安安,高西奇等 | 基于辛优化的大规模MIMO-OFDM跨子载波预编码设计

2025年第1期目录 | SCIENCE CHINA Information Sciences

浙江工业大学张贵军团队 | 蛋白质复合物链间残基距离深度学习预测方法

焦博韬,郭一楠,何潇等 | 基于动态支持向量提取的复杂装备实时安全评估

3GPP FR3频段信道建模标准化的最新进展

松山湖实验室、CSIRO等单位 | 基于AlGaN/GaN HEMT的Schottky-MIS级联阳极横向FED实现极低漏电流

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉