点击上方蓝字关注我们
连政, 王瑞, 李海昌, 姚辉, 胡晓惠. 基于语境辅助转换器的图像标题生成算法. 自动化学报, 2023, 49(9): 1889−1903
1
摘要
在图像标题生成领域, 交叉注意力机制在建模语义查询与图像区域的关系方面, 已经取得了重要的进展. 然而, 其视觉连贯性仍有待探索. 为填补这项空白, 提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA)机制, 利用历史语境记忆(Historical context memory, HCM), 来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响. 同时, 提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)” 的正则化方法, 来限制每个CACA模块分配给历史语境的权重总和. 本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型, 构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型, 用于解决图像标题生成问题. 基于MS COCO (Microsoft common objects in context)数据集的实验结果证明, 与当前先进的方法相比, 该方法均实现了稳定的提升.
2
引言
在当前主流的图像标题生成算法中, 交叉注意力机制在建模语义查询与图像区域之间的关系方面, 发挥着关键性的作用. 然而, 大多数现有的基于注意力机制的算法都忽视了视觉连贯性的潜在影响. 事实上, 我们人类往往会不由自主地回顾先前关注过的信息, 以便在当前时刻做出更加合理的注意力决策. 遗憾的是, 传统的交叉注意力机制无法实现这个意图. 为了弥补这项缺陷, 本文提出了一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA) 机制. 具体来讲, 在每一个解码时刻, CACA模块会首先根据当前输入的语义查询, 利用交叉注意力模块从图像特征中提取出与当前查询最为相关的临时语境特征, 并将其保存在历史语境记忆(Historical context memory, HCM)中, 然后将HCM中全部的历史语境特征与图像的局部特征相拼接, 作为键值对, 再次输入交叉注意力模块, 获取当前时刻最终的注意力语境特征. 同时, 为了限制每个CACA模块分配给历史语境的权重总和, 本文提出了一种名为“自适应权重约束(Adaptive weight constraint, AWC)”的正则化方法, 从优化注意力权重分布的角度提升模型的泛化性能. 本文将CACA模块与AWC方法同时集成在转换器(Transformer)模型上, 构建了语境辅助的转换器(Context-assisted transformer, CAT)模型. 尽管Transformer模型可以通过自注意力层在一定程度上建模历史语义信息, 然而, 从信息论的角度来讲, 根据数据处理不等式[8]可知, 输入模型的特征向量在神经网络逐层的特征处理与消息传递过程中, 势必会丢失一部分关键信息, 这将导致交叉注意力模块在某一时刻建模的语义信息无法完整地传递到后续解码过程中并得到充分利用. 为此, CAT模型采用语境辅助的交叉注意力机制, 通过历史语境记忆保存了历史时刻中完整的交叉注意力语义特征, 充分利用序列预测过程中视觉信息的连贯性, 为解码过程提供更加丰富可靠的语境信息. 本文在流行的MS COCO (Microsoft common objects in context)数据集[9]上, 以多个基于Transformer的图像标题生成算法作为基线模型, 通过向解码器中引入CACA模块与AWC方法, 对所提算法进行了评价. 实验结果表明, 与众多先进的基线模型相比, 本文提出的方法在它们的基础上均实现了稳定的提升.
本文的后续内容安排如下: 第1节主要介绍图像标题生成领域的相关工作; 第2节详细介绍本文提出的方法; 第3节通过大量的对比实验从众多角度对本文方法进行分析; 第4节总结本文的研究成果, 并提出下一步的工作设想.
3
正文框架
1. 图像标题生成算法综述
2. 基于语境辅助转换器的图像标题生成模型
2.1 多头注意力机制
2.2 语境辅助的交叉注意力机制
2.3 轻量级语境辅助的交叉注意力机制
2.4 语境辅助的转换器
2.5 模型优化
3. 实验与分析
3.1 数据集与评价标准
3.2 实现细节
3.3 语境辅助交叉注意力机制的性能分析
3.4 语境辅助转换器与先进基线方法的比较
3.5 语境辅助交叉注意力机制的消融实验
3.6 自适应权重约束的消融实验
3.7 注意力图的可视化分析
3.8 图像标题生成示例
3.9 人工评价
4. 结束语
部分文献
作者简介
》【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制
》【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制
》自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望
》自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统
》自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制
》自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用
》自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用
》自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望
》自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法
》自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制
》自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究
》自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制
》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价
》《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望
》《自动化学报》多篇论文入选高影响力论文
》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文
》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文
》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1
》《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文
》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类
》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文
》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊
长按二维码|关注我们
IEEE/CAA Journal of Automatica Sinica (JAS)
长按二维码|关注我们
《自动化学报》服务号
联系我们
网站:
投稿:
https://mc03.manuscriptcentral.com/aas-cn
https://mc03.manuscriptcentral.com/ieee-jas
电话: 010-82544653(日常咨询和稿件处理)
010-82544677(录用后稿件处理)
邮箱: aas@ia.ac.cn(日常咨询和稿件处理)
aas_editor@ia.ac.cn(录用后稿件处理)
博客:
点击阅读原文 了解更多