【视频专栏】基于语境辅助转换器的图像标题生成算法

文摘   科技   2024-03-07 17:00   北京  

点击上方蓝字关注我们


连政, 王瑞, 李海昌, 姚辉, 胡晓惠. 基于语境辅助转换器的图像标题生成算法. 自动化学报, 2023, 49(9): 1889−1903

1

摘要

       在图像标题生成领域, 交叉注意力机制在建模语义查询与图像区域的关系方面, 已经取得了重要的进展. 然而, 其视觉连贯性仍有待探索. 为填补这项空白, 提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA)机制, 利用历史语境记忆(Historical context memory, HCM), 来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响. 同时, 提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)” 的正则化方法, 来限制每个CACA模块分配给历史语境的权重总和. 本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型, 构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型, 用于解决图像标题生成问题. 基于MS COCO (Microsoft common objects in context)数据集的实验结果证明, 与当前先进的方法相比, 该方法均实现了稳定的提升.


2

引言

图像标题生成(Image captioning)是一项跨越计算机视觉与自然语言处理领域的多模态生成式任务[1-5], 其主要目标是自动为图像生成准确的描述性语句. 这要求计算机不仅要充分理解图像中的对象以及它们之间的关系, 还要通过流畅的自然语言表达出图像的内容. 图像标题生成技术具有广泛的应用价值. 在学术研究当中, 它可以推动图文检索、视觉问答等多模态领域技术的发展. 在实际生活当中, 这项技术在幼儿的早期教育和视障人群辅助设备的设计方面发挥着重要作用.

受神经机器翻译领域研究的启发, 早期的基于深度神经网络的图像标题生成算法[6]采用了经典的编码器−解码器 (Encoder-decoder)框架, 它将卷积神经网络(Convolutional neural network, CNN)作为编码器, 提取图像的全局特征, 再使用循环神经网络(Recurrent neural network, RNN)作为解码器对图像特征进行解码, 生成图像标题. 尽管经典的编码器−解码器框架在图像标题生成领域取得了巨大的成功, 但是两个固有的缺陷严重限制了该框架的序列解码能力: 1) 图像的全局信息在初始时刻被一次性地输入到解码器当中, 而解码器缺少特征筛选的关键模块, 难以捕捉预测单词时所需的相关视觉特征; 2) 在整个序列预测的过程中, 作为解码器的循环神经网络会不断丢失一些重要的视觉信息, 从而导致语言模型在预测后期逐渐缺少了视觉信息的指导, 产生明显的误差累积, 降低图像标题的生成质量.

为了解决上述问题, 注意力机制(Attention mechanism)被引入到图像标题生成算法当中. 注意力机制拓展了经典的编码器−解码器框架, 它允许解码器在图像标题生成的不同时刻关注到与当前语义查询最为相关的图像信息. 具体来讲, 基于注意力机制的图像标题生成算法不再只是使用图像的全局特征, 而是首先通过CNN提取图像的局部区域特征, 再使用基于长短期记忆(Long short-term memory, LSTM)网络的解码器对图像特征进行解码. 在每一个解码时刻, 注意力模块会将LSTM提供的隐藏状态作为语义查询, 为图像的各个区域分配不同的注意力权重, 再通过对各部分图像特征进行加权求和, 得到当前时刻的注意力语境特征, 进而指导语言模型生成图像标题. 近年来, 转换器(Transformer)[7]在自然语言处理领域得到了广泛的应用, 它通过多头注意力 (Multi-head attention)机制在多个语义空间中建模查询与键值对之间的关系. 在图像标题生成领域, Transformer首先依靠自注意力(Self-attention) 机制实现图像局部信息的融合, 然后通过解码器中的交叉注意力模块向语言模型中引入融合后的视觉特征, 实现不同模态的特征交互.

在当前主流的图像标题生成算法中, 交叉注意力机制在建模语义查询与图像区域之间的关系方面, 发挥着关键性的作用. 然而, 大多数现有的基于注意力机制的算法都忽视了视觉连贯性的潜在影响. 事实上, 我们人类往往会不由自主地回顾先前关注过的信息, 以便在当前时刻做出更加合理的注意力决策. 遗憾的是, 传统的交叉注意力机制无法实现这个意图. 为了弥补这项缺陷, 本文提出了一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA) 机制. 具体来讲, 在每一个解码时刻, CACA模块会首先根据当前输入的语义查询, 利用交叉注意力模块从图像特征中提取出与当前查询最为相关的临时语境特征, 并将其保存在历史语境记忆(Historical context memory, HCM)中, 然后将HCM中全部的历史语境特征与图像的局部特征相拼接, 作为键值对, 再次输入交叉注意力模块, 获取当前时刻最终的注意力语境特征. 同时, 为了限制每个CACA模块分配给历史语境的权重总和, 本文提出了一种名为“自适应权重约束(Adaptive weight constraint, AWC)”的正则化方法, 从优化注意力权重分布的角度提升模型的泛化性能. 本文将CACA模块与AWC方法同时集成在转换器(Transformer)模型上, 构建了语境辅助的转换器(Context-assisted transformer, CAT)模型. 尽管Transformer模型可以通过自注意力层在一定程度上建模历史语义信息, 然而, 从信息论的角度来讲, 根据数据处理不等式[8]可知, 输入模型的特征向量在神经网络逐层的特征处理与消息传递过程中, 势必会丢失一部分关键信息, 这将导致交叉注意力模块在某一时刻建模的语义信息无法完整地传递到后续解码过程中并得到充分利用. 为此, CAT模型采用语境辅助的交叉注意力机制, 通过历史语境记忆保存了历史时刻中完整的交叉注意力语义特征, 充分利用序列预测过程中视觉信息的连贯性, 为解码过程提供更加丰富可靠的语境信息. 本文在流行的MS COCO (Microsoft common objects in context)数据集[9]上, 以多个基于Transformer的图像标题生成算法作为基线模型, 通过向解码器中引入CACA模块与AWC方法, 对所提算法进行了评价. 实验结果表明, 与众多先进的基线模型相比, 本文提出的方法在它们的基础上均实现了稳定的提升.


本文的后续内容安排如下: 第1节主要介绍图像标题生成领域的相关工作; 第2节详细介绍本文提出的方法; 第3节通过大量的对比实验从众多角度对本文方法进行分析; 第4节总结本文的研究成果, 并提出下一步的工作设想.


3

正文框架

1. 图像标题生成算法综述

2. 基于语境辅助转换器的图像标题生成模型

  2.1 多头注意力机制

  2.2 语境辅助的交叉注意力机制

  2.3 轻量级语境辅助的交叉注意力机制

  2.4 语境辅助的转换器

  2.5 模型优化

3. 实验与分析

  3.1 数据集与评价标准

  3.2 实现细节

  3.3 语境辅助交叉注意力机制的性能分析

  3.4 语境辅助转换器与先进基线方法的比较

  3.5 语境辅助交叉注意力机制的消融实验

  3.6 自适应权重约束的消融实验

  3.7 注意力图的可视化分析

  3.8 图像标题生成示例

  3.9 人工评价

4. 结束语


部分文献


[1] Ji J, Luo Y, Sun X, Chen F, Luo G, Wu Y, et al. Improving image captioning by leveraging intra- and inter-layer global representation in Transformer network. In: Proceedings of the AAAI Conference on Artificial Intelligence. Virtual Conference: 2021. 1655−1663


[2] Fang Z, Wang J, Hu X, Liang L, Gan Z, Wang L, et al. Injecting semantic concepts into end-to-end image captioning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, Louisiana, USA: IEEE, 2022. 18009−18019


[3] Tan J H, Tan Y H, Chan C S, Chuah J H. Acort: a compact object relation transformer for parameter efficient image captioning. Neurocomputing, 2022, 482: 60-72 doi: 10.1016/j.neucom.2022.01.081


[4] Fei Z. Attention-aligned Transformer for image captioning. In: Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver, British Columbia, Canada: 2022. 607−615


[5] Stefanini M, Cornia M, Baraldi L, Cascianelli S, Fiameni G, Cucchiara R. From show to tell: a survey on deep learning-based image captioning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(1): 539-559


[6] Vinyals O, Toshev A, Bengio S, Erhan D. Show and tell: lessons learned from the 2015 mscoco image captioning challenge. IEEE Transactions on Multimedia, 2016, 39(4): 652-663


[7] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of Advances in Neural Information Processing Systems. Long Beach, USA: 2017. 5998−6008


[8] Cover T M, Thomas J A. Elements of Information Theory. New York: John Wiley & Sons, 2012.


[9] Lin T Y, Maire M, Belongie S J, Hays J, Perona P, Ramanan D, et al. Microsoft coco: Common objects in context. In: Proceedings of European Conference on Computer Vision. Zurich, Switzerland: 2014. 740−755


作者简介



连政,中国科学院软件研究所博士研究生. 2017年获得西安电子科技大学学士学位. 主要研究方向为图像标题生成和自然语言处理.

王瑞,中国科学院软件研究所高级工程师. 2012年获得山东大学硕士学位. 主要研究方向为深度强化学习和多媒体技术.

李海昌,中国科学院软件研究所副教授. 2016年获得中国科学院自动化研究所博士学位. 主要研究方向为计算机视觉和遥感技术.

姚辉,中国科学院软件研究所网络工程师. 1997年获得中国人民解放军装备指挥技术学院学士学位. 主要研究方向为智能信息处理和网络工程.

胡晓惠,中国科学院软件研究所教授. 2003年获得北京航空航天大学博士学位. 主要研究方向为大数据分析和协同多智能体系统. 本文通信作者.

【视频专栏】数据驱动的间歇低氧训练贝叶斯优化决策方法

【视频专栏】无控制器间通信的线性多智能体一致性的降阶协议

【视频专栏】异策略深度强化学习中的经验回放研究综述

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2024年第02期
》2024年第01期
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章