优文推荐 | 图文跨模态检索的联合特征方法

文摘   科技   2024-06-11 09:19   陕西  


NO.1 论文简介


随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一种基于联合特征的跨模态检索模型,其特征提取部分由两级网络分别处理图像与文本的局部特征和全局特征。并且在全局特征优化的过程中,设计了基于注意力机制的双线性层结构来过滤冗余信息,减小与局部特征的精细度差距。同时为实现两类特征联合优化,在损失函数部分使用三元组排名损失获取不同模态间的联系,并引入语义标签分类损失保持全局语义一致性。所提出的模型具有广泛的通用性,可以有效提升仅基于局部信息模型的性能。在公开数据集Flickr 30k和MS COCO上一系列的实验结果表明,提出的模型有效地提升了跨模态图文检索任务的性能,在Flickr 30k数据集检索任务中提出的模型在文本检索的 R@1 指标上提高了5.1%,在图像检索的 R@1 指标上提高了2.8%。

NO.2 主要贡献


(1)本文提出了一种用于图文检索的联合特征推理网络,该网络通过联合图文的局部特征和全局特征,在细粒度对齐的基础上保证全局语义一致性,实现更精准的跨模态图文检索。

图1  基于联合特征的跨模态检索框架
本文提出的基于联合特征的跨模态检索模型整体框架如图1所示,其中虚线框所示特征提取部分可以是任何仅利用局部特征的模型,在其基础上加入全局特征提取分支,实现联合特征的跨模态检索,因此具有广泛的通用性。图2展示了本文在图像端和文本端提取全局特征和局部特征所使用的具体模型。其中,图像全局特征使用ResNet-52网络提取,局部特征提取使用了以ResNet-101网络为主干的Faster R-CNN模型,基于自底向上的注意力机制得到图像中显著的图像区域;文本的局部特征提取过程中使用了预训练的BERT模型,由于BERT对于文本语义的表达非常精确,本文直接使用文本局部特征的平均值作为文本的全局特征。

图2  基于联合特征的跨模态检索框架

(2)本文提出了能够融合图像全局特征和局部特征的双线性层结构,使用图像全局特征引导图像的局部特征,提取局部特征中的关键信息,融合获得优化的全局特征向量,使两类特征更好地联合训练。

图3  双线性层结构

通过双流网络初步得到图文的全局特征和局部特征,考虑到图像的全局特征仅通过卷积神经网络处理整张图像得到,而局部特征则通过两阶段的方法处理图像区域得到,两类特征在表达能力上有较大差距,直接联合优化会对最终的检索性能带来负面影响。为此本文提出了双线性层结构,具体网络结构如图3所示。其主要思想是基于图像的全局特征为每一个局部特征分配权重,将各个局部特征加权相加后生成新的全局特征,突出其中的重要区域,消除噪声的影响,进而优化全局特征表示,有效减小全局特征与局部特征之间表达能力的差距。

(3)从数据集中抽取名词引入语义标签,加入到损失函数中,获得更好的全局特征训练效果。图文检索模型训练时往往会将图像和文本的特征向量投影到一个共同空间中,并在该空间计算彼此的相似度,如果图文的全局特征和局部特征均使用相似度来优化,由于全局特征表达的精确度与局部特征仍有差距,模型性能会受到负面影响,因此引入了语义标签来保持全局语义一致性。由于目前的图文检索数据集并没有提供图像与文本的标签信息,所以从数据集中抽取有意义的名词作为当前图文对的标签信息。

NO.3 研究结论


本文提出了一个适用于图文跨模态检索的联合特征优化方法,从全局特征和局部特征两个角度进行图像和文本的匹配。本文使用双线性层结构和全局语义一致性方法将全局特征和局部特征联合优化,融合两类特征的优点。并且提出的方法具有广泛的通用性,将本方法应用到仅基于局部信息的模型中,可以显著提高原模型的性能。在公开数据集MS COCO和Flickr 30k数据集上的大量实验验证了提出方法的有效性。

NO.4 论文资助


  • 国家自然科学基金(62272364)

  • 陕西高等继续教育教学改革研究课题(21XJZ004)

NO.4 作者介绍


本文作者都来自于西安电子科技大学计算机科学与技术学院大数据与视觉智能研究所。该所依托“计算机科学与技术”双一流学科,主要任务是面向国家重大需求和学科前沿,促进基础研究,推进大数据分析与智能视觉领域技术发展和转化,培养高层次人才,拓展优势领域,主动谋划大项目和大系统,促进信息技术成果在行业领域的转化和应用,主要研究方向包括视觉目标检测、识别与行为分析、遥感影像分析与处理、大数据管理、可视化与可视分析、教育大数据挖掘与分析、智能教育技术、教育大模型及其应用等。

作者介绍:
高迪辉(1998—),男,西安电子科技大学硕士研究生,

E-mail:dhgao@stu.xidian.edu.cn。

许小冬(1999—),男,西安电子科技大学硕士研究生,

E-mail:xuxiaodong@stu.xidian.edu.cn。

盛立杰(1976—),男,副教授,硕士生导师,主要研究方向:计算机视觉,智能人机交互,E-mail:ljsheng@xidian.edu.cn。
苗启广(1972—),男,教授,博士生导师,主要研究方向:计算机视觉,机器学习,E-mail:qgmiao@xidian.edu.cn。




·引用格式·


高迪辉, 盛立杰, 许小冬, 苗启广. 图文跨模态检索的联合特征方法(2024) [J/OL]. 西安电子科技大学学报, [2024-03-13]. https://doi.org/10.19665/j.issn1001-2400.20240302

· 原文链接 ·  



“扫描二维码或复制链接查看原文”

https://link.cnki.net/doi/10.19665/j.issn1001-2400.20240302

   编辑:许瀚樱

校对:杨   

   审核:牛姗姗


· 优文推荐 2024年第3期 ·

优文推荐 | 面向带宽受限场景的高效语义通信方法

优文推荐 | LowMC在BGV全同态加密环境下的噪声评估

优文推荐 | 基于多边形特征池化与融合的复杂文本检测

优文推荐 | 一种支持交易筛选的高性能智能合约测试方案

优文推荐 | 叠加导频传输无标识随机接入方案研究

优文推荐 | 一种自注意力序列模型的视频流长期预测方法

· 优文推荐 2024年第2期 ·

优文推荐 | 一种计算ARX密码差分—线性偏差的新方法

优文推荐 | 面向韧性拓扑构造的无人机集群功率分配策略

优文推荐 | 考虑HPSA的IRS辅助室内VLC系统光源优化

优文推荐 | 一种高效的软件模糊测试种子生成方法

优文推荐 | 针对浅海水声通信的极化码构造与应用研究

优文推荐 | 基于归一化循环前缀相关谱的无人机识别技术

优文推荐 | 张量分解和自适应图全变分的高光谱图像去噪

优文推荐 | 通信计算联合优化的图分割工作流部署方法

优文推荐 | SAR图像舰船目标检测的轻量化和特征增强研究

优文推荐 | 抗理性敌手共谋的安全K-prototype聚类

优文推荐 | 面向国产异构DCU平台的大规模并行矩量法研究



· 推荐阅读 ·

目录 | 《西安电子科技大学学报》2024年第51卷第2期

目录 | 《西安电子科技大学学报》2024年第51卷第1期

目录 | 《西安电子科技大学学报》2023年第50卷第6期

目录 | 《西安电子科技大学学报》2023年第50卷第5期

目录 | 《西安电子科技大学学报》2023年第50卷第4期



-  联系我们 -

西安电子科技大学学报网址:
https://journal_xdxb.xidian.edu.cn
在线投稿:
https://journal.xidian.edu.cn/Journalx_xidian
电话:
(029)88202853
邮箱:

xuebao@mail.xidian.edu.cn



西安电子科技大学学报
《西安电子科技大学学报》由西安电子科技大学主办,创刊于1955年。是工程索引数据库(EI)全部收录期刊、中国科学引文数据库(CSCD)全部收录期刊,在电子信息科学领域具有很高的学术声誉和影响力。
 最新文章