NO.1 论文简介
随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一种基于联合特征的跨模态检索模型,其特征提取部分由两级网络分别处理图像与文本的局部特征和全局特征。并且在全局特征优化的过程中,设计了基于注意力机制的双线性层结构来过滤冗余信息,减小与局部特征的精细度差距。同时为实现两类特征联合优化,在损失函数部分使用三元组排名损失获取不同模态间的联系,并引入语义标签分类损失保持全局语义一致性。所提出的模型具有广泛的通用性,可以有效提升仅基于局部信息模型的性能。在公开数据集Flickr 30k和MS COCO上一系列的实验结果表明,提出的模型有效地提升了跨模态图文检索任务的性能,在Flickr 30k数据集检索任务中提出的模型在文本检索的 R@1 指标上提高了5.1%,在图像检索的 R@1 指标上提高了2.8%。
NO.2 主要贡献
(1)本文提出了一种用于图文检索的联合特征推理网络,该网络通过联合图文的局部特征和全局特征,在细粒度对齐的基础上保证全局语义一致性,实现更精准的跨模态图文检索。
(2)本文提出了能够融合图像全局特征和局部特征的双线性层结构,使用图像全局特征引导图像的局部特征,提取局部特征中的关键信息,融合获得优化的全局特征向量,使两类特征更好地联合训练。
通过双流网络初步得到图文的全局特征和局部特征,考虑到图像的全局特征仅通过卷积神经网络处理整张图像得到,而局部特征则通过两阶段的方法处理图像区域得到,两类特征在表达能力上有较大差距,直接联合优化会对最终的检索性能带来负面影响。为此本文提出了双线性层结构,具体网络结构如图3所示。其主要思想是基于图像的全局特征为每一个局部特征分配权重,将各个局部特征加权相加后生成新的全局特征,突出其中的重要区域,消除噪声的影响,进而优化全局特征表示,有效减小全局特征与局部特征之间表达能力的差距。
NO.3 研究结论
本文提出了一个适用于图文跨模态检索的联合特征优化方法,从全局特征和局部特征两个角度进行图像和文本的匹配。本文使用双线性层结构和全局语义一致性方法将全局特征和局部特征联合优化,融合两类特征的优点。并且提出的方法具有广泛的通用性,将本方法应用到仅基于局部信息的模型中,可以显著提高原模型的性能。在公开数据集MS COCO和Flickr 30k数据集上的大量实验验证了提出方法的有效性。
NO.4 论文资助
国家自然科学基金(62272364)
陕西高等继续教育教学改革研究课题(21XJZ004)
NO.4 作者介绍
本文作者都来自于西安电子科技大学计算机科学与技术学院大数据与视觉智能研究所。该所依托“计算机科学与技术”双一流学科,主要任务是面向国家重大需求和学科前沿,促进基础研究,推进大数据分析与智能视觉领域技术发展和转化,培养高层次人才,拓展优势领域,主动谋划大项目和大系统,促进信息技术成果在行业领域的转化和应用,主要研究方向包括视觉目标检测、识别与行为分析、遥感影像分析与处理、大数据管理、可视化与可视分析、教育大数据挖掘与分析、智能教育技术、教育大模型及其应用等。
E-mail:dhgao@stu.xidian.edu.cn。
E-mail:xuxiaodong@stu.xidian.edu.cn。
·引用格式·
高迪辉, 盛立杰, 许小冬, 苗启广. 图文跨模态检索的联合特征方法(2024) [J/OL]. 西安电子科技大学学报, [2024-03-13]. https://doi.org/10.19665/j.issn1001-2400.20240302
“扫描二维码或复制链接查看原文”
https://link.cnki.net/doi/10.19665/j.issn1001-2400.20240302
编辑:许瀚樱
校对:杨 薇
审核:牛姗姗
· 优文推荐 2024年第3期 ·
· 优文推荐 2024年第2期 ·
优文推荐 | 考虑HPSA的IRS辅助室内VLC系统光源优化
优文推荐 | 抗理性敌手共谋的安全K-prototype聚类
· 推荐阅读 ·
- 联系我们 -
xuebao@mail.xidian.edu.cn