论文解读 | ACL2024：MARVEL：通过视觉模块插件解锁密集检索的多模态能力

文摘 2024-08-11 10:49 北京

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

概述

这篇论文提出了一种名为视觉模块插件多模态检索模型（MARVEL），它学习了一个嵌入空间，用于对查询和多模态文档进行检索。MARVEL使用统一的编码器模型对查询和多模态文档进行编码，这有助于减少图像和文本之间的模态差异。具体来说，我们通过将视觉模块编码的图像特征作为输入，增强了训练有素的密集检索器T5-ANCE的图像理解能力。为了促进多模态检索任务，我们基于ClueWeb22数据集构建了ClueWeb22-MM数据集，该数据集将锚文本视为查询，并从锚链接的网页中提取相关的文本和图像文档。我们的实验表明，MARVEL在多模态检索数据集WebQA和ClueWeb22-MM上显著优于最先进的方法。MARVEL提供了一个机会，将文本检索的优势扩展到多模态场景。此外，我们还展示了语言模型具有提取图像语义的能力，并能将部分图像特征映射到输入词嵌入空间。

论文地址：

https://arxiv.org/pdf/2310.14037

代码地址：

https://github. com/OpenMatch/MARVEL

Multi-Modal Retrival

随着互联网和多模态内容的增长，越来越多的浏览器或应用程序能够更轻松地返回相关内容给用户。

多模态检索任务的目标是根据用户查询从多模态源（如图像和文本）中检索文档。它侧重于查询和多模态文档之间的相关性建模，而不是文本-图像匹配。在某些场景中，使用图像来回答查询可能更为合适，如左图所示。

例如，对于“谁是图灵”的查询，它不仅返回文本，还可能提供图像。主要检索方法有两种：第一种是“分而治之”，就是分别进行图片和文本检索，然后采用某种方式如视觉语言模型合并检索结果；第二种是使用统一的视觉-语言模型进行综合检索。

现有的通用视觉-语言密集检索模型学习了一个用于多模态文档的通用嵌入空间，允许它在不同模态之间搜索候选项。然而，在编码过程中，文本和图像使用不同的编码器。为了缩小模态差异，UNIVL-DR将图像特征转化为文本，以增强原始文本空间中的图像文档。

本文中，作者旨在解决这样一个问题：能否建立一个统一的多模态的编码模型，将多模态信息映射到统一的三维空间中，以缓解不同编码器带来的模态差异。

Multi-modAl Retrieval model with MARVEL

在这篇工作中，作者设计了一个多模态检索模型MARVEL，通过视觉模块插件，统一编码图像和文本文档以及查询，以减轻图像和文本之间的模态差异。

文中使用插件视觉模块对图像特征进行编码并映射到语言模型空间。具体来说，使用CLIP的视觉编码器来编码图像特征，并使用一个适配层将视觉表示投影到密集检索模型的词嵌入空间，然后将视觉表示和图像标题词嵌入进行拼接。

此外，本文使用两个特殊标记和来指示图像特征的开始和结束。

随后，将图像特征和标题的联合嵌入输入到语言模型中，以获得图像文档的表示。

对于查询和文本文档，作者直接使用语言模型对它们进行编码。最终，查询、图像文档和文本文档都被映射到一个通用的嵌入空间中，以进行多模态密集检索。

在预训练阶段，本文遵循先前的工作，将图像和标题都视为查询，以计算双向对比学习损失，这有助于通过联合损失对齐图像和文本的模态。在整个过程中，仅更新视觉编码器和适配层的参数，以使视觉模块适应语言模型。

在微调阶段，作者冻结视觉编码器的参数并更新其他参数。为了减轻模态歧视问题并将图像理解能力整合到语言模型中，本文采用了模态平衡的硬负样本训练方法，以对齐查询与正样本候选项，并引导模型选择正确的模态，并保证嵌入空间的统一。

ClueWeb22-MM Dataset

此外，为了促进多模态检索任务，作者基于ClueWeb22构建了ClueWeb22-MM数据集，其规模与现有的开源数据集WebQA相匹配。

文中将锚文本视为查询，并将链接网页中的相应图像或文本文档视为其最佳的相关文档。

本文使用ClueWeb22-MM和WebQA数据集进行微调和推理，并使用从ClueWeb22数据集中提取的图像-标题对进行预训练。相应的统计数据在右侧的表格中展示。

Overall Performance

本文首先评估了MARVEL和现有模型的整体检索性能。

与主要基线UniVL-DR相比，MARVEL在两个数据集上的检索效率都有显著提高，证明了使用通用模型缓解模态差异的有效性。

此外，如图中所示，当用户询问“在‘和平与繁荣’中可以找到哪两种动物？”时，MARVEL可以直接提供一幅名为“和平与繁荣”的画作，帮助用户回答这个问题。

Effectiveness of Fusion Strategies

关于视觉-语言模型的融合方法，作者测试了三种不同的模态融合策略：插件式（plugin）、拼接（concatenation）和求和（sum）。

拼接和求和方法分别对图像和标题进行编码，然后将嵌入向量进行拼接或求和，以获得最终的表示。

本文实验表明，插件式方法可以通过联合建模文本和图像来缓解模态差异，并通过语言模型的注意力头促进图像和文本之间的更深层次交互，从而实现最佳的检索结果。

Effectiveness of Visual Module Adaption Pretraining

为了验证视觉模块适配预训练的有效性，本文在两个数据集上测试了模型的检索性能。

通过视觉模块预训练，MARVEL的检索能力得到了显著增强，这为将视觉模块适配到语言模型提供了一些机会。

然后，取视觉模块编码的图像向量，并使用余弦相似度来找到它们最接近的词元。

如图中所示，通过视觉模块预训练，MARVEL学习了更有效的表示，这些表示更接近图像的语义。它从图像中捕获了更细粒度的语义信息，例如车辆、旗帜和军事。

相比之下，未经预训练的模型只能捕获图像中描绘的国家的信息。

Effectiveness of Finetuning Strategies

然后，作者在文本/图像/多模态检索任务上进行了实验，以展示四种不同微调策略的有效性。在这四种策略中，适配层始终会被更新。

当仅微调T5的参数时，MARVEL在图像和多模态检索任务上取得了显著的改进，特别是与其他模型相比，这证明了MARVEL在将视觉模块适配到密集检索模型上的强能力。

Conclusion

本文提出了一个多模态检索模型MARVEL。通过使用视觉模块插件，作者通过通用建模减轻了图像和文本之间的模态差异，将文本检索模型的优势引入到了多模态检索任务，并在两个数据集ClueWeb22-MM和WebQA上都达到了最佳水平

本文的预训练和微调方法使语言模型能够有效地提取图像语义，并将图像特征部分映射到语言词嵌入空间。

此外，作者构建了一个多模态检索基准ClueWeb22-MM，以进一步推进多模态检索领域的发展。

点击 阅读原文 观看作者直播讲解回放！

本篇文章由陈研整理

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者直播讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247526646&idx=1&sn=0d9c3798fd05c66f2726f70f3de04205

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

最新文章

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

SMP 2024 | SMP-智谱大模型交叉学科基金论坛

ECCV'24 | 1步文生图大模型还能“更小更快”，MixDQ量化方法无损“瘦身”扩散模型3倍，提速1.5倍！

OpenTS：全面且公平的时间序列评测基准 | 10月10日15:00 胡吉林教授开讲

Big Model weekly | 第39期

NeurIPS 2024 一作讲者招募 | 报名通道已开启

NIPS 2024 一作讲者招募 | 报名通道已开启

1亿token免费送！越用越省，最高享受1折优惠！10月在BigModel实现大模型自由！

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

包云岗：处理器芯片的昨天、今天与明天 | 9月29日10:00

Big Model Weekly | 第38期

KDD2024 最佳学生论文解读 | 中科大、华为诺亚：序列推荐新范式 DR4SR

EMNLP 2024 一作讲者招募 | 报名通道已开启

包云岗：处理器芯片的昨天、今天与明天 | 9月29日10:00

申报倒计时3天丨CCF-智谱大模型创新基金

EMNLP 2024 一作讲者招募 | 报名通道已开启

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉