大型语言模型(LLMs)的出现为人工智能搜索引擎铺平了道路,例如 SearchGPT,展示了人类与互联网互动的新范式。然而,当前的大多数人工智能搜索引擎仅限于纯文本设置,忽略了多模态用户查询和网站信息的图文交织特性。最近,大型多模态模型(LMMs)取得了令人印象深刻的进步。然而,它们是否可以作为人工智能搜索引擎还有待探索,留下了LMMs在多模态搜索中潜力的开放问题。为此,我们首先设计了一个精细的流程,MMSEARCHENGINE,赋予任何LMMs多模态搜索能力。在此之上,我们引入了MMSEARCH,一个全面的评估基准,用于评估LMMs的多模态搜索性能。策划的数据集包含300个手动收集的实例,涵盖14个子领域,与当前LMMs的训练数据没有重叠,确保正确答案只能在搜索中获得。通过使用MMSEARCH-ENGINE,通过执行三个单独的任务(重新查询、重新排序和摘要)以及一个具有完整搜索过程的挑战性端到端任务,对LMMs进行了评估。我们对闭源和开源LMMs进行了广泛的实验。在所有测试的模型中,配备MMSEARCH-ENGINE的GPT-4o取得了最好的结果,这在端到端任务中超过了商业产品Perplexity Pro,展示了我们提出的流程的有效性。我们进一步进行错误分析,揭示当前LMMs仍在努力完全掌握多模态搜索任务,并进行消融研究,表明在人工智能搜索引擎中扩展测试时计算的潜力。我们希望MMSEARCH可以提供独特的见解,指导多模态人工智能搜索引擎的未来发展方向。
我们翻译解读最新论文:多模态搜索引擎潜力的基准测试,文末有论文链接。作者:张长旺,图源:旺知识
1. 引言
搜索引擎(Brin & Page, 1998)一直是人类导航海量在线资源的主要工具。最近,大型语言模型(LLMs)(OpenAI, 2023a;b; Touvron et al., 2023a)在各种零样本下游应用中展示了令人印象深刻的性能。在此之上,集成了LLMs与传统搜索引擎的人工智能搜索引擎(OpenAI, 2024c),是最具前景的下一代人类与互联网互动范式之一。结合LLMs的语言理解能力和互联网的最新信息,人工智能搜索引擎可以更好地把握用户的意图,并从原始网络内容中总结上下文对齐的答案信息。这些系统只能处理文本查询并解释文本网络内容,显著限制了用户查询场景和信息获取方法(Barbany et al., 2024; Xie et al., 2024)。这一限制影响了输入查询的范围和结果的准确性(Jiang et al., 2024a; Chen et al., 2021; L`u et al., 2024),特别是考虑到现代网站(Liu et al., 2024b)的复杂性和交织性质。例如,假设你拥有许多属于你祖父的奖牌,但不知道它们具体的名字。多模态人工智能搜索引擎可以匹配这些奖牌的照片与从互联网检索到的图像和文本交织的表格,从而识别每一枚奖牌。相比之下,仅限文本的搜索引擎既不能使用照片进行搜索,也不理解交织的表格。因此,多模态人工智能搜索引擎对于推进信息检索和分析至关重要。
图1:MMSEARCH基准概述。MMSEARCH旨在评估任何LMM作为多模态人工智能搜索引擎的潜力。基准包含两个主要领域:最新新闻和稀有知识,以确保与LMM的固有知识没有重叠。
另一方面,随着最近的快速发展,大型多模态模型(LMMs)(Liu et al., 2023a; Lin et al., 2023; OpenAI, 2023c; Gao et al., 2024; Zhang et al., 2024b)已经展示了在多种场景中的显著能力,包括一般图像理解(Fu et al., 2023; Liu et al., 2023b; Yu et al., 2023)、专家图像推理(Zhang et al., 2024d; Gao et al., 2023a; Zhang et al., 2024c; Guo et al., 2024a)、多图像感知(Li et al., 2024a; Wang et al., 2024; Jiang et al., 2024b; Li et al., 2024c)和空间环境感知(Guo et al., 2023; Yang et al., 2023; Han et al., 2023)。尽管取得了这些进展,但LMMs作为多模态人工智能搜索引擎的框架在很大程度上仍未探索。因此,LMMs在多模态搜索中的潜力也仍然是一个重要的未解决问题。
为了弥合这一差距,我们首先提出了MMSEARCH-ENGINE,这是一个多模态人工智能搜索引擎流程,赋予任何LMMs高级搜索能力。MMSEARCH-ENGINE最大限度地利用LMMs的多模态信息理解能力,将视觉和文本网站内容作为信息源。在此之上,我们引入了MMSEARCH,一个多模态人工智能搜索引擎基准,全面评估LMMs的搜索性能。MMSEARCH-ENGINE的设计便于在人工智能搜索引擎的上下文中对任何LMMs进行零样本评估。我们的实验涵盖了最先进的闭源(OpenAI, 2023c; Anthropic, 2024; Gemini Team, 2023)和开源LMMs(Li et al., 2024b; Qwen Team, 2024; Chen et al., 2024d; Ye et al., 2024)。我们的工作总结如下:
i. MMSEARCH-ENGINE,一个用于LMMs的多模态人工智能搜索引擎流程,赋予大型模型多模态搜索能力。与传统的仅限文本的人工智能搜索引擎相比,MMSEARCH-ENGINE以两种方式完全整合多模态信息:(i)对于包含图像的查询,我们跨文本和视觉模态进行网络搜索。我们利用Google Lens(len)从输入图像中识别关键视觉信息;(ii)所有搜索结果以文本和视觉格式呈现,确保全面理解网站内容的交织。MMSEARCH-ENGINE的工作流程包含LMM与互联网之间的多轮交互。LMM首先需要将用户问题重新查询为搜索引擎友好的格式。然后,LMM根据其有用性重新对检索到的网站进行排序。最后,LMM需要根据从重新排序中选择的最信息性网页内容总结答案。由于流程的设计,我们提出了对搜索过程中的三个核心任务:重新查询、重新排序和摘要的逐步评估策略。最终得分由端到端评估结果和三个核心任务的得分加权。
ii. MMSEARCH,一个全面的多模态人工智能搜索引擎基准,据我们所知,它是第一个评估LMMs多模态搜索能力的评估数据集。我们的基准将搜索查询分为两个主要领域:新闻和知识,如图1所示。我们对这两个领域采用了不同的策略,以确保基准的挑战性。新闻领域涵盖了数据收集时的最新新闻(2024年8月)。这是为了确保我们基准中的问题的答案不会出现在LMMs的训练数据中。至于知识领域,我们收集了需要稀有知识的问题,然后选择当前最先进的LMMs(如GPT-4o(OpenAI, 2024b)或Claude-3.5(Anthropic, 2024))无法回答的问题。两个领域总共包含14个子领域。总共,MMSEARCH包含了300个精心收集的查询,2901个独特图像。
iii. 广泛的实验和错误分析,为未来发展方向提供指导。我们在MMSEARCH上评估了流行的闭源模型和开源LMMs。GPT-4o在不同任务中取得了最好的整体性能。令人惊讶的是,我们的MMSEARCHENGINE配备最先进的LMMs,如GPT-4o和Claude 3.5 Sonnet,甚至在端到端任务中超过了杰出的商业人工智能搜索引擎Perplexity Pro(Perplexity)。我们彻底的错误分析揭示了当前LMMs仍在努力推广到多模态搜索特定任务。它们糟糕的重新查询和重新排序能力显著限制了它们正确识别有用网站和提取相关答案的能力。此外,我们分别为重新查询和摘要任务识别了五种错误类型。我们发现当前的LMMs无法完全理解重新查询任务,不知道如何查询搜索引擎。至于摘要任务,LMMs经常难以提取有用信息,无论是来自文本还是图像。这些能力对于LMMs作为强大的多模态搜索引擎至关重要,需要进一步发展。我们还进行了初步的消融研究,以探索扩展测试时计算与扩展模型大小(OpenAI, 2024a)的潜力。初步结果表明,扩展测试时计算在这项任务中显示出优越的性能。
图2:MMSEARCH-ENGINE的流程。该过程包括由LMM执行的三个顺序阶段:(i)重新查询,(ii)重新排序和(iii)摘要。在端到端评估任务中,LMM顺序完成这三个阶段以生成最终输出。
2. MMSEARCH
在2.1节中,我们首先详细介绍了我们的多模态人工智能搜索引擎流程的设计,它既是数据收集工具,也是评估工具。然后,在2.2节中,我们详细介绍了策划的多模态搜索基准MMSEARCH的数据组成和收集。然后,在2.3节中,我们详细阐述了我们的逐步评估策略。最后,在2.4节中,我们详细介绍了我们基准的动态特性。
2.1 MMSEARCH-ENGINE:一个多模态人工智能搜索引擎流程
搜索过程是一个复杂的动作,包括LMM与传统搜索引擎之间的多轮交互。我们开发了一个精细的流程,通过多次查询LMM来完成这项任务。利用LMM的图像理解能力,我们整合了两种类型的视觉数据。首先,我们整合了Google Lens(len)来从图像中搜索信息。第二种视觉数据是检索到的网站的截图,目的是保留网站内容的原始格式。我们的框架如图2所示。下面我们详细介绍了LMM如何使用这个流程,它包括三个顺序阶段:
i. 重新查询。直接来自用户的查询可能包含对图像中某些信息的引用,例如图1中所示的新闻-金融示例。由于传统搜索引擎只接受文本输入,因此需要LMM将图像内容翻译并与查询结合起来,向它提出一个有效的问题。此外,原始用户查询有时可能是含糊的或效率低下的(Chan et al., 2024; Ma et al., 2023),对于LMM来说,重新制定查询以使其更清晰也是必须的。如果用户查询包含图像,我们将Google Lens(len)的图像搜索结果截图纳入其中。我们将用户查询、用户图像和图像搜索截图视为查询的基本信息。这些信息将作为每一轮流程的输入。对于重新查询轮,我们提示LMM输出一个重新查询到传统搜索引擎。
ii. 重新排序。重新查询被发送到搜索引擎API,例如DuckDuckGo,以检索前K个相关网站。根据重新查询的质量,并非所有检索到的网站都必然与查询回答相关。因此,我们提示LMM选择一个最信息性的网站进行答案摘要。由于LMM的上下文长度限制和网站内容的广泛性,我们只提供每个网站的基本信息,我们称之为简要结果。这些简要结果包括标题、片段和网页顶部部分的截图,作为LMM重新排序的输入。包含截图有两个目的。首先,截图提供了评估网站可信度的视觉线索,因为组织良好的网站通常比充满广告的网站看起来更可信(Fogg et al., 2001; Sillence et al., 2004)。此外,截图可能包含重要的视觉信息。例如,它可能包括与查询图像相似或相同的图像,如图2中的网站2。
iii. 摘要。我们从选定的网站开始,收集所有可用的信息。我们解析HTML以获取原始文本内容,并捕获网站的全页截图。然而,存在两个问题:原始内容往往是非常冗长和无组织的,而全页截图的大部分区域由于网站上的广告块而为空。这两个问题导致大量输入令牌充满了无关信息。为了提高数据效率,我们在将它们输入LMM之前,先对截图进行精简并检索相关内容。对于全页截图,我们识别出空白区域并迭代地移除它们,详见附录B。至于文本内容,我们应用文本嵌入模型(Chen et al., 2024a)从原始内容中检索最多2K个与重新查询相关的令牌。我们将精简后的截图和检索到的内容定义为完整网站内容。最后,我们将完整网站内容、网站标题和网站片段,以及查询信息,输入LMM以总结答案。
2.2 数据组成和收集
为了全面评估多模态搜索能力,我们编制了一个涵盖广泛的新闻话题、专业知识领域和查询图像模式的全面问题集。MMSEARCH的这种广泛收集旨在模拟多样化的用户搜索场景,确保对LMMs在多模态搜索能力的强大评估。
数据组成和分类。我们的基准旨在隔离LMMs的固有知识,并评估它们实际的搜索能力。我们关注两个主要领域:新闻和知识。对于新闻领域,查询与数据收集时的最新新闻相关(2024年8月)。这保证了我们基准中的问题与当前LMMs的训练数据没有重叠。这个领域的所有问题都记录了它们的发生时间。为了公平起见,最近更新知识的LMMs应该在它们最新数据更新后发生的查询上进行测试。由于其时间敏感性,新闻领域作为我们基准的动态部分。有关详细信息,请参见第2.4节。至于知识领域,我们专注于目标领域的稀有知识。每个由注释者提出的问题都经过验证,超出了最先进的大型语言模型(如GPT-4o(OpenAI, 2024b)或Claude 3.5 Sonnet(Anthropic, 2024))的能力。知识领域作为我们基准的静态组成部分,随着时间的推移保持不变。我们总共收集了300个查询,涵盖2个主要领域和14个子领域。数据组成和分类的详细统计数据见表1和图3。每个子领域的定义见附录C.1。
数据收集和审查过程。由于我们的流程设计,数据收集过程遵循与流程介绍中类似的程序。注释者首先需要提出一个问题并提供其答案,答案来源可以是最新新闻或稀有知识。然后,注释者根据查询信息制定一个重新查询。在从搜索引擎检索到K个网站后,注释者需要根据简要结果将所有K个网站分为三组:有效(可能包含答案)、不确定(相关性难以确定)和无效(与问题完全无关)。我们规定至少有一个网站必须被分类为有效;如果没有满足这个标准,注释者需要调整重新查询以获得新的搜索结果。最后,我们随机从有效集中挑选一个网站,并获取其全部内容。为了确保问题是可回答的,另一个注释者被雇佣来根据全部内容对问题给出答案。如果答案是错误的,问题需要被修改直到它是可回答的。
2.3 评估协议
与以前的LMM基准不同,LMM的多模态搜索过程包含多轮。仅对最终答案进行端到端评估是不够的,以揭示模型在每个核心搜索步骤中的不足。例如,模型在摘要过程中可能犯错误,但它也可能源于重新排序阶段选择了错误的网站。为此,我们提出了一种逐步策略,评估LMM在三个核心搜索步骤的能力,除了端到端评估。
• 端到端得分(Se2e):我们计算预测答案与真实答案之间的F1得分,以判断答案是否正确。
• 重新查询得分(Sreq):我们应用ROUGE-L和BLEU-1得分的平均值来衡量模型重新查询与人工注释重新查询之间的相似性。
• 重新排序得分(Srer):重新排序得分来源于LMM在K个预定义网站中的选择。得分值为有效集1.0,不确定集0.5,无效集或错误格式0。
• 摘要得分(Ssum):同样,我们计算LMM的答案基于预定义网站内容的真实答案的F1得分。四个任务的输入、输出和真实答案在图4中可视化。最终得分由这四个得分加权。我们为端到端任务分配最高的权重(75%),因为它反映了现实世界的多模态搜索能力。剩余的25%在中间步骤中分配:重新排序和摘要任务各10%,重新查询任务5%。重新查询任务的权重较低,是因为这个过程的固有不确定性。评分过程可以表述为:
Sfinal = 0.75 · Se2e + 0.05 · Sreq + 0.1 · Srer + 0.1 · Ssum (1)
2.4 基准演变
在图5中,我们展示了新闻领域数据时间戳分布的统计数据。我们的数据集涵盖了从2024年5月1日到8月31日的时间。在评估时,我们检查了闭源模型的知识截止日期。Claude 3.5 Sonnet报告了2024年4月的知识截止,而GPT-4V和GPT-4o都表示他们缺乏2024年的信息。对于开源模型,我们检查了它们的发布日期和训练数据,确认它们都没有超过5月2024年的知识。这个时间差距确保了我们评估的公平性,因为模型的性能仅反映了它们的多模态搜索能力,而不是预先存在的知识。如果一个新的LMM的训练数据可能与我们的收集期重叠,我们将更新新闻领域。
图5:新闻领域问题的时间戳分布。我们收集的所有事件都发生在2024年5月之后。大多数数据集中在8月。这确保了数据只捕捉最近的事件,落在LMMs的知识截止日期之后。虚假前提子领域没有包括在内,因为确定从未发生过的事件的时间戳是不可行的。
3. 实验
在本节中,我们对现有的LMMs在MMSEARCH上进行了系统的评估。我们首先在3.1节中介绍实验设置。然后,在3.2节中详细说明定量结果,并在3.3节中叙述错误分析。最后,我们在3.4节中探索扩展测试时计算与扩展模型大小。
3.1 实验设置
评估模型。我们在MMSEARCH上测试了三个不同类别的基础模型的性能:(a)商业人工智能搜索引擎,由Perplexity(Perplexity)代表。我们测试了Perplexity的专业版,它只能接受用户查询和图像作为输入。由于SearchGPT(OpenAI, 2024c)尚未公开,我们没有对其进行测试。(b)闭源LMMs,由像GPT-4V(OpenAI, 2023c)、GPT-4o(OpenAI, 2024b)和Claude 3.5 Sonnet(Anthropic, 2024)这样的模型代表,以及(c)开源LMMs,特色模型如LLaVA-OneVision7B(Li et al., 2024b)(Qwen2-7B(Yang et al., 2024a))、LLaVA-OneVision-72B(Li et al., 2024b)(Qwen2-72B(Yang et al., 2024a))、LLaVA-NeXT-Interleave(Li et al., 2024c)(Qwen1.5-7B(Yang et al., 2024a))、InternVL2(Chen et al., 2024d)(InternLM2.5-7B-Chat(Cai et al., 2024))、InternLMXC2.5(Zhang et al., 2024a)(InternLM2-7B(Cai et al., 2024))、Qwen2-VL-7B(Qwen Team, 2024)(Qwen2-7B(Yang et al., 2024a))、Qwen2-VL-72B(Qwen Team, 2024)(Qwen2-72B(Yang et al., 2024a))、mPlug-Owl3(Ye et al., 2024)(Qwen2-7B(Yang et al., 2024a))、Idefics3(Laurenc¸on et al., 2024)(LLaMA3.1-7B-Instruct(AI@Meta, 2024))和Mantis(Jiang et al., 2024b)(LLaMA37B(AI@Meta, 2024))。请注意,除非另有说明,开源LMMs的大小为7B。
实现细节。我们将检索到的网站数量K设置为8。我们所有的开源模型实验都是在没有任何微调搜索数据或任务的情况下进行的。至于提示,重新查询提示包含3个示例,以更好地引导LMMs输出一个有效的重新查询。其他任务的提示都是在零样本设置下进行的。我们提示LMM尽可能少地输出单词,以便更好地与真实答案匹配。我们采用第2.3节中介绍的度量。此外,我们招募了八名合格的大学生,并要求他们独立解决MMSEARCH中的问题,按照与MMSEARCH-ENGINE相同的流程。这个分数作为人类表现的基线。我们在NVIDIA A100 GPU上进行了所有实验。
网页顶部截图的输入图像尺寸设置为1024×1024像素。对于全页截图,我们将初始网页宽度设置为512像素,尽管由于其布局设置,一小部分网页的实际宽度可能会有所不同。此外,考虑到全页截图可能非常长,直接将其作为单个图像输入到LLM将导致过度缩小,使内容过于模糊,无法准确识别。为了解决这个问题,我们将全页截图分成多个图像,从顶部开始,每个段的高度为512像素。由于LMM的上下文长度限制,因此全页截图段的最大数量限制为十个。
对于默认设置,输入图像的最长边被调整为与LMM视觉编码器的最大分辨率相匹配。这确保了图像不会被裁剪成多个图像,并且只占用最小的图像输入令牌。对于任何分辨率设置,我们输入的图像没有调整大小。
3.2 实验分析
为了彻底调查多模态搜索能力,我们在表2中按照提出的逐步评估策略展示了不同模型在MMSEARCH上的评估结果,并在表3中展示了14个子领域的评估结果。我们现在提供对显著发现的详细讨论及其对多模态搜索能力的启示。
任何分辨率输入只提供了轻微或没有改进。在测试的LMMs中,有四个模型,即InternLM-XC2.5、InternVL2、mPlug-Owl3和Idefic3,都支持低分辨率(LowRes)和任何分辨率输入(AnyRes)。正如人们所期望的,AnyRes输入可以更好地进行OCR和感知图像。然而,我们只观察到与LowRes性能相比的轻微甚至没有增强,以mPlug Owl3为例,AnyRes输入在整体得分上超过了LowRes输入1.8%,在端到端得分上超过了2.7%,在重新排序上超过了0.2%。虽然它在重新查询上落后于LowRes 0.8%,在摘要上落后了1.7%。这表明OCR和感知质量并不限制搜索性能。相反,次优性能似乎源于LMMs固有的缺乏强大的搜索能力。
当前的LMMs在重新查询和重新排序方面仍然存在显著的不足。通过比较端到端任务的平均得分与摘要任务的得分,我们发现摘要得分一致地超过了端到端任务,无论是在闭源还是开源模型中。最小的差距是GPT-4o的2.7%,而最大的是LLaVA-OneVision-7B的23.9%。这种性能差距反映了模型在重新查询和重新排序任务的能力与它的摘要能力之间的差异。差距越大,能力差距就越大。观察结果,我们发现大多数开源模型的差距超过了14%,而闭源模型都低于10%。这表明所有当前的LMMs都需要改进它们的重新查询和重新排序能力,尤其是开源模型。Mantis是开源模型的一个例外,差距仅为3.4%。这意味着它的摘要能力不佳限制了它的端到端性能。Qwen2-VL的10.5%差距,也低于14%,突出了它在其他开源LMMs中的优越性。
闭源LMMs在整体性能上优于开源LMMs。对于最终得分,闭源LMMs一致地优于开源LMMs。GPT-4o实现了最高的整体得分62.3%,展示了卓越的零样本多模态搜索能力。而Qwen2-VL-72B在开源模型中领先,但仍落后于GPT-4o 9.6%。性能差距在最具挑战性的端到端任务中扩大到11.3%,并且在7B开源LMMs中进一步扩大到20.1%。这些显著的差异突出了开源模型在改进方面的大量空间。
SoTA LMMs与我们的MMSEARCH-ENGINE在端到端任务中超过了商业人工智能搜索引擎。我们还评估了Perplexity(Perplexity)的专业版,这是一个杰出的商业人工智能搜索引擎,它接受图像和文本查询。令人惊讶的是,尽管Perplexity也利用了像GPT-4o和Claude 3.5 Sonnet这样的SoTA LMMs,但它在端到端任务中的表现远远落后于配备相同模型的MMSEARCH-ENGINE。更加引人注目的是,MMSEARCH-ENGINE甚至可以用Qwen2-VL-72B超越Perplexity,这是一个开源LMM。这表明我们的MMSEARCH-ENGINE提供了一个更好的开源计划,用于多模态人工智能搜索引擎。性能差距验证了MMSEARCH-ENGINE设计的有效性,并强调了在我们的流程中测试各种LMMs的价值,因为当使用强大的LMMs时,该流程确实可以实现显著的性能。在调查Perplexity的次优性能时,我们发现它似乎只使用了一种基本的图像搜索算法,如果有的话。这个限制导致它无法准确识别图像中的关键对象,也无法检索到相关信息。我们的发现强调了MMSEARCH-ENGINE设计的效果,特别是强大的图像搜索步骤的作用,这在准确识别输入图像中的重要信息中起着至关重要的作用。
3.3 错误分析
为了调查当前LMM搜索能力的限制,我们对评估中观察到的错误类型进行了全面分析。我们提出的逐步评估策略使我们能够补充端到端评估,分析每个核心搜索步骤的故障模式。这项分析涵盖了整个基准。我们首先检查了最佳闭源模型(GPT-4o)和开源模型(Qwen2-VL-7B)在端到端任务中的错误类型。为了更好地理解失败案例,我们然后确定了需要开放式生成的重新查询和摘要任务中不同错误类型。我们量化了这些错误类型,系统地理解当前LMM的局限性,并指出了改进的关键领域。
图8:Qwen2-VL-7B(Qwen Team, 2024)在重新查询和摘要任务中错误类型的分布。
3.3.1 端到端任务的错误分析
在本节中,我们试图回答这个问题:LMM在端到端评估中哪个步骤犯了错误?在图7中,我们展示了GPT-4o和Qwen2-VL-7B中不同错误类型发生的统计数据。我们定义了以下四种错误类别:(i)重新查询,模型重新查询不正确,导致所有检索到的网站都无效;(ii)重新排序,模型选择了一个没有正确答案的网站;(iii)摘要,完整网站内容包含正确答案的信息,但模型未能提取它;(iv)非正式,输出格式偏离了提示规范。如图所示,GPT-4o的主要错误来源是重新排序和摘要错误,而重新查询和非正式错误大约是主要错误原因的一半。这表明GPT-4o的限制主要在于信息源排名和多模态信息整合。至于Qwen2VL,所有四种错误类型都以相似的频率发生。非正式错误部分的增加可能归因于模型较差的指令遵循能力。此外,值得注意的是,重新查询任务需要高级的理解力和关键图像信息提取能力。这个任务很少出现在当前LMMs的训练数据中。Qwen2-VL中这种错误类型的普遍性可能表明它未能泛化,以充分解决这一复杂任务。
3.3.2 重新查询和摘要任务的错误分析
为了更好地理解开源LMM犯了什么错误,我们深入研究了重新查询和摘要任务,以找出Qwen2-VL-7B的错误模式。我们特别选择了需要开放式生成的两个任务,这提供了更多信息,以识别错误。
对于重新查询任务,我们对错误进行了分类:
• 缺乏特异性,模型未能在重新查询中包含所有特定信息,因此导致搜索结果次优。例如,查询询问的是Vision Pro在中国的发布日期。然而,模型省略了中国的条件,直接询问Vision Pro的发布日期。
• 低效查询,模型没有考虑到真实场景,重新查询对于搜索引擎找到答案来说效率低下。例如,查询询问梵高的《向日葵》和安东尼·克莱维的《大拼贴》是否都是油画。显然,梵高的《向日葵》是油画,而安东尼·克莱维的《大拼贴》则鲜为人知。一个高效的查询应该询问安东尼·克莱维的《大拼贴》的图像,并进一步确定它是否也是通过直接看它来绘制的油画。然而,模型直接向搜索引擎询问原始查询。很可能这个重新查询不会带来任何有用的信息。
• 排除图像搜索结果,模型完全忽略了图像搜索结果中的信息,因此在重新查询中缺乏重要的特定信息。例如,查询是“这位足球运动员什么时候获得了金牌?”并提供了一张运动员的图片。模型应该通过查看图像搜索结果来找出运动员的名字,并提出一个像“[运动员名字]获得金牌的时间”这样的重新查询。然而,模型未能在重新查询中包含运动员的名字,检索到的网站肯定不包含任何有用信息。
• 无变化,模型只是将问题作为查询输入到搜索引擎。
• 不相关,模型要么匹配了图像搜索结果中的错误的信息,要么错误地理解了查询,并输出了一个不相关的重新查询。
这些重新查询的错误类型表明,LMM经常未能完全理解重新查询任务,并且未能整合所有可用信息。此外,低效查询的错误类型表明,LMM对真实的工作场景和搜索引擎的查询原则一无所知。
对于摘要任务,我们还识别了五种错误:
• 文本推理错误,模型未能从网站文本信息中提取答案。
• 图像-文本聚合错误,获取答案需要结合图像和文本的信息。模型未能这样做。
• 图像推理错误,模型未能从图像中提取答案,答案只能从图像中获得。
• 幻觉(Huang et al., 2023),模型提供了一个不忠实的答案,不能在给定内容中找到根据。
• 非正式,输出格式没有遵循提示规范,与端到端任务中的错误类型相同。
这五种摘要错误的发生反映了当前的LMMs仍然不能正确地提取给定的多模态信息来回答查询。内容理解能力仍然需要进一步增强。
3.4 扩展测试时计算与扩展模型大小
最近的工作,如OpenAI o1(OpenAI, 2024a)和Li等人(2024d)强调了扩展测试时计算在提高模型性能中的关键作用。我们的端到端任务需要多次与互联网交互,提供了一个机会来探索扩展测试时计算与扩展模型大小的潜力。
为了探索这一点,我们使用LLaVA-OneVision-7B(Li等人,2024b)进行了实验,专注于扩展测试时计算,并将其与扩展模型大小的LLaVA-OneVision-72B进行了比较,目的是提供增加推理计算与增加模型参数的相对收益的见解。
表4:扩展测试时计算与扩展模型大小。'TTC'和Se2e分别表示测试时计算和端到端任务的得分。
对于扩展测试时计算,我们采用了类似于最佳N解决方案的多模态搜索策略,其中'N'表示我们的设置中的25。具体来说,对于LLaVA-OneVision-7B,我们首先提示模型生成5次重新查询,从中我们选择了具有最高重新查询得分Sreq的重新查询。然后,这个重新查询被用来从搜索引擎检索8个相关网站的简要结果。模型再次被提示5次选择最有信息量的网站。在从选定的网站中去除重复项后,我们提取了剩余网站的完整网站内容,并提示模型5次给出答案,总共获得了25个端到端输出。我们计算每个答案与真实答案的F1得分,并将其最大值作为模型对该查询的端到端得分。表4显示,LLaVA-OneVision-7B (TTC)在端到端任务中实现了55.2%的得分,显著提高了原始得分29.6%,超过了LLaVA-OneVision72B的44.9%和GPT-4V的52.1%。这一结果揭示了扩展测试时计算的巨大潜力,验证了这种技术的有效性,正如OpenAI o1所介绍的。我们的发现为这一领域的未来研究提供了宝贵的见解,表明增加推理计算可能提供与增加模型大小相当或更高的性能提升,不仅在数学和编码任务中如此,在多模态搜索任务中也是如此。
4. 结论
在本文中,我们探讨了LMMs作为多模态人工智能搜索引擎的潜力。我们首先设计了MMSEARCH-ENGINE,一个流线型的流程,使零样本LMMs能够执行多模态搜索。为了全面评估搜索能力,我们引入了MMSEARCH,一个包含300个查询的基准,涵盖14个子领域。我们的评估方法逐步分析了LMM搜索能力,有助于更深入地了解它们的局限性。使用MMSEARCH-ENGINE,我们评估了各种闭源和开源LMMs,揭示了当前模型仍然没有达到人类级别的搜索熟练度。通过彻底的错误分析,我们识别了关键搜索过程中特定模式的失败,为未来改进LMM搜索能力提供了宝贵的见解。
作者:张长旺,图源:旺知识
参考资料
标题:MMSEARCH: BENCHMARKING THE POTENTIAL OF LARGE MODELS AS MULTI-MODAL SEARCH ENGINES
作者:Dongzhi Jiang1∗, Renrui Zhang1,2∗†, Ziyu Guo3, Yanmin Wu5, Jiayi Lei4, Pengshuo Qiu4, Pan Lu6, Zehui Chen2, Guanglu Song7, Peng Gao4, Yu Liu7, Chunyuan Li2, Hongsheng Li1‡
单位:1CUHK MMLab 2ByteDance 3CUHK MiuLar Lab 4Shanghai AI Laboratory 5Peking University 6Stanford University 7Sensetime Research
标签:人工智能、多模态搜索、大型模型、搜索引擎、基准测试
概述:提出了一个新的多模态搜索引擎基准MMSearch,用于评估大型多模态模型(LMMs)作为AI搜索引擎的潜力。
链接:https://arxiv.org/abs/2409.12959