只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

科技 2024-11-04 22:01 广东

↑ 点击蓝字关注极市平台

作者丨张至鑫

编辑丨极市平台

极市导读

本文介绍了一个名为Vision Search Assistant（VSA）的开源项目，它是一个基于视觉语言模型（VLM）的系统，能够将Web搜索能力融入VLM中，实现对未见图像或新概念的实时更新和智能问答。VSA通过理解查询、分析图像内容、生成查询文本、检索Web知识，并结合检索结果回答用户问题，展现了在开放集问答任务中的卓越性能，特别是在提供全面、相关且得到良好支持的答案方面。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文：https://arxiv.org/abs/2410.21220

主页：https://cnzzx.github.io/VSA/

代码：https://github.com/cnzzx/VSA

0 太长不看版

OpenAI刚刚推出了SearchGPT，以大模型为基座，检索互联网知识。就在此时，我们也推出了开源版的“OpenSearchGPT”——Vision Search Assistant。模型设计简单，只要两张3090就可复现！可以预见2025年会有更多开源版AI搜索模型涌现，快来关注和Follow我们的工作，加入这股新的浪潮吧。代码和模型已在Github上开源（https://github.com/cnzzx/VSA），诚邀大家试用和关注。

我们开发的Vision Search Assistant（VSA）以视觉语言模型（VLM）为基础，巧妙地将Web搜索能力融入其中，让VLM内部的知识得到实时更新，使其更加灵活和智能。只需要两张3090，就能试验你的Idea，说不定就能取得出色的效果呢？

目前，我们的VSA已经针对通用图像进行了实验，可视化和量化结果良好。但不同类别的图像各具特色，还可以针对不同种类的图像（比如表格、医学等）构建出更为特定的VSA应用。更令人振奋的是，VSA的潜力并不仅限于图像处理。还有更广阔的可探索空间，比如视频、3D模型和声音等领域，期待能将多模态研究推向新的高度。

1 简介

大型语言模型（LLM）的出现让人类可以利用模型的强大零样本问答能力来获取陌生知识。在此基础上，检索增强生成（RAG）等技术进一步提高了LLM在知识密集型、开放域问答任务中的表现。然而，VLM在面对未见过的图像和新概念时，它们往往不能利用好来自互联网的最新多模态知识。现有的 Web Agent主要依赖于对用户问题的检索，并总结检索返回的HTML文本内容，因此它们在处理涉及图像或其他视觉内容的任务时存在明显的局限性，即视觉信息被忽视或处理不充分。

为了解决这一问题，我们提出了Vision Search Assistant。Vision Search Assistant以VLM模型为基础，能够回答有关未见过的图像或新概念的问题，其行为类似人类在互联网上进行搜索并解决问题的过程，包括：
（1）理解查询;
（2）决定应该关注图像中的哪些对象并推断对象之间的相关性;
（3）逐对象生成查询文本;
（4）根据查询文本和推断出的相关性分析搜索引擎返回的内容;
（5）判断获得的视觉和文本信息是否足以生成答案，或者它应该迭代和改进上述过程;
（6）结合检索结果，回答用户的问题。

2 方法介绍

2.1 视觉内容描述

视觉内容描述模块被用来提取图像中对象级的描述和对象之间的相关性，其流程如下图所示。我们首先利用开放域的检测模型来获取值得关注的图像区域。紧接着对每一个检测到的区域，使用VLM获取对象级的文本描述。最后，为了更全面地表达视觉内容，我们利用VLM进一步关联不同的视觉区域以获得不同对象的更精确描述。

具体地, 令用户输入图片为 , 用户的问题为。我们通过一个开放域的检测模型获取个感兴趣的区域：

然后利用预训练的 VLM 模型分别描述这个区域的视觉内容:

为了让不同区域的信息关联起来，提高描述的精度，我们将区域i与其它区域j≠i的描述拼接，让VLM对区域的描述进行矫正：

至此，我们从用户输入获得了与之高度相关的N个视觉区域的精确描述。

2.2 Web知识搜索：“搜索链”

Web知识搜索的核心是名为“搜索链”的迭代算法，旨在获取相关视觉描述的综合性的Web知识，其流程如下图所示。在Vision Search Assistant中，我们利用LLM来生成与答案相关的子问题，这一LLM被称为“Planing Agent”。搜索引擎返回的页面会被同样的LLM分析、选择和总结，被称为“Searching Agent”。通过这种方式，我们可以获得与视觉内容相关的Web知识。

具体地，由于搜索是对每个区域的视觉内容描述分别进行的，因此我们以区域为例，并省略这个上标，即。该模块中我们使用同一个 LLM 模型构建决策智能体（Planning Agent）和搜索智能体（Searching Agent）。决策智能体控制整个搜索链的流程，搜索智能体与搜索引擎交互，篮选、总结网页信息。

以第一轮迭代为例，决策智能体将问题拆分成个搜索子问题并交由搜索智能体处理。搜索智能体会将每一个交付搜索引擎，得到页面集合。搜索智能体会阅读页面摘要并选择与问题最相关的页面集合（下标集为），具体方法如下：

对于这些被选中的页面，搜索智能体会详细阅读其内容，并进行总结：

最终，所有个子问题的总结输送给决策智能体，决策智能体总结得到第一轮迭代后的Web知识：

重复进行上述迭代过程K次，或是直到决策智能体认为当前的Web知识已足够回应原问题时，搜索链停止，得到最终的Web知识。

2.3 协同生成

最终，我们基于原始图像、视觉描述、Web 知识，利用 VLM 回答用户的问题 , 其流程如下图所示。具体而言, 最终的回答为:

3 实验

3.1 开放集问答可视化对比

下图中我们比较了新事件（前两行）和新图像（后两行）的开放集问答结果。我们将Vision Search Assistant和Qwen2-VL-72B以及InternVL2-76B进行了比较。不难发现，Vision Search Assistant 擅长生成更新、更准确、更详细的结果。例如，在第一个样例中，Vision Search Assistant对2024年Tesla公司的情况进行了总结，而Qwen2-VL局限于2023年的信息，InternVL2明确表示无法提供该公司的实时情况。

3.2 开放集问答评估

在开放集问答评估中，我们通过10位人类专家进行了比较评估，评估内容涉及7月15日至9月25日期间从新闻中收集的100个图文对，涵盖新颖图像和事件的所有领域。人类专家从真实性、相关性和支持性三个关键维度进行了评估。

如下图所示，与Perplexity.ai Pro和GPT-4-Web相比，Vision Search Assistant在所有三个维度上都表现出色：

（1）事实性：Vision Search Assistant得分为68%，优于Perplexity.ai Pro（14%）和 GPT-4-Web（18%）。这一显著领先表明，Vision Search Assistant 始终提供更准确、更基于事实的答案。

（2）相关性：Vision Search Assistant 的相关性得分为80%，在提供高度相关的答案方面表现出显著优势。相比之下，Perplexity.ai Pro和GPT-4-Web分别达到11%和9%，显示出在保持网络搜索时效性方面存在显著差距。

（3）支持性：Vision Search Assistant在为其响应提供充分证据和理由方面也优于其他模型，支持性得分为63%。Perplexity.ai Pro和GPT-4-Web分别以19%和24%的得分落后。这些结果凸显了Vision Search Assistant 在开放集任务中的卓越表现，特别是在提供全面、相关且得到良好支持的答案方面，使其成为处理新图像和事件的有效方法。

3.3 封闭集问答评估

我们在LLaVA W [1]基准进行了闭集评估，其中包含60个问题，涉及VLM在野外的对话、细节和推理能力。我们使用GPT-4o(0806)模型进行评估。我们使用LLaVA-1.6-7B作为基线模型，该模型在两种模式下进行了评估：标准模式和使用简单Google图片搜索组件的“朴素搜索”模式。此外，我们还评估了LLaVA-1.6-7B的增强版本，该版本配备搜索链模块。

如下表所示，Vision Search Assistant在所有类别中均表现出最强的性能。具体而言，它在对话类别中获得了73.3%的得分，与LLaVA模型相比略有提升，提升幅度为+0.4%。在细节类别中，Vision Search Assistant以79.3%的得分脱颖而出，比表现最好的LLaVA变体高出 +2.8%。在推理方面，我们的方法比表现最佳的LLaVA模型高出+10.8%。这表明Vision Search Assistant对视觉和文本搜索的高级集成极大地增强了其推理能力。Vision Search Assistant的整体性能为84.9%，比基线模型提高+6.4%。这表明Vision Search Assistant在对话和推理任务中都表现出色，使其在野外问答能力方面具有明显优势。

参考文献：[1] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023.

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉