多智能体架构Insight-V来了！突破长链视觉推理瓶颈

科技 2024-12-13 12:05 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇昊和清华大学自动化系博士生刘祖炎，主要研究方向为多模态模型。本文的通讯作者为南洋理工大学助理教授刘子纬和腾讯高级研究员饶永铭。

大语言模型（LLMs）通过更多的推理展现出了更强的能力和可靠性，从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。尽管人们为改进语言模型的推理做出了种种努力，但在多模态视觉语言任务中，高质量的长链推理数据以及优化的训练流程仍未得到充分的探索。

为了解决上述问题，来自南洋理工大学、腾讯、清华大学的研究者们提出一种能够进行长链视觉推理的多模态模型 Insight-V。Insight-V 提供了 1）针对复杂的多模态任务，可扩展地生成冗长且可靠的推理数据；2）建立有效的训练流程，以增强多模态语言模型的推理能力。

Insight-V 的核心创新点包括：1）一个用于生成长链、高质量推理数据的可扩展的数据生成流程；2）一个将视觉推理任务分解为推理和总结的多智能体系统；3）一个用于增强视觉推理能力的两阶段训练流程。这些设计赋予了 Insight-V 较强的视觉推理能力。

论文：https://arxiv.org/abs/2411.14432
代码：https://github.com/dongyh20/Insight-V
模型：https://huggingface.co/THUdyh/Insight-V-Reason

1. 介绍

现有的研究通过长链推理来提升语言模型（LLMs）的推理能力，已经取得了显著进展，这在很大程度上得益于结构化、高质量数据的可获取性以及成熟的训练流程。相比之下，多模态语言模型（MLLMs）进行长链视觉推理仍然是一项重大挑战，主要原因是缺乏大规模、高质量的数据集以及高效有效的训练策略。与纯文本数据相比，视觉推理数据不仅收集成本更高，而且由于缺乏有效的数据生成流程，还需要大量人力来进行详细标注和验证。此外，当前的多模态语言模型无法有效利用视觉线索进行精确的视觉推理，需要一种有效的训练程序，使多模态语言模型在保持清晰视觉感知的同时能够进行详细推理。

图 1：Insight-V 方法展示。

为了解决以上挑战，本文提出了一个视觉推理的多模态系统 Insight-V，能够实现结构化的长链视觉推理。如图 1 所示，Insight-V 由两个智能体组成，一个专门负责推理，另一个负责总结，这使得它在各类视觉推理基准测试中的性能有了显著提升。

Insight-V 的主要贡献包括：

一个用于生成长链、高质量推理数据的可扩展的数据生成流程。通过利用已有的模型构建数据生成流程，从而提供丰富的，可扩展的视觉推理训练数据。
一个将视觉推理任务分解为推理和总结的多智能体系统。通过将视觉任务分解为推理和总结，并利用不同的模型来分别解决不同的任务，来提升视觉推理能力。
一个用于增强视觉推理能力的两阶段训练流程，从而使 Insight-V 能够在视觉推理评测集上取得优异的性能。

我们提供了 Insight-V 的模型权重，在视觉推理任务上表现出色，在 7B 规模下取得了综合最好的结果，在部分数据集超过最先进的综合模型和商业模型，为多模态视觉推理的发展提供了一个值得探索的方向。

2. 方法概览

结构化推理数据构建

图 2：结构化数据构建。

现有的研究已经探索了将推理能力融入多模态大型语言模型（MLLMs）中。然而，训练 MLLMs 具备强大的推理技能仍然是一个相当大的挑战，尤其是由于数据方面的限制。为了解决这一问题，我们介绍了提出的数据生成流程，该流程旨在通过渐进式生成过程和多粒度评估来生成高质量的长链推理数据。如图 2 所示，这种可扩展的方法使我们能够生成高质量的数据，从而有效地提升模型的推理能力。

渐进式长链推理数据生成。我们通过调用能力强大的多模态综合模型，来收集单步推理结果。在每一步推理结束之后，模型根据历史的推理结果来生成针对下一轮推理的动作，如果动作为‘继续推理’，下一步模型继续执行单步推理；如果动作为‘总结’，下一步模型根据历史推理内容总结得出答案。

多粒度评估。我们通过两个步骤来对生成的推理数据进行评估。首先，我们直接使用真实答案来对推理数据进行过滤，过滤掉最终答案错误的数据。之后，我们使用一个推理步骤打分模型，来针对推理数据的质量进行打分，将推理数据分为不同质量的子集，以供最后训练数据集的构建。

模型设计

推理模型。我们提出了一种专门的推理智能体，其旨在针对输入查询生成一个详细的、逐步推进的推理过程。我们通过为每个问题选取得分最高的推理路径来构建推理数据集。在基于该数据集进行训练之后，模型转变为一个具有更强推理能力的推理智能体，使其能够生成更详细、结构化的推理过程。

总结模型。我们开发了一种对推理路径中的不准确之处具有较强适应性的总结模型，该模型可根据需要有选择性地纳入或忽略某些元素。这种方法在最大程度发挥推理模型效能的同时，将引入误导性信息的风险降至最低。我们利用所收集的数据集来完成总结任务，该数据集由两类数据组成：具有最优推理过程的数据和具有有缺陷推理过程的数据。此外，为了保留原有的多模态能力，我们用标准问答数据对数据集进行补充，以维持总结智能体在直接问答方面的性能。

图 3：训练流程。

训练策略

Insight-V 的训练策略简单直接。我们从一个已经训练好的多模态模型出发，利用这个模型的权重来初始化 Insight-V 当中的两个模型。

第一阶段，我们进行多智能体系统的监督微调。对于推理模型，我们利用精心整理的推理数据集来培养逐步推理的能力。对于总结模型，我们按照上文所述构建了一个数据集，并从用于基础模型的数据集中抽取了大约一百万对通用的图文组合，以保留其原有的视觉感知能力。

在第二阶段，我们利用强化学习算法来进一步提升模型的推理能力。我们使用迭代式直接偏好优化（Iterative DPO）。通过进行多轮直接偏好优化（DPO）训练和抽样，这种方法能使该模型在训练期间更好地模拟在线环境，从而进一步提升其性能。

3. 实验结果

视觉推理

我们在 7 个基准测试上开展了评估实验，涵盖了通用推理和特定任务推理评估。当应用于 LLaVA-NeXT 和我们的基线模型时，Insight-V 展现出了显著的有效性和通用性，大幅超越了其他最先进的大型语言模型（MLLMs）。在 MMStar 数据集中，Oryx 取得 61.5% 的平均准确率。在 MME 数据集上取得了 2312 的总分，并且在 MME 的感知和认知子任务上都取得了先进的结果。针对 7 个数据集的平均结果，Insight-V 表现出色，超越了一系列先进的模型。

基础视觉感知

为了更进一步测试 Insight-V 的通用性，我们在一些侧重评估模型基础视觉感知能力的数据集上进行了测试。结果表明，InsightV 在不影响一般视觉感知能力的情况下提升了推理能力，甚至在对感知能力要求更高的基准测试上也实现了性能提升。当 Insight-V 与 LLaVA-NeXT 模型结合时，在 TextVQA，DocVQA，OCRBench，AI2D 等测试集上都有显著的性能提升，当与我们构建的更强的基础模型结合时，在这些 benchmark 上也表现出了更好的结果。

分析实验

多智能体系统的有效性。针对 Insight-V 的设计，我们与其他可能的设计选择进行了对比，包括直接进行微调、多轮对话监督、只训练总结模型。结果显示，多智能体设计的表现优于其他配置，突出了推理和总结分解的关键作用。

数据 Scaling Law 实验。我们研究了数据扩展对于 Insight-V 的影响，尤其是对于推理模型的效果。结果表明，随着推理模型训练数据的扩展，推理模型的性能得到了显著的提升。推理模型得益于数据扩展，能为总结模型提供更有价值的见解。

强化学习算法的效果。我们探究了不同的强化学习策略对于推理模型效果的影响。我们对比了使用 RLAIF 数据进行训练，直接进行 DPO 以及 Insight-V 的多轮迭代式 DPO。结果显示，相比其他方法，迭代直接偏好优化（Iterative DPO）逐步增强了模型的推理能力，从而带来了性能的提升。

4. 案例分析

我们对 Insight-V 与思维链（Chain-of-Thought）以及通过直接监督微调学习进行了定性比较。对于 Insight-V 系统而言，其推理智能体能够提供一个更加连贯且结构化的推理过程，从而引导总结智能体得出正确答案；然而，其他方法在面对复杂推理任务时会显得吃力，无法解决这类具有挑战性的问题。

5. 总结

在本文中，我们介绍了 Insight-V，这是一种新颖的系统，它将用于长链、高质量推理数据的可扩展数据生成系统与有效的多智能体训练系统相结合，以增强多模态语言模型（MLLMs）的推理能力。通过开发该系统，我们提供了一种旨在提高推理性能的可扩展模型训练方法。我们在各种基准测试中的广泛评估证明了我们这种方法的有效性，为赋予多模态语言模型更强的推理能力铺平了道路。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉