上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

科技 2024-12-07 23:16 北京

引言

在当今人工智能研究领域，视觉语言模型（VLMs）在多模态推理任务中展现了显著的进步。VLMs 的主要创新在于将语言和视觉两种模态进行有效的对齐，使其不仅能够进行基本的图像识别，还能执行基于视觉输入的动态内容推理和复杂问题解答。这一进展为自主驾驶、智能助手等各种应用提供了基础，推动了智能系统向更高的智能化方向发展。

然而，尽管 VLMs 在多个任务中取得了可喜的成果，它们仍然面临诸多挑战。例如，VLMs 在生成回答时，常常出现不准确或与内容无关的输出。具体来说，模型可能因为幻觉（hallucinations）而错误理解图像内容，或在推理过程中采取不够精细的逻辑路径。此外，VLMs 在推理的连续过程中可能会出现快速传递错误，导致最终结果偏离预期的逻辑。

为了解决这些问题，Critic-V 框架应运而生。该框架通过引入外部批评者的机制，增强了 VLMs 的推理能力。

论文标题：

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

论文链接：

https://arxiv.org/abs/2411.18203

在这一框架中，Reasoner（推理者）和 Critic（评论者）两个独立模块通过协作提升了模型的性能。Reasoner 负责根据视觉和文本输入生成推理路径，而 Critic 则提供建设性的反馈，通过自然语言对推理结果进行评估和改进。

这一分离的推理和评价过程，通过反馈机制的迭代增进，极大地提升了 VLMs 在复杂任务中的推理准确性。

Critic-V 框架的提出反映了对 VLMs 挑战的认真应对，也标志着对改进其推理能力的一种新的思路。图 1 展示了 Critic-V 框架的工作流程，直观地呈现了 Reasoner 与 Critic 之间的互动与反馈关系。

在此基础上，本研究期望能为后续的 VLMs 应用提供一种更为可靠的解决方案，尤其是在推理负荷重的多模态应用中，如自主驾驶和智能体学习。

▲ Figure 1

Critic-V框架介绍

Critic-V 框架的设计旨在增强视觉语言模型（VLMs）在多模态推理任务中的表现，特别是在面对复杂的推理问题时。该框架分为两个主要模块：Reasoner（推理者）和 Critic（评论者），两者之间的协作机制旨在通过外部反馈提升 VLM 的推理准确性。

2.1 Reasoner模块

Reasoner 模块的核心职责是基于视觉和文本输入生成推理路径。该模块利用 In-Context Reinforcement Learning (ICRL) 的原则，通过基于提示的参数调整推理策略。

通过集成视觉内容和文本描述，Reasoner 生成的推理路径可在反馈的基础上不断评估和优化。Reasoner 的目标是通过与 Critic 的交互，逐步改进其推理能力和生成的响应质量。

在这个过程中，Reasoner 的参数更新遵循以下规则：

其中，表示当前的文本提示，是 Critic 提供的反馈，是输入的图像，是奖励信号。通过这种方法，Reasoner 不仅能适应复杂的文本提示，还能利用 Critic 的反馈来优化其输出。

2.2 Critic模块

Critic 模块作为评价 Reasoner 生成路径的质量评估者，提供更细致入微的反馈，而不是简单的标量奖励。这种自然语言反馈能有效识别推理过程中的细节错误和逻辑不一致性，从而为 Reasoner 提供可操作的改进建议。

Critic 的参数更新通过以下公式进行：

其中，是推理者收到的文本提示，是由 Critic 生成的反馈。

为了进一步提升 Critic 的评估能力，Critic-V 框架采用了 Direct Preference Optimization (DPO) 和基于规则的奖励机制（Rule-based Reward, RBR）。DPO 旨在教授 Critic 在生成高质量反馈方面的能力，通过识别高质量和低质量评论之间的偏好关系来优化 Critic 的反馈效果。

2.3 Reasoner-Critic交互机制

Critic-V 框架的独特之处在于 Reasoner 和 Critic 之间的互动关系。这个反馈循环不仅提升了 Reasoner 的推理质量，还为复杂和动态的任务提供了强有力的支持。初始情况下，Reasoner 根据输入生成响应，接着 Critic 对该响应进行评估并提供反馈，Reasoner 在接下来的迭代中依据 Critic 的建议对其输出进行修订。

这种交替的反馈机制确保了 Reasoner 能够逐步优化其推理过程，显著提高其应对复杂任务的能力。Critic-V 的整体框架设计以强化学习和人类反馈相结合为基础，体现了在推理能力提升方面的新方法和新视角。

通过这种偏好的构建和动态的交互机制，Critic-V 框架展示了其在多模态推理任务中提升 VLM 性能的潜力。

方法论

本节将详细介绍 Critic-V 框架的操作细节，重点讲解其核心组成模块 Reasoner（推理者）和 Critic（评论者）的工作原理及训练过程。同时，将探讨如何利用 Direct Preference Optimization（DPO）和 Rule-based Reward (RBR) 机制来提升 Critic 的评估能力，并通过 Metrics 评估 Critic 如何生成高质量反馈。

3.1 Reasoner（推理者）

在 Critic-V 框架中，Reasoner 负责依据当前输入生成推理行动。为了优化其推理策略，Reasoner 采用了一种动态文本提示的方法，通过该方法，推理者能够在推理过程中灵活地修改自身策略。Reasoner 的政策函数可以表示为：

其中，表示当前的文本提示，是评论者提供的反馈，是输入图像，是奖励信号。通过将评论者的反馈纳入推理步骤，Reasoner 能够更有效地优化其生成的响应。

3.2 Critic（评论者）

Critic 在信息处理过程中发挥着至关重要的作用，通过自然语言反馈对 Reasoner 生成的推理路径进行评估。Critic 的政策更新依据以下公式执行：

在这个过程中，Critic 的目标是通过偏好训练优先区分高质量与低质量的反馈。DPO 机制可以将 Critic 模型训练为识别优质反馈，提高其生成高质量评估的能力。

为了生成用于训练的偏好数据，研究者们在视觉问答（VQA）数据集的图像-问题对中引入视觉错误。这些错误是通过 GPT-4o 插入到答案中，并经过多种 VLM 生成的反馈进行评估。为确保评价的有效性，采用了基于规则的奖励机制（RBR）来评估每个反馈的质量，从而构建评论-评价数据集。

3.3 整体流程

Critic-V 框架的整体流程为 Reasoner 生成初始响应后，Critic 评估该响应并提供基于自定义标准的反馈。Reasoner 根据 Critic 的反馈进行响应修改，并将修改后的输出作为后续互动的基础。这种交互迭代的过程旨在逐步改进 Reasoner 的输出质量，尤其是在复杂的推理任务中，通过引入精细深入的反馈来提升推理能力。

Critic 通过反馈的形成及对推理过程的评估，显著改善了视觉语言模型的推理质量。以上内容详细阐明了 Critic-V 框架的构建逻辑及其核心模块的运作机制，为该框架的有效性提供了理论基础。

实验与评估

在本节中，Critic-V 的实验结果将被详细分析，重点是其在多个基准数据集上的表现以及与现有方法的比较。首先，定义评估模型所采用的标准和框架，随后展示 Critic-V 在各种任务中的提升表现，特别是在复杂的数学推理任务中。

Critic-V 框架在多项基准测试中表现出色，显著改善了视觉语言模型（VLMs）的推理能力。表 1 展示了 Critic-V 与其他六种先进方法在多项任务上的表现对比。

结果显示，Critic-V 在 23 个比较实验中取得了一致性进步，其中 Qwen2-VL-7B 在八个基准中取得了五项最高得分。在数学相关基准中，Critic-V 的优势尤其明显，这显示了该方法在复杂推理任务中的有效性。

此外，Critic-V 的实验设计采用了涵盖各领域的问题，以评估其在真实世界知识和多模态推理方面的能力。使用的基准包括 Real World QA、MMT-Bench、ScienceQA 及 MathVista 等，这些基准对模型的全方位性能进行了深入考察。

在数学推理方面，Qwen2-VL-7B 在 MathVista 数据集上的表现提升达到 11.8%，而 DeepSeek-VL-7B 的提升幅度也高达 17.8%。在 MathVerse 数据集上，Qwen2-VL-7B 提升了 7.1%。

本研究还通过图表呈现了 Critic-V 在不同任务中的表现提升，突出其增强 VLMs 可靠性的能力，特别是在推理密集型的领域。实验结果表明，结合外部批评者的反馈机制显著提升了模型的推理准确性，进一步证实了 Critic-V 在复杂任务下的有效性。

相关工作

在视觉语言模型（VLMs）领域，尤其是在推理能力的提高方面，已有众多研究为这一方向奠定了基础。大型视觉语言模型如 GPT-4V、LLaVA、Qwen2-VL 和 InternVL 等，融合了视觉和文本信息，能够处理多模态任务，包括视觉问答（VQA）和图像描述。

这些模型通过强化学习与人类反馈（RLHF）的技术，促进了模型生成内容与人类偏好的对齐。例如，LLaVA-RLHF 采用人类评分的排名，提升了VLM的视觉聊天能力。

然而，这些方法在提升内在生成能力方面的努力，并未充分考虑外部反馈的必要性。正如 Critic-V 框架所展示的，通过集成外部反馈，能有效地减少 VLM 在复杂推理过程中的错误。

例如，POVID（Preference Optimization in VLM with AI-Generated Dispreferences）采用偏好微调，以减少模型的幻觉，而 SCL（Self-Correcting Learning）通过自生成的修正数据进行学习，从而在没有外部反馈的情况下促进自我改进。

在推理方面，大型语言模型（LLMs）通常通过将复杂问题分解为顺序的中间步骤来实现最终答案，这种方法在链式思维（CoT）提示及其变体中得到了体现。然而，LLMs 在推理过程中的不确定性使得其推理步骤。在这一背景下，引入 Critic-V 框架，通过批评者的实时反馈，旨在捕捉到推理过程中的细微错误和逻辑不一致，进而提高模型的准确性。

Critic-V 框架的创新在于通过细致的自然语言反馈，弥补了传统奖励机制的不足。先前的研究多聚焦于提升 VLMs 的内在生成能力，而 Critic-V 则强调外部反馈在修正推理过程中的重要性。这种新颖的视角促使 VLMs 在面对复杂推理任务时，能够获得更为准确和可靠的结果。

通过这样的整合，Critic-V 不仅为现有研究提供了新的思路，也为未来在多模态推理领域的进展指明了方向。随着外部反馈机制的不断加强，以 Critic-V 框架为基础的研究能够在解决多模态任务中对提升视觉理解和推理能力产生更加深远的影响。

结论

Critic-V 框架通过引入外部批评者，显著提升了视觉语言模型（VLMs）在多模态推理任务中的表现。该研究表明，传统的自我反馈机制并不足以应对复杂推理任务中出现的错误，而动态的、基于自然语言的批评反馈对于推动推理能力的提升至关重要。

通过将 Reasoner（推理者）和 Critic（评论者）两个模块有效地整合，Critic-V 能够独立生成推理路径并在此过程中提供建设性的反馈，从而优化推理逻辑并减少错误输出。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉