© 作者|都一凡、刘子康、李依凡
机构|中国人民大学
近年来,类似于 OpenAI 的 o1 等慢思考(slow-thinking)推理系统在解决复杂推理任务方面展现了卓越的能力。目前,社区已经涌现出一系列通过慢思考增强推理能力的模型,如DeepSeek-R1,Kimi-k0-math,QwQ等。但是,当前工作大多聚焦于文本领域,很少有工作探索多模态类o1模型的技术路线,现有的多模态模型大多落后于QVQ,Kimi-k1等多模态慢思考系统。在此背景下,我们的团队致力于实现类似于 o1 的多模态推理系统——Virgo。本文是一个初步的探索,基于小组的前期工作STILL-2,介绍了我们在复现多模态 o1 类推理系统方面的研究进展。在本工作中,我们分别探索了使用文本长思维链数据,以及使用多模态长思维链数据对现有的多模态大模型进行微调。我们仅使用 5K条蒸馏的纯文本长思维链数据就能够取得不错的效果: 在多模态数学榜单MathVerse和MathVision 达到了 48.4和38.8 的评分,在OlympiadBench的非证明题上取得了29.9的分数。
论文题目:Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
论文链接:https://arxiv.org/pdf/2501.01904
开源地址:https://github.com/RUCAIBox/Virgo/tree/main
1. 背景
我们认为慢思考是模型回答问题的一种模式,只需要少量数据就能激发。因此,我们主要探索两种简单直接的方式激发多模态模型慢思考的能力:从文本慢思考模型蒸馏数据、从多模态慢思考模型蒸馏数据。主要为了探索如下两个问题:
(1)慢思考是否能够通过在文本长思维链数据上微调进行跨模态迁移?
(2)如果慢思考能力可以跨模态迁移,那么从基于文本的长思维链数据中获得的能力是否能与从多模态模型中蒸馏的能力相媲美?
2.1. 通过文本指令进行跨模态迁移
我们基于前期工作STILL-2,利用从DeepSeek-R1-Lite-Preview和QwQ-32B-preview蒸馏的数据,对多模态模型进行微调,使其能够在回答问题之前,生成详细的内部推理步骤。这些思维过程包括规划、分而治之、自我修正、总结和回溯等复杂的推理行为,我们认为这些能力可以从文本直接迁移到多模态领域。我们一共收集了5K条math、science、code、puzzle的文本数据,对Qwen2-VL-72B-Instruct进行微调。
由于我们的根本目标不是在榜单上刷到SOTA,而是探索慢思考能力跨模态迁移的有效性,因此我们只使用了最直接的模仿学习的方法,而没有采用更高级的训练算法(例如DPO和RL)。
2.2. 通过多模态指令进行蒸馏
为了比较通过文本迁移的慢思考能力和直接蒸馏的慢思考能力哪个更优,我们进一步蒸馏了多模态数据,主要通过两种方式:(1)直接蒸馏QVQ;(2)基于2.1中得到的模型进行自蒸馏。
3. 实验设计
3.1. 实验设置
MathVerse:包含了2612个不同来源的多学科数学问题。 MathVision:包含了3040道来自于已有数学竞赛中的高难度题目。 OlympiadBench:包含了8476道多语的奥林匹克级别的数学与物理问题。 MMMU: 包含了来源于30个不同学科,183个不同子领域的11500道多模态问题
3.2. 实验结果
3.3. 进一步分析
在展示整体性能分析之后,我们进一步探讨了长推理指令数据对视觉推理的具体影响。以下是主要研究发现:
3.3.1 关于评测任务
3.3.2 关于训练数据的长度
更长的推理过程不一定带来更好的性能提升。我们比较了模型在使用不同难度的文本指令下的微调表现。我们通过指令长度来区分文本指令难度。具体来说,我们分别使用指令长度范围为(0, 2000]、(2000, 4000]和(4000, 8000]的长推理指令对模型进行训练,结果如表4所示。结果表明,将训练数据中的推理长度限制从2000个词元增加到4000个词元,在所有基准上都带来了性能提升。然而,将推理长度限制进一步增加到8000个词元会导致大多数基准的性能下降。为了进一步分析长指令带来的性能下降,我们分析了每个长度范围的数据组成,观察到在(4000, 8000]范围内,指令数据主要由数学相关指令组成。这些数学问题可能导致模型思维链长度超出实际视觉推理任务所需的长度:即便是平均回复最长的OlympiadBench,其平均长度也低于4000。
3.3.4 关于蒸馏视觉指令的难度
视觉指令的难度对模型性能的影响有限。此前我们从多个领域选择了视觉问题,并通过蒸馏QVQ和Virgo-72B生成了视觉长思考指令。我们的目标是探讨具有不同难度级别的视觉指令对推理性能的影响。具体而言,我们首先使用未经过长思维链微调的Qwen2-VL-72B-Instruct,通过贪心解码生成视觉指令的回答。我们从中排除了Qwen2-VL自身就能够正确回答的问题,因为它们相对容易。对于剩余的问题,Virgo-72B执行多次rollout,对每个问题生成五个候选答案。我们根据正确回答的比例定于了两种难度级别:Medium(有4-5个正确回答)和Hard(有2-3个正确回答)。作为对比,我们还设置了Random级别,即不管模型是否能正确作答,完全随机地抽取问题,并基于这些问题合成回复。之后我们将5K文本长思考指令与三种难度的视觉指令结合,用于微调Qwen2-VL-72B-Instruct,结果如表6所示。结果表明,不同难度级别的视觉指令并没有导致显著性能差异。这表明,需要更先进的策略来合成视觉长思考指令,以增强多模态慢思考推理能力。
3.4. 示例分析
对感知结果的反思的缺失可能导致推理错误。通过分析多个失败案例,我们发现有时 Virgo未能反思其感知结果,这可能导致整个推理过程的失败。下图中展示了一个典型案例,其中 Virgo 错误地感知了 9 月份拥有“高中学历”的失业人数(用红色标出)。导致其得出错误结论,认为 8 月和 9 月都是满足问题要求的答案。尽管 Virgo 意识到结果的不合理性并开始反思其推理过程(用蓝色标出),但它并未质疑其感知结果的正确性。因此,错误的结论被反复生成,最终导致错误答案。这一案例表明,从仅文本指令迁移而来的慢思考多模态大模型在感知反思能力上可能存在局限性。未来的模型设计应注重同时具备对感知结果和推理过程进行反思的能力。
4. 研究意义