论文链接:https://arxiv.org/abs/2411.10440
GitHub地址:https://github.com/PKU-YuanGroup/LLaVA-o1
由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性(Spontaneous)、类似于 GPT-o1 的系统性推理视觉语言模型。
自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。
LLaVA-o1(11B)在六个具有挑战性的多模态基准测试中表现优异,超越了其他竞争者,如 Gemini-1.5-Pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。
图 1. LLaVA-o1 和其他模型在六个多模态推理基准测试中的表现。
LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。
LLaVA-o1 使用名为 LLaVA-o1-100k 的数据集进行微调,该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。
图 3. 生成 LLaVA-o1-100k 数据集的流程。GPT-4o 分阶段生成响应,并过滤其输出以确保质量。
LLaVA-o1 采用了阶段级束搜索(Stage-level Beam Search)的推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选取最佳答案。
这里具体采用的方法是 Stage-level Beam Search:
首先,对初始阶段先生成N个响应,然后随机选择2个回答,然后模型来判断哪个更好,并保留更好的那个回答,这个随机过程重复N-1次,就能得到最好的回答;对后面的三个阶段也均生成N个响应,按照类似的流程得到最好的回答。
示意图如下所示:
图 5. 有/无 阶段级束搜索的 LLaVA-o1 性能比较。在模型推理过程中,阶段级束搜索能有效地选择更好的推理。
这里的 N 是一个超参数,N 越大,推理成本越大,但是也意味推理结果更好,所以这就是一种inference time scaling,和 OpenAI 的 o1 类似。实验结果也证明增大N,性能变得更好:
表 6. LLaVA-o1 的扩展趋势。N 越大,模型的性能越好。
LLaVA-o1 在处理复杂任务时具备较强的能力,在复杂视觉问答任务中,可以突破传统视觉语言模型的局限性。
与基础模型相比,LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能,超过了许多大型和闭源的竞争对手。
表 7. LLaVA-o1 和最先进模型在推理基准上的实验结果。
我们可以先来看一下 LLaVA-o1 和它对应的基础模型 Llama-3.2-11B-Vision-Instrcut 在输出上的区别,如下所示:
可以看到基础模型 Llama-3.2-11B-Vision-Instruct 会立即针对问题生成简短答案。这种直接响应范式的主要局限性在于缺乏结构化的推理过程,使其在需要逻辑推理的任务中效果较差,所以上面的推理过程中出现了几处错误。
相比之下,LLaVA-o1 首先概述问题,从图像中解释相关信息,然后进行逐步推理,并最终得出一个有充分支持的结论。
参考:
https://www.ithome.com/0/811/565.htm
https://zhuanlan.zhihu.com/p/7628772101