LLaVA-o1:国产开源小型多模态AI模型获得超越GPT-4o-mini 大模型的性能

科技   2024-11-20 08:00   中国香港  

以 OpenAI o1 为代表的大型语言模型展示了强大的推理能力,充分验证了语言模型推理时计算的有效性。北京大学、清华大学研究人员日前发布的 LLaVA-o1[1] 模型,凭借其独特的多阶段自主推理能力,在多项任务中展现出惊人的性能,引发了广泛关注与热议。

LLaVA-o1 的核心算法:多阶段自主推理

早期的开源视觉语言模型(VLM)主要采用直接预测方法,在回答问题时立即生成简短的答案。这种直接反应范式的主要局限性在于它缺乏结构化的推理过程,这使得它对需要逻辑推理的任务效率较低。作者研究发现,VLM 经常在没有充分组织问题和可用信息的情况下发起响应。此外,它们经常偏离对结论的逻辑推理,而不是过早地提出结论并随后试图证明其合理性。鉴于语言模型会逐一生成响应,一旦引入错误的结论,模型通常会沿着有缺陷的推理路径继续。

而 LLaVA-o1 的亮点便在于其创新的多阶段自主推理机制。这种机制允许模型在处理复杂任务时,像人类一样分步思考,从而在保持模型规模较小的同时,实现接近甚至超越大型模型的性能。

下面是具体的步骤:

  1. 问题分解:模型首先将复杂任务分解为多个子任务。
  2. 信息收集:对于每个子任务,模型会从图像和上下文中收集相关信息。
  3. 逐步推理:基于收集的信息,模型进行逻辑推理,得出中间结论。
  4. 综合分析:将各个子任务的结果整合,形成最终答案。

这种结构化的推理方法使 LLaVA-o1 能够处理需要深度逻辑思考的复杂问题,而不是简单地生成表面化的回答,进而克服错误或幻觉输出。

在实现上,LLaVA-o1 项目在以下几个方面进行了创新:

1.LLaVA-o1-100k 数据集:研究团队收集了包含 99k 个图像问答对的新数据集,并使用 GPT-4 生成详细的结构化推理过程。这为模型提供了高质量的训练数据。

2.阶段级波束搜索:提出了一种新的推理时间级波束搜索方法,能为每个推理阶段生成候选者并选择最佳选项。这种方法在粗粒度和细粒度搜索之间取得了平衡,显著提升了模型性能。

3.结构化训练方法:通过在训练过程中引入结构化标签,使模型能够学习到更系统、更有逻辑的推理过程。

性能评估

LLaVA-o1 在多个多模态推理基准上展现出了优异的性能:

  1. 在六个需要高级推理能力的基准测试中,LLaVA-o1始终优于许多类似甚至更大规模的开源模型,如 InternVL2-8B 、Ovis1.5-Gemma29B 等。
  2. 值得注意的是,LLaVA-o1 甚至超越了GPT-4V-mini 和Gemini-1.5-pro 等某些闭源模型的表现。
  3. 与其基础模型 Llama-3.2-11B-VisionInstruct 相比,LLaVA-o1 在各种多模态推理基准上的性能提升了 8.9%。

在实际的示例里,相较于Llama-3.2-11B-Vision-Instruct模型推理过程表现出来的明显错误。LLaVA-o1成功地分析了图像中的场景,识别了相关元素,并通过逻辑推理得出了正确的结论。

小结

LLaVA-o1 的证明了结构化推理方法在视觉语言模型中的重要性。尽管只使用了 10 万个训练样本和一种简单而有效的推理时Scaling 的方法,LLaVA-o1 就能够在多个基准上超越更大的模型,那么这样的思想是否能够扩展到其他模态上,将会是一个很不错的尝试。

参考资料

[1]

LLaVA-o1: https://arxiv.org/pdf/2411.10440 

新一代智能化应用
人工智能是一门认知科学,而新一代的智能化应用是一个系统工程。智能应用程序是 人工智能驱动的应用程序,可转变用户的工作效率、自动化流程并获得见解
 最新文章