点击下方卡片,关注「魔方AI空间」公众号
简 介
LLaVA-CoT引入了四个不同的阶段(摘要、标题、推理和结论),使模型能够独立进行系统化的多阶段推理,显著提高了在推理密集型任务上的准确性。
编译了LLaVA-CoT-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化的推理注释,为训练提供了丰富的数据支持。
提出一种新的推理时阶段级束搜索方法,能够在每个阶段生成多个候选结果并选择最佳结果继续生成过程,实现了有效的推理时扩展。
通过监督微调,LLaVA-CoT不仅在广泛的推理基准上超越了其基础模型,还超过了更大且闭源的模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
引 言
大语言模型在推理能力上取得了显著进步,特别是在推理时间扩展方面,如OpenAI的o1所示。然而,当前的视觉语言模型(VLMs)往往难以进行系统和结构化的推理,尤其是在处理复杂的视觉问答任务时。
本文要解决的问题是如何提升视觉语言模型(VLMs)在处理复杂视觉问答任务时的系统性结构化推理能力。
现有的VLMs在推理过程中缺乏系统性和结构性,导致在复杂推理任务中频繁出现错误和幻觉输出;如何有效地进行推理时间扩展,以应对更复杂的任务和场景。
方法概述
LLaVA-CoT(Let Vision Language Models Reason Step-by-Step),一种旨在通过多阶段推理来增强视觉语言模型(VLM)系统性和结构性推理能力的新模型。
(1)结构化推理阶段:LLaVA-CoT将答案生成过程分解为四个结构化推理阶段:总结、标题、推理和结论。每个阶段都有其独特的作用:
总结阶段:模型提供问题的高层次总结,概述将要解决的问题的主要方面。 标题阶段:如果存在图像,模型提供与问题相关的视觉元素的简洁概述,帮助理解多模态输入。 推理阶段:基于初始总结,模型进行结构化和逻辑推理,得出初步答案。 结论阶段:模型综合前面的推理,生成最终答案。
(2)数据准备和模型训练:为了训练LLaVA-CoT模型,作者构建了一个包含99k图像问答对的新数据集LLaVA-CoT-100k。该数据集通过使用GPT-4o生成详细的推理过程,并使用监督微调进行训练。具体步骤如下:
使用GPT-4o生成问题和图像的总结、标题、推理和结论。 过滤生成的数据以确保质量。 选择Llama-3.2-11B-Vision-Instruct作为基础模型,并在LLaVA-CoT-100k数据集上进行全参数微调。
(3)推理时间扩展:为了进一步在推理过程中增强模型的推理能力,作者提出了一种新的阶段级束搜索方法。该方法在每个推理阶段生成多个候选结果,并选择最佳结果以继续生成过程。具体步骤如下:
在每个推理阶段随机采样N个响应。 随机选择2个响应,让模型决定哪个更好,并保留较好的响应。 重复上述步骤N-1次,保留最佳响应。 重复上述过程,直到所有阶段都处理完毕。
实验细节
数据收集:作者从多个广泛使用的视觉问答数据集中收集了样本,包括ShareGPT4V、ChartQA、A-OKVQA、AI2D、GeoQA+、ScienceQA、DocVQA、PISC和CLEVR等。
实验设计:实验在六个广泛使用的多模态推理基准上进行,包括MMStar、MMBench、MMVet、MathVista、AI2D和HallusionBench。所有评估均使用VLMEvalKit进行,以确保公平性和可重复性。
样本选择:从每个数据集中选择了一定数量的问答对,总共99k个图像问答对。
参数配置:使用Llama recipes框架进行训练,具体超参数配置包括学习率1e-5,训练轮数3,批量大小4,使用快速内核,不使用验证等。
实验结果分析
基准测试结果:与基础模型相比,LLaVA-CoT在一般视觉问答、数学推理、科学视觉问答和幻觉控制任务上均表现出色,平均基准得分提高了6.9%。
消融研究:
LLaVA-CoT-100k数据集比直接使用原始数据集的问答对更有效。 结构化标签对模型性能的提升至关重要,去除标签后模型性能显著下降。 模型主要在需要系统性推理的任务上表现出改进,如实例推理、逻辑推理、数学和科学和技术。
推理时间扩展:阶段级束搜索方法在推理时间计算增加时表现出显著的有效性。随着候选响应数量的增加,模型性能持续提高。
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式AIGC内容!!
从零走向AGI
https://github.com/AI-mzq/From-Zero-to-AGI.git
AIGCmagic社区飞书知识库:
https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd
面试面经
https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git
推荐阅读
技术专栏:多模态大模型最新技术解读专栏 |AI视频最新技术解读专栏 |大模型基础入门系列专栏 |视频内容理解技术专栏 |从零走向AGI系列
技术资讯:魔方AI新视界
技术综述:一文掌握Video Diffusion Model视频扩散模型 |YOLO系列的十年全面综述 |人体视频生成技术:挑战、方法和见解