首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

LLaVA系列｜LLaVA-CoT：让视觉语言模型逐步推理

2024-12-16 07:25 北京

点击下方卡片，关注「魔方AI空间」公众号

简介

LLaVA-CoT引入了四个不同的阶段（摘要、标题、推理和结论），使模型能够独立进行系统化的多阶段推理，显著提高了在推理密集型任务上的准确性。

编译了LLaVA-CoT-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化的推理注释，为训练提供了丰富的数据支持。

提出一种新的推理时阶段级束搜索方法，能够在每个阶段生成多个候选结果并选择最佳结果继续生成过程，实现了有效的推理时扩展。

通过监督微调，LLaVA-CoT不仅在广泛的推理基准上超越了其基础模型，还超过了更大且闭源的模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

图1. LLaVA-CoT和其他模型在六个多模态推理基准测试中的性能。尽管LLaVA-CoT是从Llama-3.2-11B-Vision-Instruct模型中微调而来的（该模型的平均分数最低），但它胜过了许多更大的开源模型，甚至一些闭源模型

引言

大语言模型在推理能力上取得了显著进步，特别是在推理时间扩展方面，如OpenAI的o1所示。然而，当前的视觉语言模型（VLMs）往往难以进行系统和结构化的推理，尤其是在处理复杂的视觉问答任务时。

本文要解决的问题是如何提升视觉语言模型（VLMs）在处理复杂视觉问答任务时的系统性结构化推理能力。

现有的VLMs在推理过程中缺乏系统性和结构性，导致在复杂推理任务中频繁出现错误和幻觉输出；如何有效地进行推理时间扩展，以应对更复杂的任务和场景。

图2. 基线模型与LLaVA-CoT的比较。如图所示，基线模型Llama-3.2-11B-Vision-Instruct在推理过程中出现了明显的缺陷，多次出现错误。相比之下，LLaVA-CoT首先概述问题，从图像中解释相关信息，然后逐步进行推理过程，并最终得出一个得到充分支持的结论

方法概述

LLaVA-CoT（Let Vision Language Models Reason Step-by-Step），一种旨在通过多阶段推理来增强视觉语言模型（VLM）系统性和结构性推理能力的新模型。

（1）结构化推理阶段：LLaVA-CoT将答案生成过程分解为四个结构化推理阶段：总结、标题、推理和结论。每个阶段都有其独特的作用：

总结阶段：模型提供问题的高层次总结，概述将要解决的问题的主要方面。
标题阶段：如果存在图像，模型提供与问题相关的视觉元素的简洁概述，帮助理解多模态输入。
推理阶段：基于初始总结，模型进行结构化和逻辑推理，得出初步答案。
结论阶段：模型综合前面的推理，生成最终答案。

（2）数据准备和模型训练：为了训练LLaVA-CoT模型，作者构建了一个包含99k图像问答对的新数据集LLaVA-CoT-100k。该数据集通过使用GPT-4o生成详细的推理过程，并使用监督微调进行训练。具体步骤如下：

使用GPT-4o生成问题和图像的总结、标题、推理和结论。
过滤生成的数据以确保质量。
选择Llama-3.2-11B-Vision-Instruct作为基础模型，并在LLaVA-CoT-100k数据集上进行全参数微调。

图3. 生成LLaVA-CoT-100k数据集过程的流程。引导GPT-4o在各个阶段生成响应，并过滤其输出以确保质量

（3）推理时间扩展：为了进一步在推理过程中增强模型的推理能力，作者提出了一种新的阶段级束搜索方法。该方法在每个推理阶段生成多个候选结果，并选择最佳结果以继续生成过程。具体步骤如下：

在每个推理阶段随机采样N个响应。
随机选择2个响应，让模型决定哪个更好，并保留较好的响应。
重复上述步骤N-1次，保留最佳响应。
重复上述过程，直到所有阶段都处理完毕。

图4. 推理方法的示意图。最佳N次搜索生成N个完整响应，并从中选择最佳一个；句子级波束搜索为每个句子生成多个候选选项，并从中选择最佳一个。相比之下，我们的阶段级波束搜索为每个推理阶段（例如，摘要、标题、推理和结论）生成候选项，并在每个阶段选择最佳选项。最佳N次搜索在粗略层面上操作，而句子级波束搜索过于细致，我们的方法实现了最优平衡并取得了最佳性能

实验细节

数据收集：作者从多个广泛使用的视觉问答数据集中收集了样本，包括ShareGPT4V、ChartQA、A-OKVQA、AI2D、GeoQA+、ScienceQA、DocVQA、PISC和CLEVR等。

实验设计：实验在六个广泛使用的多模态推理基准上进行，包括MMStar、MMBench、MMVet、MathVista、AI2D和HallusionBench。所有评估均使用VLMEvalKit进行，以确保公平性和可重复性。

样本选择：从每个数据集中选择了一定数量的问答对，总共99k个图像问答对。

参数配置：使用Llama recipes框架进行训练，具体超参数配置包括学习率1e-5，训练轮数3，批量大小4，使用快速内核，不使用验证等。

实验结果分析

基准测试结果：与基础模型相比，LLaVA-CoT在一般视觉问答、数学推理、科学视觉问答和幻觉控制任务上均表现出色，平均基准得分提高了6.9%。

消融研究：

LLaVA-CoT-100k数据集比直接使用原始数据集的问答对更有效。
结构化标签对模型性能的提升至关重要，去除标签后模型性能显著下降。
模型主要在需要系统性推理的任务上表现出改进，如实例推理、逻辑推理、数学和科学和技术。

推理时间扩展：阶段级束搜索方法在推理时间计算增加时表现出显著的有效性。随着候选响应数量的增加，模型性能持续提高。

技术交流

加入「AIGCmagic社区」群聊，一起交流讨论，涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

更多精彩内容，尽在「魔方AI空间」，关注了解全栈式AIGC内容！！

从零走向AGI

https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGCmagic社区飞书知识库：

https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd

面试面经

https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git

推荐阅读

技术专栏：多模态大模型最新技术解读专栏 |AI视频最新技术解读专栏 |大模型基础入门系列专栏 |视频内容理解技术专栏 |从零走向AGI系列

技术资讯：魔方AI新视界

技术综述：一文掌握Video Diffusion Model视频扩散模型 |YOLO系列的十年全面综述 |人体视频生成技术：挑战、方法和见解

AI技术从业者与爱好者，专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享！

最新文章

2025年开篇｜AI Agent与多模态大模型：智能革命的新纪元

AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

导师放养，拿下SCI论文

开源项目 | BrushEdit 新型交互式图像编辑框架

《一书解决几乎所有机器学习问题》.PDF下载

LLaVA系列｜LLaVA-CoT：让视觉语言模型逐步推理

多模态大模型，杀疯了！

综述｜多模态学习是否为医疗保健领域提供了通用智能？

AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

大模型经典著作《大语言模型基础与前沿》

一文读懂多模态大模型：LLaVA系列 | 从图像到视频内容理解的进化之路

GPT-o1深度揭秘！突破LLM极限，能力超越人类博士生？

一文读懂多模态大模型（MLLM）

开源项目 | SG-I2V：超强图生视频技术，精确控制运动轨迹

开源项目 | Mochi：最强开源视频生成模型

AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

2w字综述 | 一文掌握Video Diffusion Model视频扩散模型

开源项目 | 多模态大模型VILA：强大的视频理解和多图理解能力

太有意思了 | PhysGen：引入「物理知识」的视频生成模型

开源项目 | 多模态大模型 VideoCLIP-XL：一种新的视频 CLIP 模型

从零走向AGI系列｜从头构建一个小型文本到视频生成模型（T2V）

AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

开源项目 | 多模态大模型Oryx：专注于图像、视频和多视角3D场景的时空理解

AIGC时代算法工程师的面试秘籍（第二十三式2024.9.16-9.29） |【三年面试五年模拟】

开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

国产视频生成大模型 | 书生·筑梦2.0：开启视觉梦幻之旅

开源项目 | 多模态大模型VITA：同时处理视频、图像、文本和音频

Yolo-World | 检测一切模型：高效实时开放词汇目标检测

开源项目 | 多模态大模型VideoLLaMB：长上下文视频理解新框架

开源项目｜多模态大模型：Show-o 统一多模态理解和生成

AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）【魔方AI新视界】

新手必看 | 极简入门「AI文生视频提示词」创作指南

多模态大模型：Video-LLaVA2 视频和图像的智能理解系统

ComfyUI最佳实践 | 免费白嫖「黑神话·悟空」生图实战（人人都能玩）

多模态大模型：LLaVA-OneVision 轻松实现视觉任务迁移 | 单图、多图和视频理解

AI短片创作 | 利用MJ+即梦+Suno快速创作七夕MV视频（全流程复盘，小白也能上手）

开源实操 | 腾讯VTA-LDM：让你的视频自动生成完美音效

半年耕耘，《AIGCmagic社区知识星球》重磅升级！限量活动中！

AIGC 月刊 | 技术革新与应用案例（2024.7月第三期）【魔方AI新视界】

综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

新手必看｜一文理解LLM中的Tokens 和 Embeddings

国内有哪些好用的AI视频生成及创作工具

阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

Odyssey：好莱坞级的AI视频生成和编辑工具

太强了！快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作

新手必看 | 44张图带您极简学习Transformer | 分步数学示例（建议收藏）

最新消息 | 快手「可灵AI」Web端平台上线及全新功能限时免费 | 可灵赛事启动

商汤重磅推出Vimi——亮相WAIC，成为“镇馆之宝” | 2024世界人工智能大会

2万字长文｜YOLOv10的起源：YOLO系列的十年全面综述【YOLOv1-YOLOv10】(建议收藏)

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉