.01
.02
摘要(Summary):提取图像和文本的核心信息。 描述(Caption):生成更详细的图像文字描述,提供上下文支持。 推理(Reasoning):基于摘要和描述,分步进行逻辑推导。 结论(Conclusion):总结并生成最终的回答。
.03
相较于基础模型Llama-3.2-Vision-Instruct:多模态推理能力提升了8.9%。 超越闭源模型:如Gemini-1.5-pro、GPT-4o-mini和更大参数的Llama-3.2-90B-Vision-Instruct。
.04
缺乏逻辑性:生成的答案通常过于直接,忽略了推理过程。 多模态理解不足:在同时处理图像和文字时容易信息断裂。
多阶段推理:通过逐步推导,确保逻辑的连贯性。 舞台级束搜索:以更高的质量筛选答案,减少错误。 高效训练方法:仅依赖小规模训练数据,便可取得大幅度性能提升。
.05
MMStar、MMBench和MMVet:在多模态任务的理解与推理上优于所有同类模型。 MathVista和AI2D:在数学和科学视觉问题上表现尤为突出,显示其在复杂逻辑任务中的能力。 HallusionBench:减少回答中的逻辑矛盾,可靠性显著提升。
.06
.07
参考:
https://arxiv.org/abs/2411.10440 https://github.com/PKU-YuanGroup/LLaVA-o1