SmartFlowAI
点击上方蓝字关注我们
转载自公众号「我爱计算机视觉」
本文简要介绍多模态数学几何数据生成论文
R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models
。该论文提出了一个名为“Reverse Chain-of-Thought (R-CoT)”的几何图文问答数据两阶段生成方法,通过生成逼真的几何图像和问答对来弥补合成数据与实际数据的GAP,提升LMM解决实际几何问题的能力。
具体而言,针对现有LMMs几何图像理解能力有限的问题,提出GeoChain图文生成引擎,逐步生成逼真的几何图像和完备的描述,作为后续生成Q&A对的先验条件,减轻了视觉幻觉。针对现有LMMs几何推理能力有限的问题,提出Reverse A&Q问答对反向生成流程,先生成答案再生成问题,避免了问题过于复杂导致的答案错误,极大提升了问答对的准确性。
实验验证了R-CoT在多个Baseline上的一致有效性,比现有合成数据更逼真的R-CoT数据对LMMs解决实际几何问题的能力有更大的促进作用。
论文链接:https://arxiv.org/abs/2410.17885 代码地址:https://github.com/dle666/R-CoT
一、研究背景
解决数学几何问题的能力,是衡量LMM推理性能的关键。然而,现有的模型在几何问题上表现并不理想,主要原因在于现有真实几何数据非常有限,远不足以支持模型训练。
如图1所示,现有几何数据合成方法主要分为三类。改写法[1]:使用LLM对开源数据集中的问答对进行改写,以增加问题数量。但这种方法忽略了图像和知识点的多样性。基于模板的方法[2, 3]:引入了生成几何图像和问答对的数据引擎。
然而,生成的图像通常缺乏逼真度,并且基于模板的问答对多样性有限。基于LMM的方法:利用先进的LMM从图像生成问答对,被广泛用于为通用VQA任务生成高质量的训练数据[4, 5]。然而,由于现有LMM几何推理能力有限,他们在生成几何数据时难以保证准确性。
总的来说,这些方法合成的几何图像与真实图像之前存在严重的GAP,并且难以平衡数据的准确性和丰富性,导致训练的模型在真实几何题上泛化能力较差。
针对上述问题,该论文提出一个几何图文问答数据两阶段生成方法R-CoT。如图1(d)所示,R-CoT利用GeoChain图文引擎逐步生成逼真的几何图像及相应的完备描述,这些图像描述准确地描述了几何元素及其关系,将作为第二部分的先验。此外,Reverse A&Q仅将图像描述输入到LLM中以避免了LMM引起的幻视,并通过先生成答案再生成问题的反向数据生成流程,得到了准确且多样化的问答对。
二、方法原理简述
该论文提出的R-CoT整体结构如图2所示,其遵循GeoChain到Reverse A&Q的两阶段流程,具体细节如下:
1.GeoChain:生成逼真图像及其完备描述
现有的合成图像与现实世界的几何图像存在显著差距,且仅生成图像无法让LMM准确的理解图像细节。为了让LMM更好的适应真实几何图像,设计了GeoChain,用于生成逼真几何图像及其准确的描述。后续生成几何问答对时将仅使用图像描述。
GeoChain包含三部分。首先,构建包含20种不同几何基底的基底池;然后,从池中随机采样一或多个基底,输入几何图像生成链进行基底组合,添加常见几何线操作(如添加中线),并注释顶点、边长和角度等几何属性,使其更贴近真实数学几何图形;最后,几何描述生成链基于预定义模板逐步生成图像描述,确保既反映几何形状,又揭示元素间的几何关系(如交点信息)。
2.Reverse A&Q:Q&A对反向生成流程
Reverse A&Q仅使用图像描述来生成几何Q&A对,避免幻视导致的Q&A对不准确。但目前的LLM在解决复杂的几何问题上仍然存在局限性,使用LLM直接一步生成问答对也可能会带来不正确的信息。因此Reverse A&Q逐步生成准确问答再反向生成合理的问题。
该过程分为三个步骤:Description Patch Reasoning,将图像描述分割成小块并输入LLM,生成简单单步推理结果,从而提高推理的准确性;Chain-of-Thought Fusion,将具有关联性的单步推理结果逐步融合,增加几何问题的复杂性;Question Generation,基于多步推理结果生成适当难度的问题,确保其可解性并避免因问题过于复杂导致的不准确性。生成提示细节详见原文。
三、GeoMM数据集
通过R-CoT,该论文构建了高质量的几何数据集GeoMM。
在图像层面,与现有图像生成引擎主要通过多边形组合构建几何图像的方式不同,该论文特别强调了带有特殊性质的线条在几何图形中的重要性。例如,中线或半径等特殊线条是许多几何定理(如中线定理)的基础。为了使后续生成的问答对能够蕴含更丰富的几何知识,该论文在图像生成过程中整合了具有特定属性的线条(如半径)。这一方法显著提升了生成图像的逼真性和知识承载能力。
在文本层面,GeoMM数据集涵盖了四大类几何问题,特别强调关系型问题,此类问题在现有的合成数据集中较为少见。关系型问题的设计旨在帮助模型更深入地理解和处理几何元素之间的定量和定性关系,从而提升其在几何推理任务中的表现。
四、主要实验结果
该论文将R-CoT和两个最近的几何问题合成方法(MAVIS(合成部分)和GeomVerse)进行比较。
如图7所示,利用相同规模的合成数据训练后,三个数据集均有效提升了基准模型的几何推理能力。R-CoT训练的模型在多数情况下展现出显著的性能优势,反映出R-CoT在合成数据质量上的提升。
此外,图7 (c)和(d)表明,R-CoT模型在多次实验中的性能方差较低,这是其生成数据的逼真度和准确性造就的训练稳定性。然而,随着数据规模增大,各数据集的性能均在一定阈值后出现下降,可能由于数据多样性受限以及与真实几何问题的差距限制了其可扩展性。
相比之下,R-CoT的性能下降在更高的数据规模上才显现,表明其在多样性和逼真度上的领先优势。
R-CoT在多个LMM上都证明了普遍有效性(表1),在准确度上表现出了一致的提高。不同多边形分布对最终性能的影响也在0.5以内,证明了R-CoT生成数据对不同多边形分布具有很好的鲁棒性(表2)。
表 1 GeoMM 在不同模型上的有效性验证
表 2 多边形分布鲁棒性验证
消融实验证明R-CoT中每一个组件的有效性(表3)。利用R-CoT训练后的模型与现有的LMM相比,在MathVista和GeoQA的几何任务上展现出优越的性能。图8的定性结果进一步说明了基于R-CoT训练的模型具有更强大的细粒度理解能力,可以生成简洁的思路,并得到正确的答案。
表 3 R-CoT数据生成过程的消融研究
表 4 在MathVista的testmini集和GeoQA测试集上求解几何问题的准确度比较
五、总结与讨论
该论文提出了R-CoT,一种新颖的反向数据生成流程,弥合了和实际数据的差距,可显著提高几何问答对生成的质量和逼真度,比以前的合成几何数据集具有明显的优势。R-CoT实现了对现有LMM的持续改进,与开源和闭源模型相比达到了新的最先进结果。R-CoT强调了高质量逼真数据在提高LMM几何推理能力方面的关键作用。论文将把R-CoT方法扩展到其他类型的数学问题,同时探索减轻LMM视觉幻觉和提高数据准确性的策略,为未来的研究提供进一步的见解。
参考文献
Gao J, Pi R, Zhang J, et al. G-llava: Solving geometric problem with multi-modal large language model[J]. arXiv preprint arXiv:2312.11370, 2023. Kazemi M, Alvari H, Anand A, et al. Geomverse: A systematic evaluation of large models for geometric reasoning[J]. arXiv preprint arXiv:2312.12241, 2023. Zhang R, Wei X, Jiang D, et al. Mavis: Mathematical visual instruction tuning[J]. arXiv preprint arXiv:2407.08739, 2024. Chen L, Li J, Dong X, et al. Sharegpt4v: Improving large multi-modal models with better captions[J]. arXiv preprint arXiv:2311.12793, 2023. Li Z, Jasani B, Tang P, et al. Synthesize Step-by-Step: Tools Templates and LLMs as Data Generators for Reasoning-Based Chart VQA[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13613-13623.
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!