MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 我爱计算机视觉本文简要介绍多模态数学几何数据生成论文R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models。该论文提出了一个名为“Reverse Chain-of-Thought (R-CoT)”的几何图文问答数据两阶段生成方法,通过生成逼真的几何图像和问答对来弥补合成数据与实际数据的GAP,提升LMM解决实际几何问题的能力。具体而言,针对现有LMMs几何图像理解能力有限的问题,提出GeoChain图文生成引擎,逐步生成逼真的几何图像和完备的描述,作为后续生成Q&A对的先验条件,减轻了视觉幻觉。针对现有LMMs几何推理能力有限的问题,提出Reverse A&Q问答对反向生成流程,先生成答案再生成问题,避免了问题过于复杂导致的答案错误,极大提升了问答对的准确性。实验验证了R-CoT在多个Baseline上的一致有效性,比现有合成数据更逼真的R-CoT数据对LMMs解决实际几何问题的能力有更大的促进作用。
Gao J, Pi R, Zhang J, et al. G-llava: Solving geometric problem with multi-modal large language model[J]. arXiv preprint arXiv:2312.11370, 2023.
Kazemi M, Alvari H, Anand A, et al. Geomverse: A systematic evaluation of large models for geometric reasoning[J]. arXiv preprint arXiv:2312.12241, 2023.
Chen L, Li J, Dong X, et al. Sharegpt4v: Improving large multi-modal models with better captions[J]. arXiv preprint arXiv:2311.12793, 2023.
Li Z, Jasani B, Tang P, et al. Synthesize Step-by-Step: Tools Templates and LLMs as Data Generators for Reasoning-Based Chart VQA[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13613-13623.