华中师范大学杨宗凯团队 | COMET:用于数学题目生成的教育领域多模态模型
文摘
科技
2024-12-11 12:01
北京
研究团队
刘三女牙、冯锦天、杨宗凯、万仟、沈筱譞、孙建文:华中师范大学,教育大数据应用技术国家工程研究中心
罗亚威:浙江大学,软件工程学院
文章下载
Sannyuya Liu, Jintian Feng, Zongkai Yang, Yawei Luo, Qian Wan, Xiaoxuan Shen & Jianwen Sun. COMET: "Cone of experience" enhanced large multimodal model for mathematical problem generation. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4242-0
生成式人工智能正以前所未有的方式推动教育变革。尽管许多研究者已在探索多模态大模型(LMM)与教学相结合的可能性,但在教育资源生成,尤其是数学题目生成领域的深入研究仍显不足。数学题目作为作重要的知识载体与考核手段,其自动生成技术在教学过程中具有重要的应用价值。然而,传统的“解题”与“出题”分离的研究路径,以及以单一数据结构和统一训练目标为主流的大模型微调范式,限制了数学题目生成在实际教学场景中的应用。本文首先从能力互促与应用逻辑的角度出发,将题干生成与题目解答统一到数学题目生成这一框架中。其次,提出了一种基于“经验之塔”的三阶段微调框架,通过引入类人学习的思想,探索和论证了大模型训练过程类比人类学习经历的有效性。通过剖析职业教师的成长历程,将微调数据按照抽象、观察和实践三个层次的经验内核进行划分,并在此基础上设计了多种精细化的数据构造与注入方法。最后,本工作构建了一个中文多模态数学题目数据集CMM12K,为后续多模态数学题目生成提供测评基准。(1) 从以数据为中心的人工智能视角出发,基于“经验之塔”理论构建了面向数学题目生成的多模态大模型(COMET)。据我们所知,这是在单一多模态大模型上系统性提升解题与出题能力的研究。(2) 提出了基于“经验之塔”的三阶段微调框架,并提供了抽象、观察和实践经验的数据流生成与知识注入算法。(3) 构建了一个中文多模态数学题目数据集(CMM12K),涵盖4种题型,共计12,000个样本。这一工作可缓解中文多模态数学题目语料的匮乏现状,并为后续研究提供评测基准。(4) 多个数据集上的大量实验验证了所提框架和模型的先进性与有效性。在GSM8K、TAL-SCQ5K、CMM12K三个数据集上,执行COMET与9个基线(3个闭源模型和6个开源模型)的性能对比。如下图所示,在三类任务的共计15个评分维度上,COMET在多个维度上达到了和GPT-4o相当的性能。在开源模型中,COMET在15个评估维度中的12个维度上达到了SOTA。值得注意的是,COMET在大多数维度上保持了绝对领先,且参数规模相对较小(7B)。