数学再涨5分，两个AI相互纠错

教育 2024-12-14 19:10 天津

提升LLM数学能力的新方法来了——

一个大模型不行，那就两个。让他们彼此合作，纠正对方的错误。

这就是来自加州大学和微软研究院的最新研究成果：Flow-DPO。通过使用在线学习流（Flow）和直接偏好优化（DPO, Direct Preference Optimization），可以让LLM生成更加详细和精确的推理轨迹。

同时，这种在线多智能体（Agent）的学习形式还能挖掘数据中的深层信息，有效避免了人类标注数据不够准确的问题。

我们先一起看个例子感受一下。

比如针对下面这道题：

方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问ax + 2y + 3 = 0中，a 的值是多少？

基准回答是这样的：

方程 x + 2y + 3 = 0 的图形的斜率为 -1/2，因为图形垂直，所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此，方程 ax + 2y + 3 = 0 的斜率为2，改写为2y = -ax - 3，然后两边除以 2，得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比，我们发现斜率 m 为 -a/2。由于我们知道斜率为 2，所以 - a/2= 2。将两边乘以 -2，得到 a = -4，答案为：-4。

而Flow-DPO的回答是这样的：

要解决这个问题，我们需要了解线性方程中垂直线的概念。当两条直线垂直时，它们的斜率互为负倒数。让我们以斜率-截距形式复述给定方程 x + 2y + 3 = O，即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在，我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率-截距形式，即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是-a/2。由于两条直线垂直，因此它们的斜率互为负倒数。这意味着 -1/2 * (-a/2) = -1，简化为 a = -4。因此，a 的值为 -4。

让GTP-4o当裁判，针对两个模型的回答分析了一下，它认为答案B（FLow-DPO）更好，原因有两点：

1.概念解释

答案 A 的回答是：“我们可以利用斜率之间的负倒数关系来求解 a”。答案 B 花时间明确解释了垂直的概念，强调垂直线的斜率是负倒数。这种回答更有教育意义，可以让读者理解数学背后的推理。

2.解题思路清晰

答案A推导出了正确的方程并正确地求解了方程，但引入了一些不必要的步骤。

例如，中间步骤涉及将方程改写为2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。

答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率，并直接比较了两个等式的斜率，过程更直接，更容易理解。

结论

答案 B 的解释更清晰、更透彻，既注重概念和公式，又避免了不必要的复杂性，这种循序渐进的方法更易于理解和掌握。

可以看到，在解决真实数学问题的时候，Flow-DPO生成的推理过程不仅有更详细的指导，还避免了不必要的复杂性，增强了可读性和理解性。

这是怎么做到的呢？

两个大模型彼此合作

针对LLM解决数学问题时反馈信息有限、标注数据质量不高等问题，团队提出了一种新的方法。

那就是通过在线学习流（Flow）和直接偏好优化（DPO）学习来生成高质量的推理轨迹。

具体分为2个部分：

1.增量输出生成Flow（Incremental Output Production Flow）

Flow-DPO采用了增量输出生成Flow，其中有两个独立的LLM（Answer LLM和Stop LLM）协同工作，通过迭代通信构建解决方案。

具体来说，Answer LLM一次会生成一个有限的答案块，而Stop LLM则判断部分答案是否达到最终状态，两个LLM通过迭代式学习不断进步。

Answer LLM和Stop LLM的底层都是相同的基础模型，但它们使用不同的LoRA适配器进行了微调，可以专门完成各自的任务。

而且在训练过程中，Flow-DPO可实现更精细的控制较小的块大小，灵活适应不同的概念和方法，较大的块大小近似于单次模型生成。

2.在线Flow学习与回滚（Online Flow Learning with Rollouts）

Flow-DPO还会通过在线DPO学习和回滚来增强Flow。

对于每个输入问题，Answer LLM会生成一个答案片段，一直持续到产生完整的回答。

然后模型会在每个输出节点进行随机展开，比如在生成初始答案片段且Stop LLM判断为“否”后，Flow还会生成另一个答案片段，基于之前的部分答案继续构建。

如果两个答案在正确性上不同，就把它们作为答案语言模型的DPO对，引导到正确答案的那个片段被选为首选响应。

显著提高LLM数学推理能力显著提高

为了验证Flow-DPO的性能，研究团队还设计了精密的验证实验，具体设置如下

数据集：实验使用了MetaMath数据集，该数据集基于于GSM8K和MATH数据集，并通过数据增强技术进行了增强。
模型选择：实验采用了两种不同规模的模型：Llama-3-8B-Instruct和Phi-3-medium-128k-instruct (14B)
Flow学习阶段：在Flow学习阶段，团队使用不同的LoRA适配器对Answer LLM和Stop LLM进行微调，让它们在DPO训练中的能力更加专业。
编译阶段：在编译阶段，收集Flow生成的正确推理轨迹和基线模型生成的正确推理轨迹，进行独立评估。

最终结果显示，使用了Flow-DPO之后，Llama3模型和Phi3在数学推理上的能力都大幅提升了！

一起来看看具体结果分析：

1.渐进验证准确率（Progressive Validation Accuracy）

渐进验证准确率的准确定义，是模型在训练前对输入训练数据的累积准确度，公式和变量含义如下图所示：

实验结果显示，在线DPO训练显著提高了Flow的泛化能力。

对于Llama-3-8B-Instruc模型，在线DPO学习在仅2000个训练实例内将Flow的性能提高了20%。对于Phi-3-medium-128k-instruct模型，在线DPO学习使其准确率提高了4个百分点，达到了83%.

2.推理轨迹质量

Flow生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。

对于Llama-3-8B-Instruct模型，Flow生成的推理轨迹在GSM8K和MATH数据集上的微调准确率分别提高了6%和7.8%。

对于Phi-3-medium-128k-instruct模型，Flow生成的推理轨迹在两个数据集上的微调准确率分别提高了1.9%和2.1%.

除了刚开始的垂直直线问题，研究团队还放出了很多真实的解题回答和对比，感兴趣的朋友可以查看论文的更多相关信息。

没想到，不久前还让LLM非常头疼的数学问题现在也进步飞快！

有了优秀的逻辑分析能力，我们也能期待LLM未来能解决更多复杂的问题了。

奇月发自凹非寺转载自量子位 | 公众号 QbitAI

参考链接：[1]https://arxiv.org/abs/2410.22304

各有关单位：

由国家国防科技工业局指导、中国和平利用军工技术协会主办、《中国军转民》杂志社承办的“铸剑杯”国防素养大赛自 2020年起已成功举办了3届，共吸引了上千所院校的9万余名选手参赛。

在第四届“铸剑杯”国防素养大赛国防科技单元中设立算法与逻辑思维专项赛。此专赛项与其它国防科技类赛项为同一级别赛事，为加速我国数理行业人才发展，现“铸剑杯”数学赛道报名者可通过赛氪竞赛官网进行注册并报名，欢迎各院校参赛者自愿报名参加。

MATH

报名方式

-扫描下方二维码进行报名-

或点击下方链接进行报名：

https://new.saikr.com/vse/GFMATH?ces=public

MATH

主办单位

主办单位：中国和平利用军工技术协会

指导单位：国家国防科技工业局

承办单位：《中国军转民》杂志社

MATH

官方文件

<左右滑动查看更多>

MATH

竞赛规则

1、试卷满分及考试时间

试卷满分为100分，考试时间为180分钟.

2、答题方式

答题方式为闭卷、笔试.

3、试卷内容结构

高等数学60% 线性代数（矩阵理论）20%

数学分析60% 高等代数（矩阵理论）20%

1）竞赛为个人赛，分为研究生组、本科生组、专科生组，报名时请根据个人实际情况选择组别参赛。（考题分为数学类和非数学类，报名时无须选择类别，考试时可直接选择想要参加类别的考场）

2）竞赛全程线上进行，需要提交电子版作品（手写图片拍照上传即可）。

3）赛题将于竞赛开始时在竞赛考场内部公布，分为数学类和非数学类两个组别，不邮寄书面题目。

MATH

大赛奖项

本次竞赛分组别、分考场进行评奖，设立一、二、三等奖及优秀奖，获奖比例（根据实际参赛人数计算）：

一等奖：5%；二等奖：15%；三等奖：30%；优秀奖：若干。

MATH

时间安排

报名时间：即日起至2024年12月27日

数学类竞赛时间：2024年12月28日9:00至12:00

非数学类竞赛时间：2024年12月29日9:00至12:00

MATH

联系方式

QQ ：1451942322（陈老师）

微信：19822023476（陈老师）

点击下方“阅读原文”进入竞赛官网

BONUS TIME

文末福利

↓↓

数学建模资料、视频讲解、历年赛题

后台回复【校苑】领取

推荐阅读（点击下方图片即可跳转）

校苑数模

Hi，这里是校苑数模，专注于数学及应用数学教育。旗下培训、竞赛、社区、人才对接形成了数学教育的闭环。依托中国优选法统筹法与经济数学研究会等优势资源，在领域内深耕10年。

最新文章

注意！这场25年数模比赛时间有变！

同类数竞赛题最后冲刺！国家一级盖章证书！综测可用！

保姆级教程丨2025年美赛MCM/ICM报名图文版流程！

美赛O奖大佬都是怎么处理数据类问题的？

倒计时10天！国家一级协会盖章！2024年最后一项全国性数学竞赛！

国家一级协会主办 | 组委会官方出品，最新竞赛解读，你绝对不能错过！

极易被美赛小白忽略的关键步骤——数据清洗！

【即将截止】微积分解题注意事项！期末/考研大佬经验帖！

组委会官方出品 | 竞赛中最重要的那些问题这都有！

美赛O奖大佬告诉你，比Python更好用的数据处理软件是什么？

邀请函丨2025年第三届“华数杯”国际大学生数学建模竞赛

完成任务即可领取福利|高校大数据挑战赛志愿者报名中

数学再涨5分，两个AI相互纠错

美赛比赛中MCM比ICM更好得奖？

历年赛题汇总丨2025年第三届“华数杯”国际大学生数学建模竞赛

【新增赛区+2】2024全国大学生数模国赛获奖名单发布！！

官方发布丨华数杯国际赛优秀论文发布！助你冲击更高奖项！

【一级学会-盖章竞赛】自选赛题！终于有数学竞赛可以参加了！

【山西赛区】2024全国大学生数模国赛获奖名单发布！

【湖南赛区】第十六届全国大学生数学竞赛初赛竞赛成绩

【江苏赛区】第十六届全国大学生数学竞赛初赛竞赛成绩

【广东赛区】第十六届全国大学生数学竞赛初赛竞赛成绩

【云南赛区】第十六届全国大学生数学竞赛初赛竞赛成绩

一题未对？o1 pro 人工智能挑战美国本科生最难数学竞赛失败！

国奖与美赛奖项大揭秘！

集体报名通知丨2025年第三届“华数杯”国际大学生数学建模竞赛

公开课回顾丨国家一级学会主办丨报名即可领取竞赛福利！

【重要通知】第十六届全国大学生数学竞赛初赛获奖名单

集赞即可获得证书的志愿者活动来了！完成部分任务还有现金奖励！

【倒计时9天】50道单选题参赛可获奖！理科竞赛即将开赛！

【福建赛区】2024年全国大学生数学竞赛决赛名单！！

美赛比赛中MCM比ICM更好得奖？

自选赛题！终于有合适的数学竞赛可以参加了！

邀请函丨2025年第三届“华数杯”国际大学生数学建模竞赛

不同题型及处理办法汇总！学霸笔记助你期末一臂之力！

保姆级教程丨2025年美赛MCM/ICM报名图文版流程！

协办单位招募丨2025年第三届“华数杯”国际大学生数学建模竞赛火热报名中！

【传智杯同款竞赛】大数据云计算最新竞赛通知！速看

数学博士跨界花活 |《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！

完成任务即可领取福利|高校大数据挑战赛志愿者报名中

历年赛题汇总丨2025年第三届“华数杯”国际大学生数学建模竞赛

美赛之谜：为何数学高手都爱这场“烧脑派对”？

百种本专科专业参与！自然科学知识竞赛不限专业！仍在报名！

【协办单位招募】第四届“铸剑杯”国防素养大赛 ”数学赛道协办单位招募中！

【新增赛区】2024全国大学生数模国赛获奖名单发布！！

赛题发布 | 2024年第五届MathorCup数学应用挑战赛—大数据竞赛复赛赛题正式发布！

官方发布丨华数杯国际赛优秀论文发布！助你冲击更高奖项！

赛题展示！题库练习！理科综合竞赛火热报名中！

【北京赛区】2024全国大学生数模国赛获奖名单发布！！

【新增赛区】2024全国大学生竞赛获奖名单！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉