DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

科技 2024-12-29 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 夕小瑶科技说

作者 | 努力变大腿的zz

1822 年，电学之父法拉第在日记中写到“既然通电能够产生磁力，为什么不能用磁铁产生电流呢？我一定要反过来试试！”。于是在 1831 年，第一台发电机被发明，推动了人类进入电气化时代。

与之相似，作为全球亿万富翁之一的查理芒格将逆向思维作为他投资的重要思维模型之一，他有一句很著名的话：如果我知道自己会在哪里死去，我就永远不去那里。

这些都说明了逆向思维的重要性，而作为当前实现通用人工智能最具希望的道路，大语言模型（Large Language Models，LLMs）是否具备逆向思维？

近日，Google 的 DeepMind 在_"Reverse Thinking Makes LLMs Stronger Reasoners"_文章中给出了明确的答复：

逆向思维训练 LLM 可大幅度提升模型推理能力！！！

作为人工智能研究领域的领头羊，DeepMind 的研究成果一直是人工智能领域的风向标，例如 2014 年的 AlphaGo，2017 年的 Alpha Zero 向世人展示了强化学习的强大能力；2016 年的 AlphaFold 开启了利用人工智能研究蛋白质折叠，并于 2024 年助力其研究者 Demis Hassabis 斩获诺贝尔化学奖，这也是首次由人工智能研究者获得该奖项。

DeepMind 这篇关于逆向思维训练 LLM 的工作也为未来的 LLM 研究提供了全新的思路。

以下是文章传送门：

论文题目：
Reverse Thinking Makes LLMs Stronger Reasoners
论文链接：
https://arxiv.org/abs/2411.19865

简而言之，这篇文章从数据合成，知识蒸馏的角度展开研究，通过构建能够揭示逆向思维过程的数据集，然后利用知识蒸馏框架，借助教师模型指导学生模型的训练过程，从而实现利用逆向思维提升 LLM 的推理能力。

什么是逆向思维

逆向思维：从确定的目标状态出发，通过分析因果链条，找到实现目标的路径。这种方法在问题较为复杂，正向思维容易迷失方向时特别有效。

以上是 ChatGPT 给出的逆向思维的基本解释。从直观上理解，逆向思维就是从答案反推问题。例如：“Emma 有 2 个苹果，Jack 有 3 个苹果，一共有几个苹果？”。

正向思维就是“2+3=5”，得出一共有 5 个苹果。

而逆向思维可以理解为：“已知一共有 5 个苹果，现在 Emma 有 2 个苹果，请问 Jack 有几个？”。

这么做有什么好处呢？一方面使用逆向思维能够更加明确推理路径，另一方面能够验证正向推理得到的答案是否正确。而这种思想其实已经在很多场景下有所应用。例如在机器翻译中，源语言和目标语言之间是存在互译的双向关系的，使用这种双向关系能够有效提升翻译的质量。

既然逆向思维非常有效，那为什么在大模型推理中并没有广泛应用呢？

作者认为主要的问题还是数据。

大多数的推理数据只有正向的推理过程，并没有逆向推理结果；
已有的一些逆向推理工作大多是集中在高度结构化的数据中，例如数学问题。这种问题可以通过简单的替换变量，替换条件实现逆向推理数据的构建。

那如何在更广泛，结构化更低的领域中利用逆向思维提升推理效果呢？

DeepMind 给了一个非常好的示例：

逆向思维如何实现

如上图所示：本文的主要流程可以分为如下步骤：

数据合成过程

针对原始的 QA 问题，借助 LLM 构建从 Q->R 的正向推理过程，同时仅保留得到正确答案的推理过程
构建详细的指令（针对每个任务），结合问题和答案，构建逆向问题Q_b
使用相同的 LLM，针对逆向问答Q_b，生成对应的逆向回答R_b
使用检验函数进行正向推理和逆向推理的一致性检查，仅保留一致的结果数据

模型训练过程（优化目标构建）

正向推理优化：利用正向问答 Q->R 优化模型，即模型要根据问题进行正确的推理回答
逆向问题生成：利用正向问题和逆向问题 Q->Q_b优化模型，即模型应该具备逆向思维的能力，学习正向问题和逆向问题之间的联系和区别
逆向推理优化：利用逆向问答Q_b->R_b优化模型，同样实用化模型需要根据问题进行正确的推理回答

本文使用了多任务学习的方法对以上三个优化目标进行同时优化，可以使用以下的优化目标函数进行形式化表示：

其中l(·;·)表示的交叉熵损失函数。

逆向思维效果如何

针对逆向思维提升 LLM 的推理能力，本文选择了多个推理任务（常识推理，数学推理，表格数据推理，自然语言推理，和逻辑推理），并且使用了两个不同的基础大模型（Mistral-7B，Gemma-7B）进行效果验证。

从下图中可以看出，本文提出的方法，分别在不同的基础大模型，不同的推理任务上均取得了非常好的效果。

除此之外，本文还分析了何种逆向推理数据会更有效。具体如下图所示，可以得到如下结论：

同时使用正向问答 Q->R 和正逆向问题 Q->Q_b也能够有效提升模型的性能。
单独使用逆向问答Q_b -> R_b会降低模型性能，主要原因可能是该类型数据会出现数据分布漂移情况。

最后，介绍本文中一个比较有意思的验证实验，作者探究了本文所提出的方法在处理不同问题类型和问题难度时的表现，最后发现，模型对一些可逆的问题和中等难度的问题有较好的表现，例如，代数问题，计数问题等。

对数值理论分析问题上逆向思维并没有太大的效果。作者认为主要原因是这些问题没有办法进行逆向思维。与此同时，本文的方法对中等难度的问题有最大的提升，这点很有意思，值得深入研究。

提示词展示（大力飞砖技巧）

正如前文提到的，本文通过设计精巧的提示词，直接使用 LLM 生成逆向推理的数据，本文也在附录中展示了相关的提示词，可以作为一种数据生成方法的有效参考。当然，经过仔细阅读这些提示词，个人感觉这里仍需要一些人工筛选，我们无法保证 LLM 一定能够根据设定的提示词进行准确的逆向推理的生成。

这点个人本来是有比较大的期待的，没想到最后的解决方案是一种大力飞砖的方法，用最好的大模型直接合成，然后在此基础上进行筛选，从而构建高质量的逆向思维训练数据。果然目前阶段人工智能还是得有人工才有智能。

当然，也不得不说在目前模型结构，训练方法都没有太大突破的阶段，数据资源反而成为重要的突破方向，而 LLM 强大的生成能力反过来使得构建高质量数据变得高效低成本，那么如何借助 LLM 强大的生成能力，合成能够帮助解决实际问题的数据，通过模型训练和对齐，实现具体问题的解决就成为当前的简洁高效的框架。

从这个角度讲，新的 idea 不就在路上了么！

“检验一流智力的标准，就是看你能不能在头脑中同时存在两种相反的想法，还维持正常行事的能力”。
——《了不起的盖茨比》

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

OpenAI研究员、思维树作者姚顺雨专访：人生是一场无限流游戏丨独家

游凯超：我与vLLM的2024，很Passion！

多模态可解释人工智能综述：过去、现在与未来

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

OpenAI-o3 与 Monte-Carlo 思想

DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

五道送命题，彻底暴露了国内外AI们的情商...

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

Nature发布，AI 全球100强！

Qwen2.5技术报告解读

多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

香港大学、新加坡国立大学、启元实验室、清华大学等知名学者重磅来袭！

Agent操纵手机/电脑屏幕的全面综述

LLM 又过了一年！！！

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

o1复现的一点点心得

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》

ICLR 2025 多语言大模型相关论文速览

大模型时代的具身智能

颜宁：明年我只参加已经接受了邀请的学术会议，不接受国内任何个人或者单位的邀请做学术报告

对OpenAI o3模型的看法、思考与反思

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

雷军大学时候的论文，不需要参考文献

OpenAI o1如何炼成？原理逆向工程图解

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉