人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

科技 2024-12-21 04:39 辽宁

机器之心报道

编辑：Panda

人能逆向思维，LLM 也可以吗？北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明，LLM 确实可以，并且逆向思维还能帮助提升 LLM 的正向推理能力！

论文一作 Justin Chih-Yao Chen 的推文

简单来说，正向思维就是从问题开始，一步步地得出答案；而逆向思维则是先从一个预测答案开始，逆推到原始问题。

组合使用正向和逆向思维可让我们验证解答的正确性并找到可能的错误。

举个简单例子，如果小明有 2 个苹果，小红有 3 个苹果，那么他们一共有多少个苹果？

使用正向推理，我们可以得出 2 + 3 = 5。再使用逆向推理，我们可以从共有 5 个苹果的结论开始，然后根据小明有 2 个来逆向得知小红有 3 个。这些数值与原始问题相符，故此可以验证 5 这个答案的正确性。如果正向推理出错了，比如答案是 6 个，那么逆向推理时就会得到与原始问题不一样的数值：小红有 4 个苹果。这种矛盾可让我们重新检视自己的推理过程哪里有误。

大型语言模型（LLM）的数学能力也能通过正向 - 逆向推理得到提升，原因有二：

数学本身是高度结构化的，因此正向和逆向推理之间存在明确的逆反关系；
只需替换名称或数值等变量，就可以创建出新的数学问题。

那么问题来了：逆向思维能否应用于更广泛、结构性较差的领域？

此外，这些方法通常是测试时使用，目的是验证：给定一个解，让 LLM 逆向思考并查看正向推理是否正确。虽然它们比其它测试时方法（例如自我一致性）的表现稍微好一点，但还是存在未解的疑问：我们能否训练一个本身就能逆向思维的模型，从而提升其正向推理效果，而不是在测试时使用逆向推理进行验证？

近日，北卡罗来纳大学教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一个联合团队为上面两个问题提供了解答。他们发布的论文表明，逆向思维可以显著 LLM 的推理能力，并且不限于数学任务。他们还提出了一个名叫 RevThink 的框架，可将逆向思维「灌输」给语言模型。

论文标题：Reverse Thinking Makes LLMs Stronger Reasoners
论文地址：https://arxiv.org/pdf/2411.19865

论文发布后，吸引来不少称赞之声。

方法

RevThink 主要包含两个阶段：数据增强和全新的学习目标。

数据增强

首先，对于推理数据集，该团队使用了一个更大、能力更强的教师模型来对其进行增强。

我们知道，一般来说，推理基准数据由一个问题和一个答案构成。那么该如何增强它呢？该团队的方法是通过对教师模式使用少样本提示来（few-shot prompting）生成三种新数据：正向推理、逆向问题、逆向推理。其中正向和逆向推理都会使用思维链。

只有当数据点的正向推理准确（与 ground truth 相符）且逆向推理与原始问题一致（通过提示教师模型进行验证）时，该数据点才会被保留下来。

学习目标

完成数据集增强之后，该团队还提出了三个用于训练更小的学生模型的关键目标。

具体来说，学生模型需要学会：

基于问题生成正确的正向推理；
基于原始问题生成逆向问题；
基于逆向问题生成逆向推理。

之所以要设置这三个目标，该团队说明了三点原因：

基于问题生成正确的正向推理是知识蒸馏的标准方法；
生成逆向问题会促使学生模型「思考」如何逆向一个问题并确定要问的正确问题；
最后，解决这个逆向问题可以增强学生模型逆向推理的能力。

在测试时，首先会使用问题来询问该学生模型，而它只会生成前向推理 —— 类似于标准的零样本推理。

本质上讲，这个流程是在训练过程中内化了逆向推理的能力，同时还能保证测试时间计算与零样本方法一样高效。

如图 1 传统的监督式微调侧重于从问题到答案的单向推理。相比之下，RevThink 基于新提出的数据增强方法和目标，通过学习两个方向的推理而引入了双向思维。这能为模型带来更大的提升。

实验和评估

该团队通过实验验证了 RevThink 的有效性。具体来说，他们使用的教师模型是 Gemini-1.5-Pro-001，学生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。训练中，他们使用了 LoRA 微调，秩设为 32。所有比较方法都使用了 vllm 和贪婪解码。

他们也选择了多种任务进行评估，包括常识推理（StrategyQA、CommonsenseQA、ARCchallenge），数学推理（MATH、GSM8K），表格数据推理（TabMWP）、自然语言推理（ANLI），逻辑推理（Date Understanding）。

参与比较的方法大致可分为三类：零样本方法、知识蒸馏（包含符号知识蒸馏和逐步蒸馏）和数据增强（包含问题重新表述、问题增强、答案增强）。更多实验设置请参阅原论文。

主要结果

表 1 给出了主要结果。

首先，RevThink 的平均性能表现很好，在不同数据集和模型上都优于基线。与学生模型的零样本性能相比，RevThink 使用 Mistral 时实现了 12.68% 的平均提升，使用 Gemma 时实现了 14.37% 的平均提升。

此外，相比于符号知识蒸馏（SKD）和逐步蒸馏（Distill Step-by-Step）—— 依赖于使用来自教师模型的正确推理链来执行监督式微调，RevThink 有 6.44% 至 7.15% 的显著提升。

与基于数据增强的基线方法相比，RevThink 带来的增益也更为显著，特别是在常识推理、表格推理和日期理解方面。虽然其中一些增强方法（例如答案增强 (AnsAug)）对于数学推理很有效，但它们为其它领域带来的改进较少。这表明数学是一个更结构化的领域，会随着数据的增加而更好地扩展。

相比之下，RevThink 在各种推理任务上都能带来稳定的提升。并且表 3 表明，在留存数据集上进行评估时，RevThink 在领域外数学数据集上也能带来更大的增益，表现出了更好的泛化能力。

下面还列出了 RevThink 的更多优势，相关详情请访问原论文：

RevThink 表现出了很好的样本效率。
逆向问题生成可提高性能，但充分利用新的数据集可获得最佳性能。
RevThink 的目标比使用指令调整的单独实例更有效。
只需稍多一点 token，RevThink 就能获得更大提升。
RevThink 与模型大小呈正相关。
RevThink 可泛化至 OOD 数据集。
RevThink 可作为现有方法的补充。
RevThink 在可逆问题和中等难度问题上表现出了更大的提升。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉