提升大模型推理能力的路径探索

文摘科技 2024-10-22 11:01 广东

作者：孙晨曦

（图片来自网络）

研究背景

近年来，大语言模型在众多任务中的卓越表现引起了广泛的关注。然而，尽管大模型在一系列自然语言任务中取得了显著的成功，他们的推理能力仍有限，且无法仅通过增加模型规模来克服。为此如何提升大模型的推理能力，已成为学术界和工业界广泛关注的课题。

大模型推理的一些关键思想

中间步骤(intermediate steps)

Ling 等人 2017 年在 DeepMind 开创性地使用自然语言原理解决数学问题，即“通过一系列小步骤得出最终答案”。从头开始训练序列到序列模型。继 Ling 等人 2017 年的工作之后，Cobbe 等人 2021 年在 OpenAI 构建了一个更大的数学应用题数据集 (GSM8K)，其中包含自然语言原理，并用它来微调 GPT3。在2022年Wei等人探索了如何通过生成思路链（一系列中间推理步骤）显著提高大型语言模型执行复杂推理的能力。具体来说，他们展示了这种推理能力是如何通过一种称为思路链提示的简单方法在足够大的语言模型中自然产生的，其中提供了一些思路链演示作为提示的示例。对三个大型语言模型的实验表明，思路链提示可以提高一系列算术、常识和符号推理任务的性能，实验结果如图2所示。这一系列工作表明，无论是训练、微调还是提示，当提供包含中间步骤的示例时，LLM 将生成同样包含中间步骤的响应。

图1：思维链提示实验效果对比

自洽性（self-consistency）

与贪婪解码只返回单一结果不同，这种基于自洽性思想设计的解码方法能够生成多个解码结果（即不同的推理路径），再通过投票从这些结果中选取最自洽（答案一致）的作为最终回答。如图2所示，Wang等人提出的方案主要包含3个步骤：1）使用链式思维（CoT）提示来提示大语言模型；（2）用从大语言模型的解码器中采样替代链式思维提示中的‘贪婪解码’，以生成多样化的推理路径；（3）选择最终答案集中最一致的（出现最多的）作为最终输出。

图2：自洽性解码策略

广泛实证评估表明，自洽性大幅提升了链式思维提示在多个常用的算术和常识推理基准上的表现，包括GSM8K（+17.9%）、SVAMP（+11.0%）、AQuA（+12.2%）、StrategyQA（+6.4%）以及ARC-challenge（+3.9%）如图3所示，该方法在PaLM/PaLM2上可以显著提高的模型回答准确率。

图3：不同方法在GSM8K上的评测结果对比。

总结

生成中间步骤能够显著提升大型语言模型（LLM）的性能，具体可以通过在训练、微调或提示中引入中间步骤来实现。此外，零样本学习、类比推理以及特殊解码方式也能进一步增强模型的推理能力。研究还表明，模型的自洽性在逐步推理中起到了关键作用，能够有效提高推理的准确性。然而，大模型推理能力仍存在一些局限性，包括引入无关上下文会干扰模型性能、模型的自我纠错能力有限，以及前提顺序对推理结果的影响等。

参考文献

[1] Ling, W., Yogatama, D., Dyer, C., & Blunsom, P. (2017). Program induction by rationale generation: Learning to solve and explain algebraic word problems. arXiv preprint arXiv:1705.04146.

[2] Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., ... & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.

[3] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022

[4] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.

[5] Xuezhi Wang and Denny Zhou. Chain-of-Thought Reasoning Without Prompting. arXiv preprint arXiv:2402.10200 (2024).

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489499&idx=1&sn=329339bacae2efb66c7d5a0171f971a0

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

大语言模型重塑群体智能

一种基于LLM辅助的合成电网生成框架

FL-Market：联邦学习中的私人模型交易市场

提升大模型推理能力的路径探索

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉