OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

科技 2024-11-07 19:12 北京

新智元报道

编辑：alan

【新智元导读】近日，一篇文章在推特上爆火，利用纯提示方法让普通LLM摇身一变，成为具备复杂推理能力的OpenAI o1。

九月份，OpenAI o1正式登场。

作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。

在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。

OpenAI对此曾表示：通往AGI的路上，已经没有任何阻碍。

——但其实还是有的，那就是新东西通常太贵。

o1-preview的每百万输入token为15美元，每百万输出token为60美元，而对位的GPT-4o分别是5美元和15美元。

本来GPT-4o就不便宜，现在想体验更强大的推理能力则需要再付出几倍的成本。

嫌OpenAI o1太贵？那就自己做一个！

近日，一篇利用纯提示方法让普通LLM变身成为OpenAI o1的文章在推特上爆火。

开源代码：https://github.com/harishsg993010/LLM-Research-Scripts

动态思维链（Dynamic Chain of Thoughts）+ 反思（refection）+ 语言强化学习（verbal reinforcement），

让没有经过特殊推理训练的GPT-4o、价格更便宜的Claude 3.5 Sonnet，甚至是开源免费的Llama 3.1 8B，在复杂问题的推理上都获得了相当大的提升！

在严格的学术基准测试中，「开挂」之后的Claude 3.5 Sonnet反超GPT-4o，和o1打平。

——不是o1玩不起，而是开挂更有性价比。

怎样才能把Claude 3.5调教成比博士还要强的o1呢？

在OpenAI o1的官网中有下面这样一个范例，从密文和明文的对应中找关系，然后解码一段新的密文。

老实说，如果没刷过这类题，小编估计一时半会儿也找不着北。

o1作对这道题花费了5秒的思考时间，在官网中点开下拉可以看到它的推理过程，真是混沌又守序。

时而规规矩矩思考，找出不错的方向，又经常马马虎虎，与正确道路失之交臂，兜兜转转，跟人类很像。

——模拟这个思考的过程，也许就是关键。

make LLM smarter

首先，OpenAI o1所代表的reasoning model具有以下能力：

逻辑思考
作出推论
解决复杂问题
根据可用信息做出明智的决策

这些能力对于AI未来的发展至关重要：

Deeper Understanding：真正的推理能力表明LLM可以超越模式匹配，对世界有更深入的理解。

Problem-Solving：可以更有效地解决复杂领域的问题。
Decision-Making：帮助人类进行复杂的决策过程。

Generalization：帮助LLM在out of distribution任务上表现得更好，增强它们的泛化性。

Practical Applications：推理能力可以加速科学发现，加强政策制定，并改善教育和医疗保健领域的个性化服务，比如AI Agent，可以获取时间序列数据的数据集，找到一个更难的模式来识别，以此准确预测未来。

对于o1来说，如果花费更长的训练或者推理时间，其性能还会不断提升。

那么，对于其他LLM来说，是否也能如此？

在阅读了一些论文之后，作者决定创建新的提示范式，结合动态思维链、反思和语言强化，并通过实验来验证提示的效果。

以下是编码和数学问题中所采用的prompt示例：

Begin by enclosing all thoughts within <thinking> tags, exploring multiple angles and approaches.Break down the solution into clear steps within <step> tags. Start with a 20-step budget, requesting more for complex problems if needed.Use <count> tags after each step to show the remaining budget. Stop when reaching 0.Continuously adjust your reasoning based on intermediate results and reflections, adapting your strategy as you progress.Regularly evaluate progress using <reflection> tags. Be critical and honest about your reasoning process.Assign a quality score between 0.0 and 1.0 using <reward> tags after each reflection. Use this to guide your approach:

0.8+: Continue current approach0.5-0.7: Consider minor adjustmentsBelow 0.5: Seriously consider backtracking and trying a different approach

If unsure or if reward score is low, backtrack and try a different approach, explaining your decision within <thinking> tags.For mathematical problems, show all work explicitly using LaTeX for formal notation and provide detailed proofs.Explore multiple solutions individually if possible, comparing approaches in reflections.Use thoughts as a scratchpad, writing out all calculations and reasoning explicitly.Synthesize the final answer within <answer> tags, providing a clear, concise summary.Conclude with a final reflection on the overall solution, discussing effectiveness, challenges, and solutions. Assign a final reward score.

深入细节

动态CoT、反思和语言强化学习的组合框架创建了一个高度自适应和响应迅速的问题解决AI系统。

这个过程从Dynamic CoT生成初始推理路径开始，然后通过Reflection机制对其进行评估和完善。

在每个反思阶段之后，模型会以奖励分数的形式得到强化，从而指导未来的推理步骤。

这种循环过程使模型能够迭代改进输出，适应不断变化的条件，并有效地响应复杂的问题结构。

比如在自主导航等多阶段决策任务的场景中，模型可能首先使用Dynamic CoT探索路径。

当它遇到障碍或环境变化时，反射机制将允许它重新评估策略，而强化分数则为如何调整其行动提供指导。

这样的AI系统不仅能从操作中学习，而且随着时间的推移不断提高其推理能力，尤其在动态的真实应用中。

以上穿插的一组截图展示了LLM的推理过程。

基准测试

只是能够回答一些经典问题，例如「计算单词strawberry中 r 的数量」和「比较0.9 和 0.11哪个更大」，还不足以证明这套提示方法的功效——尽管大部分LLM连这样的问题都搞不定。

作者为此创建了用于基准测试评估的数据集，包含来自JEE（Joint Entrance Examination）Advanced和UPSC prelims的问题。

JEE Advanced被认为是全球最难的本科入学考试之一，面向有志于加入印度理工学院（IIT）的学生。

UPSC公务员考试是世界上竞争最激烈的考试之一，吸引了希望在印度官僚机构担任管理人员的候选人，常识试卷测试不同领域的知识。

这些问题非常严格，测试深入的概念理解、解决问题的能力以及跨多个领域（如物理、数学、化学、社会科学等）的概念应用。

作者使用脚本来进行这项评估：

脚本使用Streamlit创建一个Web应用程序，使用开源模型Groq API和闭源模型（如 gpt4o、o1和Claude）的API生成响应。

脚本包括一个详细的系统提示（以「You are an AI assistant that step by step explain your reasoning and explaining your reasoning ...」开头），用于指导模型的推理过程。

prompt指示AI使用动态思维链（CoT）、反射和语言强化学习技术。
AI将其推理分解为清晰的步骤，每个步骤都有标题、内容、置信度分数和思考时间。

每3个步骤，AI会进行一次自我反思，考虑潜在的偏见和不同的观点。
脚本在允许最终答案之前至少执行15个步骤，以确保对给定查询进行全面分析。

脚本修改自Benjamin Klieger的版本：https://github.com/bklieger-groq/g1

作者修改了其实现的逻辑，用户会向AI系统提供一个问题，AI需要足够的时间以各种方式思考这个问题，最终解决这个问题——模仿人类如何思考。

结果表明，动态CoT、反射和语言强化学习技术的应用显著提高了大多数模型的性能，尤其是Claude Sonnet和Llama 3.1 8b。

满分48分，使用提示方法的Claude Sonnet拿到了最高分（40分），在数学、物理和化学问题上表现出色。Llama 3.1 8b（33分）和GPT-4o（36分）也获得了明显改进。

而不使用提示技术的o1得分为39分，确实具有很强的内在解决问题的能力，——但开挂的Claude取得了胜利。

IMO 2023基准测试

OpenAI表示o1能够在IMO上获得83%的分数。

作为对比，使用本文提示技术的Claude 3.5 Sonnet在首次测试中达到了50%，而如果多次测试就会反超o1。

Putnam数学竞赛

The William Lowell Putnam Mathematical Competition，俗称Putnam竞赛，是一项面向美国和加拿大本科生的极具挑战性的数学竞赛。

比赛由两个3小时的部分组成，每个部分有6个问题。每道题10分，最高120分。

Putnam竞赛被广泛认为是世界上最难的本科数学竞赛之一。

参赛者成绩的中位数通常为0分或1分，这意味着超过一半的人基本上啥也没做出来。

而在85年的竞赛历史中，只出现过五次满分。

作者从2013到2023年的试卷中选取了28道题目：

结果Llama3.1 70B、Claude Sonnet和o1 mini解决了14个问题，o1模型解决了13个问题，GPT-4o解决了9个问题。

可以看出，Claude Sonnet 3.5使用本文的提示技术，能够在需要更好推理能力的问题中胜过o1模型。

应用

LLM就像一个阅读了数百万本书的人，但它不知道如何利用这些数据来解决问题，这就是提示技术的用武之地。

人们可以利用这种推理能力来构建强大的工作流程自动化，以解决IT、网络安全、汽车等各个领域的问题。

组织可以使用较小的开源模型来替代GPT-4o等成本较高的模型，用于需要复杂推理能力来解决的任务。

参考资料：

https://x.com/_philschmid/status/1842846050320544016

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652537065&idx=4&sn=3bb443839e1e037b51e81564f2d8396f

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉