o1背后的秘密：6种推理模式解析！

科技 2024-10-31 00:01 北京

OpenAI的o1模型展示了在测试时计算方法（Test-time Compute methods）可以显著提升LLMs的推理能力，但其背后的机制尚未被充分探索。

通过与现有的测试时计算方法（BoN、Step-wise BoN、Agent Workflow和Self-Refine）进行比较，研究了o1模型在三个领域（数学、代码和常识推理）的一般推理基准上的表现：

OpenAI的o1模型、GPT4o以及一些测试时计算方法在选定的四个基准测试（即HotpotQA、Collie、USACO、AIME）上的结果。表中的‘-’表示该方法不搜索多个响应以生成答案。“直接”指的是让大型语言模型（LLMs）直接从输入文本生成响应，而“测试时”指的是基于GPT-4o使用测试时计算方法。

Best-of-N (BoN)：让LLMs为给定的输入生成多个N个输出，然后选择最合适的响应作为输出。
Step-wise BoN：使LLMs分析问题并将其分解为几个子问题。对于每一步，模型基于之前的子问题和答案生成N个响应，然后使用奖励模型来选择最佳响应。这个过程迭代进行，直到获得原始问题的最终答案。
Self-Refine：通过迭代反馈和细化来改进LLMs的初始输出。
Agent Workflow：LLM代理将复杂任务分解为更小的子任务，通过结构化的工作流程规划它们的执行，并使用各种工具来实现目标。对于常识推理数据集，研究者利用现有的最先进的代理框架进行评估。对于代码和数学数据集，选择了GPTs中的顶级代理，分别是代码 copilot和数学求解器。

实验结果：

o1模型在大多数数据集上表现最佳，特别是在编程和数学任务上。
自我完善方法的性能提升不显著。
BoN在HotpotQA上表现相对较好，但在Collie上性能下降。
Step-wise BoN在复杂任务上受限。
Agent Workflow在所有基准测试中表现显著提升，但仍与o1模型有差距。

尽管o1模型总体上比其他模型表现得更好，但在某些特定任务中，一些测试时计算方法仍然能够取得与o1相近的结果。为此，分析了o1在不同任务中的推理模式，并总结了6种跨不同基准测试的推理模式，其中，DC和SR是最常用的推理模式，可能是o1成功的关键。

不同基准测试上不同推理模式的统计数据

系统分析（SA）。从问题的整体结构开始，o1首先分析输入和输出以及约束条件，然后决定算法的选择和数据结构的使用。
方法重用（MR）。对于一些可以转化为经典问题的问题（例如最短路径或背包问题），o1可以快速重用现有方法来解决它们。
分而治之（DC）。它将复杂问题分解为子问题，并通过解决子问题来构建整体解决方案。
自我完善（SR）。o1在推理过程中评估其推理过程，以确定是否存在任何问题并纠正任何错误。
上下文识别（CI）。对于一些需要额外信息输入的数据集（例如HotpotQA），o1首先总结与查询相关的上下文的不同方面，然后给出相应查询的响应。
强调约束（EC）。对于一些对生成文本有约束的数据集（例如Collie），o1通常在推理过程中强调相应的约束。

在COLLIE任务中，模型需要生成一个段落，这段落不仅要遵守特定的文本生成约束，还要确保内容的准确性和相关性。o1模型通过多次强调指令，强化了对这些约束的遵循，这对于需要严格控制生成内容的任务至关重要。

o1模型在美国计算机奥林匹克（USACO）竞赛中的表现，该竞赛专注于算法和问题解决技能。o1模型通过建立基础框架开始，定义关键变量和数据结构，然后应用算法逻辑进行状态转换，逐步产生最优解。此外，o1模型不仅考虑了所有可能的路径和场景，还使用了循环、递归等方法来严格验证每一步，这有助于o1全面覆盖问题的多个方面，并有效生成正确的解决方案。

https://arxiv.org/pdf/2410.13639A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODELhttps://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247549564&idx=5&sn=0aea350ef30bb4dbca589a3d9bcbb842

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

上交2024最新-《动手学大模型》实战教程及ppt分享！

知名开源项目阿里官宣停更，太痛了

教授何恺明在MIT的第二门课——《深度生成模型》，讲座PPT陆续已出

微软开源5级Agent框架，复杂任务就这么被解决了~

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

50k入职字节，研究生期间买车买房。。。。

研究生期间靠自己买车买房的都是些什么人？

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

访谈Sam Altman：他再次阐述对一个人AI公司的定义以及GPT系列规划

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

福建女子因男友不会唱国歌怀疑其为间谍，当即举报至相关部门…

[送5本] 知名UP主梗直哥的《破解深度学习》来了！

开源大模型推理引擎现状及常见推理优化方法总结

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

独自一人，怒发数篇SCI！！

从今天起，ChatGPT入口就是chat.com！

ACL 2024中RAG论文整理和简析

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

RAG三件套运行的新选择 - GPUStack

70k，确实可以封神了...

50K*16薪，进字节了！

15种典型RAG框架：卡内基梅隆大学最新RAG综述

你要的增量更新来了：微软GraphRAG 0.4.0

手搓AI大模型应用获25万用户，果断辞职创业，结果收入不如摆摊

北大韦东奕上课照片走红，板书潇洒，新发型吸睛，网友：这要打脸多少“只会翻PPT”的老师？

美国高中女生因数学竞赛，发现勾股定理新证明！论文已发《美国数学月刊》

对话Sam Altman：OpenAI新战略下，与主流路线不同的AI创业机会（附完整视频）

Github 20万star&10万收藏-《上海交通大学生存手册》新版升级pdf分享！

一篇大模型个性化技术最新综述

只要敢捞偏门，篇篇都是顶会顶刊！

15岁山东初中生做CTO，开源项目刚刚被数百万元收购了

一个快速、低成本、高效的Fast GraphRAG

张俊林：AI 能不能做出真正意义的创新？

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生......

时代变了！英伟达纳入道琼斯指数，英特尔被取代

端侧小模型新星，SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

沈向洋在青年科学家50²论坛的演讲全文：关于大模型的10个思考

北大博士任教深大，考核未过被扣工资8万多！穷到交不起网费向校方求助

[送5本] 《一本书读懂AI Agent：技术、应用与商业》4种革新性AI Agent工作流设计模式全解析

KAG开源了，知识增强掀翻RAG，性能翻倍

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

理所当然也能错，数学界震动：「上下铺猜想」被证伪

顶级“双一流”名校，换帅！

[送5本] 星标19.8k的Apache顶级项目《Apache ShardingSphere 权威指南》

LLaMA系列一直在假装开源...

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉