浅谈OpenAI o1的价值意义及RL 的Scaling Law

文摘 2024-09-14 00:00 日本

蹭下热度谈谈OpenAI o1的价值意义及RL 的Scaling law。

知乎：https://www.zhihu.com/question/666991594/answer/3624703380

一.OpenAI o1是大模型的巨大进步

1.1 我觉得OpenAI o1是自GPT 4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比我想的要好，GPT 4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT 4o这种方向要重要得多，原因下面会分析。、

1.2为什么说o1比4o方向重要？这是两种不同的大模型发展思路，说实话在看到GPT 4o发布的时候我是有些失望的，我当时以为OpenAI会优先做o1这种方向，但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题，对于提升大模型的智力水平估计帮助不大；而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题，很明显第二个问题更重要。

GPT 4o的问题在于本身大模型的智力水平还不够高，所以做不了复杂任务，导致很多应用场景无法实用化，而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的，尽管确实能拓展更丰富的多模态应用场景，但这类数据弥补的更多是大模型对外在多模态世界的感知能力，而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型，而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强，则能解锁更多复杂应用，大模型应用的天花板就越高，所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情，没有之一。

如果o1模型能力越做越强，则可以反哺GPT 4o这种多模态大一统模型，可以通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o、再或者用o1蒸馏GPT 4o模型….. 等等，能玩的花样应该有很多，都可以直接提升GPT 4o的复杂任务解决能力，从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线，一条是o1，一条是GPT 4o，它的内在逻辑大概应该是这样的，就是说通过o1增强最重要的基座模型逻辑推理能力，而再把这种能力迁移到GPT 4o这种多模态通用模型上。

1.3 OpenAI o1的做法本质上是COT的自动化。我们知道，通过COT把一个复杂问题拆解成若干简单步骤，这有利于大模型解决复杂逻辑问题，但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发，最终走到给出正确答案，可以想像成类似AlphaGo下棋，形成了巨大的由COT具体步骤构成的树形搜索空间，这里COT的具体步骤的组合空间是巨大的，人写的COT未必最优。如果我们有大量逻辑数据，是由<问题，明确的正确答案>构成，则通过类似AlphaGo的Monte Carlo Tree Search（MCTS）搜索+强化学习，确实是可以训练大模型快速找到通向正确答案的COT路径的。而问题越复杂，则这个树的搜索空间越大，搜索复杂度越高，找到正确答案涉及到的COT步骤越多，则模型生成的COT就越复杂，体现在o1的速度越慢，生成的COT Token数越多。很明显，问题越复杂，o1自己生成的隐藏的COT越长，大模型推理成本越高，但效果最重要，成本其实不是问题，最近一年大模型推理成本降低速度奇快，这个总有办法快速降下去。

1.4 从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题，需要人写非常复杂的Prompt，而o1本质上是COT等复杂Prompt的自动化，所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的，所有复杂人工环节的自动化，这肯定是大势所趋。

1.5 Agent属于概念火但无法实用化的方向，主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤，哪怕单个步骤的正确率高达95%，要想最后把任务做对，10个环节的准确率连乘下来，最终的正确率只有59%，惨不忍睹。那有了o1是不是这个方向就前途坦荡？也是也不是，o1的Model Card专门测试了Agent任务，对于简单和中等难度的Agent任务有明显提升，但是复杂的、环节多的任务准确率还是不太高。就是说，不是说有了o1 Agent就现状光明，但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力，从这个角度讲说Agent未来前途光明问题应该不大。

1.6 OpenAI很多时候起到一个行业指路明灯的作用，往往是第一个证明某个方向是行得通的（比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1），然后其他人开始疯狂往这个方向卷，到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora，如果OpenAI不是出于阻击竞争对手秀一下肌肉，大家都没有意识到原来这个方向是可以走这么远的，但当意识到这一点后，只要你专一地卷一个方向，方向明确且资源聚焦，是可能赶超OpenAI的，目前国内外各种视频生成模型有些甚至可能已经比Sora好了，Sora至今仍然是期货状态，主要OpenAI想做的方向太多，资源分散导致分到具体一个方向的资源不够用，所以越往后发展期货状态的方向越多，也让人觉得尽显疲态。

OpenAI o1等于给大家又指出了一个前景光明的方向，估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好，虽然具体怎么做的都不知道，但是大方向清楚且效果基本得到证明，过半年肯定头部几家都能摸清具体技术追上来，希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大，偏向算法和数据一些，数据量规模估计不会特别巨大，卷起来貌似成本低一些。这是个卷的好方向。

二.预训练Scaling Law的来源及O1提到的RL Scaling law

2.1粗分的话，大语言模型最基础的能力有三种：语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力（包括数学、Coding、推理等理科能力，这里Coding有一定的特殊性，是语言能力和逻辑掺杂在一起的混合能力，Coding从语言角度可以看成一种受限的自然语言，但是混杂着复杂的内在逻辑问题。从语言角度看，Coding貌似是容易解决的，从逻辑角度看又相对难解决。总之，Coding目前看是除了语言理解外，大模型做得最好的方向）。

语言理解和表达是LLM最强的能力，初版ChatGPT就可以完全胜任各种纯语言交流的任务，基本达到人类水准，目前即使是小模型，在这方面比大模型能力也不弱；世界知识能力虽说随着模型规模越大效果越好，但幻觉问题目前无法根治，这是制约各种应用的硬伤之一；逻辑推理能力一直都是LLM的弱项，也是最难提升的方面，从GPT 4开始往后，如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以，大模型最重要的一个是世界知识方面如何有效消除幻觉，一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

2.2从大模型的基础能力，我们再说回已经被谈滥了的大模型Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式，其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源，基本就能看出来这是为啥（以下是我猜的，不保真）：

本质上大模型的能力来源都来自训练数据，包含能体现这方面能力的训练数据越多，则这种能力越强。语言能力不用说了，任意一份预训练数据，其中都包含相当比例的语言的词法句法等成分，所以训练数据中体现语言能力的数据是最多的，这也是为何大模型的语言能力最强的原因。

而数据中包含的世界知识含量，基本是和训练数据量成正比的，明显数据量越多，包含的世界知识越多，Scaling law是数据中包含的世界知识含量关系的一个体现，但是这里有个问题，大模型见过越多数据，则新数据里面包含的新知识比例越小，因为很多知识在之前的数据里都见过了，所以随着数据规模增大，遇到的新知识比例就越低，在世界知识方面就体现出Scaling law的减缓现象。

而为啥逻辑推理能力最难提升？因为能体现这方面的自然数据（代码、数学题、物理题、科学论文等）在训练数据中比例太低，自然大模型就学不好，尽管通过不断增加数据，能增加逻辑推理方面数据的绝对数量，但因为占比太少，这方面提升的效果和增加的总体数据规模就不成比例，效果也不会太明显，就体现在逻辑推理能力Scaling law看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力，往往在预训练阶段和Post-training阶段，大幅增加逻辑推理数据占比的原因，且是有成效的。

2.3 所以目前大模型的核心能力提升，聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是<问题，正确答案>，缺了中间的详细推理步骤，而o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤，以此来增强复杂问题的解决能力。

OpenAI o1提到了关于RL在训练和推理时候的Scaling law，并指出这与预训练时候的Scaling law具有不同特性。很明显，如果o1走的是MCTS搜索技术路线，那么把COT拆分的越细（增加搜索树的深度），或提出更多的可能选择（节点的分支增多，就是说树的宽度越宽），则搜索空间越大，找到好COT路径可能性越大，效果越好，而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势，也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义，我倒觉得把这个称为RL的Scaling law有点名不副实。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

http://mp.weixin.qq.com/s?__biz=Mzg5MTU1NTE1OQ==&mid=2247490163&idx=1&sn=f2a87170add0f613aae5c5cf5ed243fe

NLP工作站

日常分享AIGC前沿知识&落地经验总结，也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍

最新文章

LLM实践系列-从零开始预训练1B级别大模型的心路历程

也许是2024年最值得一去的大模型国内年会！

LLM实践系列—大模型的拒绝采样2

实测腾讯开源的Hunyuan-Large大模型，感觉。。。

LLM实践系列-昇腾910B上进行Qwen2.5推理

LLM实践系列-细聊LLM的拒绝采样

面向中文有害表情包（meme）的综合性检测

OpenAI-O1之下，我们技术该何去何从

CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

LLM实践系列-拯救Continue Pretrain的数据

超全！一文详解大型语言模型的11种微调方法

LLM实践系列-详谈Tokenizer训练细节

LLM实践系列-数据去重之Simhash&Minhash分析与实现

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

全是细节 | 聊一聊做SFT的经验

Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

长文 | Reverse-o1：OpenAI o1原理逆向工程图解

全是细节 | 聊一聊做Pretrain的经验

Quest：一种以查询为中心的长文本数据合成方法

如何提升角色扮演大模型的拟人能力？

Qwen2.5系列模型开源，你值得拥有！！！

长文 | 探索基于RL的新LLM scaling范式

大模型千卡训练-经验指北

浅谈OpenAI o1的价值意义及RL 的Scaling Law

六个问题带你看懂什么是理工科学霸-OpenAI o1！

大型语言模型实战指南

大模型论文淘金

DPO，RM，RLHF 傻傻分不清楚

如何获取高质量数据进行代码指令调优？

浅谈大模型角色扮演：从当红炸子鸡到无人问津

将端侧大模型进行到底-MiniCPM3-4B开源

Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

大模型微调终极指南

这段时间搞大模型的血和泪

综述 | 大模型的可控文本生成

大模型是泡沫吗？

大模型 VS 小模型

探讨大模型预训练与微调之间的相互作用

大模型时代，什么样的算法工程师更吃香？

没有等来Qwen2.5，但等来了Qwen2-Math

浅谈-领域模型训练

大模型微调到底有没有技术含量？

MOE系列模型-浅谈

大模型预训练开源数据集-整理

一大堆Llama3.1-Chinese正在袭来

浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

RegMix-用回归任务解决大模型数据混合问题

开源真卷！Google开源Gemma 2大模型

让AI应用成为你的创意游乐场 - 快速搭建AI应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉