在过去大家其实比较担心OpenAI过去的技术的范式已经达到了可见的瓶颈,导致今年大家对大模型和应用整体的观点都比较偏保守谨慎,那模型的发布会不会是比较重要的新的变化?电话会议里面就邀请了专家来共同讨论一下,通过公开的资料从技术角度来预测一下可能出现哪些变化:
Q1:在过去一段时间里面,大语言模型的局限性体现在哪些方面?
A:过去大语言模型存在了一些局限性,使得我们现在的发展速度有点放缓。目前大语言模型有这三个方面的局限性:
第一:数据利用层面的局限性。当前的大语言模型,比如说GPT-4o这种比较一流的大语言模型,依赖于大量的预训练数据,这些大量的预训练数据也反映了我们人类的知识和语言模式,虽然这些模型在利用现有的知识上面,它已经做到了比较极致的水平,但是它在探索新的知识,比如说科学知识,或者是它之前的训练数据里面没有遇到过的任务方面,他表现没有那么好,仍有巨的比较大的提升空间。它在这些任务上面的表现,受限于它过去的训练方式,它基本上是在学习数据的相关性上面做了大量的训练,它始终训练的方式都是预测下一个token的训练方式,这使得它在利用这些数据的时候,仅仅利用了数据之间的相关性来进行训练,这样的数据其实并没有非常极致地使用高质量的数据。这是过去的训练模式对于数据利用的局限性。
第二:推理能力的局限性。现有模型在一些复杂推理任务上面,比如说数学解题、代码生成,特别是我们比较看好的AI Agent应用,具身智能的应用其实都是一系列的复杂推理组成了复杂推理的任务,那么大模型在这种复杂推理的任务上面的表现是不太理想、非常有限的,它难以进行长时间、长距离的多步骤的决策和推理,和自主决策。比如说 GPT-4在处理这种复杂的数学问题时,往往没有办法提供非常准确的解答。这是在逻辑推理能力上比较明显的局限性。
第三:scaling law边际收益的递减。前段时间GPT-5也有在训练,但是没有达到非常好的效果,随着模型规模的增加,大语言模型的边际收益已经开始递减,进一步拓展模型的参数量,还有模型的训练数据量和模型的训练的时间所带来的智能的提升的边际收益开始递减了。比如GPT-4到GPT-5之间的性能提升并没有与参数量的增长成立非常正比的趋势。这种模型已经非常受限于现在的数据量以及硬件的成本,想要进一步的扩张模型的性能,它需要更大规模的数据量和训练的成本。目前边际收益递减的情况下,它需要把量再扩得更大几个数量级的规模。这种情况下,它的成本跟它的收益已经开始不成正比。
这三个方面的局限性比较制约现在大模型的发展,也是未来OpenAI新模型希望去突破的方向。
Q2:现在大家猜猜可能在模型里面用了自我对弈强化学习等,能否深入浅出地帮助大家理解一下这个创新点?
A:关于自我对弈强化学习即Self-Play的RL技术的具体情况,自我对弈的强化学习其实是AI 深度学习的经典的三大范式之一,经典三大范式:1)监督式的学习,也就是比较传统的有标注式的学习;2)非监督、无监督学习,其实就是GPT模型它通用的学习方式;3)强化学习,强化学习其实就是让AI进行自主探索,连续决策,这个学习方式是非常接近人类的学习方式的。人类也是通过自主探索,通过探索当中得到的反馈来迭代自己的认知,再进行进一步的决策,进一步的探索,通过探索的反馈,再进一步的建立认知。过程比较接近人类的方式,所以现在就是在这个方向上再去找突破点。
现在大力出奇迹的效果已经遇到了瓶颈,模型过去的这种大力出奇迹的训练方式,其实更像是在死记硬背,死记硬背现在已经很难有大的进步了,未来比较直观的理解就是从相关性的学习过渡到、进化到因果性的学习,就是自我对弈的强化学习。它的底层的原理就是过去的学习的往往都是在学习知识之间的相关性,比如发现每次带伞的天都会下雨,这是语言模型往往会学到的相关性,但是这并不是因果性,因为实际上带伞并不会导致下雨,而是因为下雨了我才带伞,但是下雨和带伞往往就是会同时出现,语言模型可能就学到相关性,但是并不能学到底层的、复杂的推理。所以为什么问题是这样的以及为什么会有这样的原理,其实模型是很难回答的。过往的学习范式通常都是学习相关性,相关性往往是告诉你两件事总是一起发生。但是因果性是告诉你它为什么会一起发生?所以学习为什么其实是现在希望去突破的难点。
目前来看,自我对弈的强化学习,这种学习范式是可以让模型学习到推理能力的。直观来理解,拿过去强化学习通常做的比较好的场景——下围棋,来帮助理解。下围棋是通过不断的自己下棋,不断的尝试不同的走法,观察每步棋的结果,慢慢的就会发现哪些策略更有效,哪些走法会输掉这局比赛。这个过程当中就不只是在记棋谱,而是真正的在理解棋局的变化,理解每一步棋为什么要这样走。这就是从相关性学习进化到因果性学习的比较明显的过程。现在的这种对弈式的强化学习,其实是用叫蒙特卡洛树的搜索来进行决策的,直观的理解就是它会在每一步决策的时候,它会想到这一步的应该有多少种解法,它会模拟不同的可能性,通过模拟不同的可能性再去计算可能性发生以后,它的模拟的结果到底是好还是坏,它到底是向好的趋势还是向坏的趋势。通过自我模拟、自我模拟的评估,再进一步在每一步的模拟的基础上面去做下一步的推理和模拟。这些步骤其实就是逐步的推理、进化学习的过程。这个过程的好处在于它可以逐步拆解,每一步都有依据,并且推理完以后它能够通过过往的经验得到变得更好还是变得更坏的评估。通过的进一步的评估和进一步的推理、决策和行动,它就可以更逻辑严谨地进行推理,所以就是Self-Play的RL的特点。
可能有人会问为什么这种RL比如RLHF,之前也知道,过去训练Chat GPT 的时候,跟人类对齐的RLHF的训练方式为什么没有做的这么好呢?其实这是因为人类对齐的RLHF,它是能让模型做到更像人一样的表达,它的目标是表达更像人类,而非做到逻辑严谨的推理。直观的理解就是人类更喜欢好理解的内容,而不是逻辑严谨的复杂内容。往往逻辑严谨的内容是更加复杂的,但是人类是更喜欢更简化以后的故事,所以通过人类对齐以后,反而会给模型带来幻觉,因为人类更偏向于听好听的故事,而不是逻辑严谨的,复杂的阐述方式。故事讲的好往往就能把人类的情绪带动起来,但是讲故事往往不会逻辑严谨,故事是更富有想象力的,而故事往往带给模型幻觉。所以在看模型的时候,会感觉模型在很自信地阐述并不逻辑自洽、严谨的观点,但是它阐述的很自信,所以这也是过去的RLHF,它可能会带来问题。但是现在的这种博弈式的RL倾向于让模型去生成逻辑严谨的内容,它给了模型更多更复杂的推理的步骤。这就是自我对弈的强化学习的底层原理的直观理解。
Q3:自我对弈的强化学习的局限性会体现在哪些方面?
A:自我对弈的强化学习目前还是有局限性,它需要这个领域有非常明确的评判标准,比如过去最成功的应用场景是让它去下棋,下棋的评判标准是非常明确的,它就是在棋盘上面去下,它的场景是比较受限的,它的评判标准也是非常明确,有围棋的规则、象棋的规则来决定什么样的结果就算下赢了,所以评判标准非常明确、非常准确的,能够提供非常明确的反馈,帮助模型去优化自身的能力。所以局限性就是在于它需要非常明确的评判标准。
现在为什么在大模型上面去使用呢?因为能够找到这些有评判明确评判标准的应用场景,需要模型去解决,比如写代码、科学研究、数学推理,都有更广泛的应用场景,比如写代码能力,它是能带来很大的经济价值的,比如AI agent的应用,就是AI代理的应用,它可以做非常复杂的接口的调用、非常复杂的函数的调用来实现非常复杂的任务。比如在网上搜索相关的知识,来去做相关的网站,或者相关的应用等等。所以是非常有应用价值的,现在在方面开始去使用。
为什么编程和数学它是有明确反馈的呢?因为数学的话,公式能够得出具体的结果,这是非常明确的领域。代码的话也是代码如果写的对,它就会得到相应的结果,它也是非常的可控,并且明确准确的。自我对弈的强化学习所需要去解决的领域是具有比较明确准确的评判标准的领域,它只能在这个领域上面发挥它的能力,这是一个大局限性。比如评判标准不明确的领域,比如文学创意,或者是反馈周期比较长的领域,比如医药领域、药物研发领域,这种需要非常长时间来去体现结果的领域,比如药物在个人或者一群人身体上体现药效需要经过好几年的时间,这种长反馈周期就使得大模型难以快速的接到有效的反馈来去迭代产生有效的效果。所以就是没有明确评判标准,以及反馈来的特别慢的领域就可能不太适合用强化学习这种训练方式。
Q4:强化学习路径出来之后,是不是会带来新的一波Scaling Law的增长的机会?
A:Scaling Law范式在过去被奉为真理,在过去的很长一段时间,很多模型的上面都体现出来Scaling Law,在随着模型的参数量以及训练数据量的上升,模型的性能是有比较线性的变化的,所以过去Scaling Law还是没有失效的。只不过最近GPT-4o量级的模型上面已经把数据量和机器的硬件成本拉到了目前能够接受的比较高的水平,所以在这个水平下面想再增大数据量和增大计算资源的话,在这个成本量级下面看到的性能的收益,我们觉得它的边际收益已经在递减。所以现在急需在硬件成本还没有下降的特别明显的时间段里,寻找新的方法,在现有的的计算资源的成本的前提下面,做出突破和创新,而不是再等几年,等到硬件资源成本下降以后,有更大规模的计算再去迭代模型。所以现在就需要寻找不需要那么大的数据量和硬件资源也能做的方向,现在就想到了RL的方向作为破局点。
RL方向为什么可以是破局点呢?现在这个方向对于训练数据的利用会比较好,因为现在的RL用的是决策和推理的方式来进行模拟,比如在进行每一步的推理的时候,需要对每一步进行很多次的模拟。比如拿Alpha Zero举例,这个模型比如大概经历了500 万局的自我的博弈,大概每局有 200 步左右的的博弈,它做好每一步大概需要1600次的模拟,这就使得总的模拟次数可以达到1.6万亿次。模拟的方式创造的训练数据是非常大的,这种方式创造训练数据又是非常高质量的。过去我们都知道大模型训练,想降低幻觉,需要非常高质量的训练数据,高质量训练数据是非常稀缺、非常有限的。现在可以通过模拟的方式来创造高质量的训练数据。高质量训练数据虽然使得计算量变得更加庞大了,但是它整个的训练的效果会有比较明显的进步。所以这种方式是Scaling Law想进一步扩张的非常好的方向。
另外一种角度的Scaling Law是把训练的Scaling放到了推理上,也就是在训练的时候已经达到了一个量级,但是是不是可以在推理的阶段,让模型进一步加大它的计算量,使得它在推理的时候能够得到更大更好的效果?所以在现在的RL 的范式下面,是在推理的维度上面,步骤上面来去进一步的去 scale up,扩大它的计算量。扩大计算量的方式就是逐步推理和模拟的方式,来去在推理的环节进行多步推理,多步的决策,甚至是每一步推理,大概得到了结果以后,它用结果来进一步迭代模型来去训练,再进行推理。这样的模式使得它在推理端的计算量的开销会变得更大。那么在推理端再进一步增大计算量的开销也是可以得到更好的结果的。所以现在的Scaling Law从这几个方面得到了另外角度的延伸。
Q5:新模型的推理消耗的算力比较高?
A:这个问题也是大家比较关心的问题,就是新模型推出来以后,是不是大家可以接受的使用成本?目前来看确实它的新的RL范式下面的推理时间以及推理的算力需求,推理的计算量的需求是有在上升的。比如在新的RL范式下面,模型在推理的过程当中需要进行更多的探索,这也意味着推理时间的增加,对于算力的需求也会提升。从相对来说比较具体的计算来看,比如一个百亿参数的大模型,如果用这种Self-Play的方式去进行推理的话,假设每次有 32 个思路来去进行尝试,每个思路可能会有五个步骤(这是比较常规的推理规模),这样一次推理回答任务消耗大概是100K个token,100k个token的成本就是将近6美元的一次推理。所以它一次推理就大概有 6 美元的推理的成本,那么它的推理的成本开销就是非常明显在提升的。
为什么订阅成本可能会比较高?也是因为RL范式、Self-Play的方式来去进行推理的话,它每次推理需要进行模拟的次数会很多,消耗的token数量也会很大。所以它每次推理的成本可能就会比较高,导致整个的使用成本会比较高。这也是因为新模型面向应用场景是更加偏向于比如代码生成或者coding、解题、解决复杂任务的场景。这些场景可能本身是有巨大的经济价值的,比如能够为工作者提供比较好的代码生成工具,来提高开发者的工作效率。甚至未来可能是个人开发者、个人的 AI 产品经理,可以用的它来去生产、制作产品。其它更加复杂的应用方式,都是可以通过RL的推理范式来去完成,所以这种推理范式它本身可能带来的经济价值也会比较高,所以它的推理方式也是有它的价值在的。
总结起来,它的成本确实是会比较高,但是它可能带来的价值也会比较高,所以就看未来大家的使用场景是不是跟它的方式会比较匹配,目前来看它的潜力还是比较大的,但之后可能会有trade off,就是它可能会控制它的每次生产的思路,以及做的步骤,每次模拟的次数来控制它的成本。使得它的成本跟它的效益达到平衡,也就是用最少的成本达到最好的效益,可能会提供大家选择调整的参数。