点击箭头处“蓝色字”,关注更多及时AI资讯哦!!
OpenAI发布了全新的模型O1。Sam Altman对此表示,这标志着新范式的开始。在AI投入持续增加但效果不佳的背景下,O1的出现极大地提振了全行业对AGI的信念。原本对AI失去信心的创业者们也重新燃起了希望。
OpenAI释放了明确的技术信号,即在模型推理阶段引入强化学习路径。如果将OpenAI此前发布的GPT系列模型视为系统一的快速思考,那么O1则是引入了系统二的慢思考。模型通过生成思维链COT来进行规划、推理和总结,从而产生更为可靠的结果。针对这一AI领域的重大技术突破,本期内容围绕创新工厂联合首席执行官兼管理合伙人汪华、昆仑万维荣誉顾问严水成以及极客公园创始人兼总裁张鹏一起参与并讨论的“O1新范式对创业者意味着什么”的访谈,整理和提炼了三位专业大佬的独到见解,来与大家分享,今天不整高深的技术,聊聊AI发展里面的哲学。
O1带来的变革
OpenAI 的新模型o1到底是否意味着AGI 的又一次提速?
GPT-4和GPT-4o本质上仍属于快速思考阶段,这种思考方式并不适合解决复杂的推理问题。OpenAI对慢思考和结构化思考的研究,从去年发布的论文上就能看出线索,比如step by step的reinforcement learning,以及后续关于income tax reinforce learning的研究,包括利用合成数据串reward model或critical model,实际上,无论是OpenAI、Meta还是其他公司,大家都在进行相似的工作,朝这个方向努力已成为大家的共识。
OpenAI发布的成果从这个角度来看是集大成者,并且工作完成得非常出色,但这其中也包含一些独特的额外工程探索。但是该研究的目标非常明确,即针对数学、学术解题和逻辑推理等各方面的性能增强,属于一个有明确对错和封闭结果的领域,这种领域是遵循物理规律的,如果数据覆盖良好,或者任务对象的覆盖良好,那么结果会更优。但如果覆盖不足,或者没见过这些数据、任务,或者reward model无法给出合理的review时,泛化可能并不一定能成功。从这个角度来看,没有涉及到超出常识的部分。所以对于一些更通用的推理部分的增强效果并不明显,如果对OpenAI的期望是能够将推理进一步泛化到其他的领域,那的确目前的结果还没有超出预期。
若要实现通用且复杂的推理,将会遇到许多zero-shot学习场景,这可能意味着在没有COT数据的情况下如何进行学习。代码和数学问题之所以能够迅速解决,是因为它们的明确性——对就是对,错就是错。而且,其推理过程和合成过程相对容易,COT数据的获取相对来说较为直接,reward的设定也相对明确。而那些在现实世界中错综复杂、相互关联且没有唯一正确答案或明确的对错标准、执行路径也不唯一的情况,才是最大的挑战。解决这些问题的难度远超过处理一个或两个模型的问题。因此,reward function奖励系统在这一框架中的存在非常有必要,否则将无法推演出适用于通用复杂推理的解决方案。单尽管这一观点背后的共识已久,问题仍未得到妥善解决。
众所周知模型的训练和激发过程很大程度是借鉴人脑的系统的,所以在深入这方面的理论之前,我们来讨论讨论人脑思考的逻辑。很久之前人们就提出了系统一和系统二的概念。从一开始,学习就伴随着一种认知,即压缩后的知识及其相互联系。这种压缩就像是人的直觉,属于一种快速决策,很多时候无法直接支持相对复杂的场景的。
因此,必须找到一种方法来实现系统二。在实现这一目标时,各种结构化推理和强化学习被采用,以优化规划、模型输出的稳定性、指令遵循度,以及让模型不仅当时学会知识本身,还能按照特定的pipeline运用知识。例如,人类在解决A问题时可能使用思维框架一,而解决B问题时又会采用不同的思维框架二。
有一种global work space的理论,期核心概念是在大脑中,除了视觉、听觉和触觉等专用子系统之外,可能存在一个特殊的区域,它能够整合不同模态处理后的中间结果,并通过一个共同的注意力机制将其整合到这个“舞台”上。同时,它还将个体的意图和记忆纳入其中,以进行推理和演绎。这一过程最终得出的结果就是我们所得到的分析结果。
有研究者在审查AI的store back时,发现了某些令人震惊或担忧的现象。虽然具体发生了什么无法证实,但是引人深思的是,AI似乎已经具备了产生COT的能力。这个COT的进程与人类的这个思考方式相似,这意味着COT流程的结束将催生新知识的产生,因为COT是一个思维链的过程,这个思维链包含了多种组合和分析,这一过程实质上类似于人类的思考,是对既有知识的再加工。可以将此视为新知识。如果模型具备自动生成COT的能力,那么它就可能拥有知识发现和知识增长的能力。
但这个过程确实会令人担忧,AI的推理过程与人类的思考方式相似,能够产生新的知识。将这些新知识注入模型,可以将其重新refine。经过Refine,这些知识就会被注入到AI自身中,使其能够实现自我improvement。COT的过程就像是一种利用算力进行挖矿的过程。通过这种挖矿活动,新的知识得以发掘,本身已存在的知识被激活。如果AI能够自动执行COT,这意味着我们见证了一个新范式的开端,它不仅限于提取既有知识,更致力于持续创造新知识。识是data,推理过程和思维方式同样构成了data的一部分。
若将此过程推向极端,其自我进化、形成新目标等现象皆有可能出现,这获取就是人们感到可怕或震惊的原因吧。所以O1背后所带来的COT,赋予了大模型发展以全新的可能性。
新范式为创业与融资带来的新的思考
从创业、企业的发展来讲,这其实是一个新的范式,而且是大家已经期待的新范式。从纯商业的角度来讲,COT带来的新范式同样是有很大的可能以及必要性的,因为如果要继续遵循scalling law的大力出奇迹理论,不断的堆数据和算力,咱先不说全世界的数据量是否可以支持,又有多少公司有这个实(财)力能支持下去呢?
最近许多公司都意识到,纯粹的foundation model的retraining已不再具有显著意义,因为其成本往往高达数十亿美元。即便有财力支持,使用起来也颇具挑战。而当模型具备了自动生成COT的能力,它便能自主获取更多知识,并基于此进行自我优化,模型就拥有了主动的知识发现和知识增长的能力,这听起来这似乎也更与人类科学发展的进程相吻合。
从投资者的角度来看,中美投资者现在正忙于关注商业化的机会,他们都已经不再讨论是否会有新范式的出现,早就已经过了仅仅为了科学突破而投资的阶段。他们现在更加关注的是这项技术能解决什么实际问题。
这种范式将许多相关元素整合在一起,使得世界变得更加多元化。在较小的模型上,虽然我们不能完全摒弃如scaling law这样的法则,但可以在更小的模型上重新进行体验和实践。而且,随着模型规模的扩大,性能提升的效果通常会更加显著。在当前时代,这种现象依然存在。可能只需提升模型算力十倍,就能观察到显著的效果,而不是需要对数级别的提升才能看到最终的进步。这对各种商业应用来说,都变得更加友好。
以前,或许拥有10万张H100,才算拿到了跻身第一梯队的门票。但新的范式或许这意味着,即便咱们只有几千张卡,通过增加更多维度,也能实现非常出色的效果。可能会有一批创业公司通过尝试各种不同的方法重新振作起来。因此,无论是从商业角度还是创业角度来看,新范式带来了让更多的人参与到未来的创新中去解决问题的可能,形势上似乎比以前更加乐观。
新范式带来的挑战与机遇
尽管o1已经取得了显著的进步,但在解决问题的范围方面仍有待提高。但是o1的发展意味着我们技术的重点攻克的方向不再是模型的速度,现在为什么我们需要模型快?因为我们现在大部分应用是copilot,这种辅助的模式是离不开人的,人就在旁边等着,所以需要模型快。
然而,如果o1为代表的COT模式的模型能够以高准确度解决复杂问题,并能很好地实现Agent。他执行的任务可能会是autopilot。对于Autopilot任务,就像是老板给员工布置任务,关键不在于完成任务的时间,而在于你这个模式所表现出的能力与完成质量。
但是COT的模式并不意味着Copilot的场景会被替代,这就像是两条流水线,区分不同的任务类型选择不同的解决方案。Copilot场景中,模型反应更迅速,并且与人交互更为直接和自然。这条路线结合了多模态等特性,其本身的发展依然有意义且有价值,不会因为某项技术的出现而被轻易取代。
在C端交互革命中,可能有80%到90%的任务是可以通过快速模型来完成的,而仅需10%的任务需要调用COT。无论是B2C生产力任务、娱乐任务还是交互任务,它们实际上都可以通过Copilot或Autopilot进行组合处理。一方面,这将解锁新的应用场景,并增强在这些场景中解决问题的能力;另一方面,它也会提高原有场景中解决问题的能力。最终,产品的形态也将发生变化。随着这种范式的变化,我们可以预见,未来使用此类技术在最终产品中实现解决问题并交付价值的能力将产生连锁反应,并且会协同工作。
举个场景,比如订机票的交互过程,以及在过程中用话术与用户进行情感愉悦的对话,虽然可能仍旧基于传统的多模态模型,但在后台帮助用户制定复杂的旅行计划、比价和调用各种资源的部分,则可能采用新一代的推理模型。前面的模型负责与用户聊天以延长等待时间,而后面的模型则在勤恳地执行COT和agent的任务。前面的模型表面上看似在提问,实则是等待推理完成,以便执行后续的有效动作,用户会觉得它非常智能,服务态度好,但其实前端的模型也许是是为了让用户等待分析模型的执行,有可能是收集用户信息,以获得情绪反馈,从而实现情绪价值...诸如此类,可见新的范式为产品设计中的带来的新的创新空间才是真正令人兴奋的。
对创业者的一些叮嘱
Reinforcement learning(强化学习)领域是一个实践起来难度较大且要求特定技能的领域,对中国而言,从事这一领域的人原本就相对较少。随着越来越多在国外学习并归国的学生被引入该领域,从事这一领域的人数逐渐增多。尽管如此,与国外相比,我们在时间与经验积累上仍相对不足。
在以往,RL在各个领域的效果并不显著。实施RL又困难重重,需要大量的工程投入,并且对算力的需求也非常明确。因此,在预期收益不明确的情况下,国内对RL的投入相对保守和谨慎。这种保守和谨慎限制了资源的充分投入,缺乏足够的计算卡、实验次数和算力,导致无法进行无用的尝试。这也阻碍了相关人才积累经验,因为并非所有的东西都是配套的,有些是在训练过程中逐步摸索出来的know-how,有意义的浪费是创新的重要基础,但这种能力和意识以及所需的环境,需要经济和商业文明的进步来共同滋养。
许多创业团队过于追求技术,他们一开始可能会选择使用某种开源模型,或者构建一个复杂的系统,但这并不比一开始就直接采用最先进的方法更好。在初期阶段,能用简单的方案就用简单的,除非万不得已,应避免开发针对模型缺陷的复杂工程工作流来弥补当前模型的不足。
尽量避免对现有系统进行补丁式的修改,如果必须修改,也应尽量采用简洁的、早期阶段就显得很重要的补丁。更重要的是,正如之前所强调,真正要解决的问题是提升竞争力,而非仅仅围绕技术寻找应用场景,否则就可能本末倒置。
扫码关注更多及时AI资讯
一起AI时代不掉队!