大数据文摘授权转载自智源社区
Q1:近期,OpenAI 发布了 o1 模型,标志着 AI 在处理高度复杂问题上又迈出了重要一步。根据官方介绍,这些模型在推理数学技能、投资者分析期权交易策略等特殊任务上表现出色。官方表示,o1 的核心技术是强化学习和私密思维链。请各位专家首先谈谈对 o1 发布的看法,以及它对个人研究方向或工作的潜在影响。
安波:OpenAI o1 近期引爆了学术界和工业界的讨论热情,各种关于 o1 的猜想层出不穷。实际上 OpenAI 发布的关于 o1 的博客文章比较短,我认为有些猜想可能与真实情况差距比较远。
刘知远:近几个月,产业界和学术界其实对大模型未来的发展其实都产生了一些困惑。很多推送的文章也都在质疑未来大模型还能再怎么发展。我认为,无论是从大模型的长远发展,还是从本身的学术贡献的角度来看,o1 都一个非常重要的突破。o1 代表着大模型具备了更强、更深的思考能力,是从 system 1 通往 system 2 的工作。我们希望大模型能够实现人类级别的更高的智能水平,面对更复杂、更开放、更困难的问题,通过更长时间的思考,找到这个相应的解决方案。
张宁豫:推理是相当人工智能领域中一项非常重要的任务。OpenAI 它把它的技术路线分为了这个5个层次,目前在第2级上有重大突破。那么,o1 诞生后,我们还可以针对哪些场景开展研究?
付杰:我一直在思考,如何定义推理(reasoning)。根据 subbarao kambhampati 的观点,我们理想中的推理,不仅仅是近似的只是检索,而是从第一性原理的最小集合出发,一步步将答案推理出来。所以我很好奇,如果 o1 只是大量地进行数据合成,之后将 system 2 蒸馏进了一个 system 1 的预言模型的范式,是否是我们想要的推理。这可以类比于 Dale Schuurmans 在计算机科学领域提出的「用空间换时间」的思维。如果加入了 COT 之后,就有了循环迭代的可能,其计算能力会得到加强。
Q2:针对是否启动 system 2、system 1 到 system 2 的连接等问题,各位嘉宾有什么观点?
安波:就我个人更现实一些,我不太关心 system 1/2 到底做了什么,或者到底算不算推理(reasoning)。在生成答案的时候,你不仅仅需要看下一个 token,而是需要从更长远的角度看哪一个回答可能会更好一些。这就好比我们在做规划时,一个很好的规划和短视的决策的区别。正因为如此,RL的好处就在于它能够从很长远的角度来看最优的决策是什么,这对推理而言是很有帮助的。未来,我们可以从各个角度全面提升大模型的能力。
刘知远:我觉得到底怎么划分 system 1/2 的边界可能的确不是那么关键,之所以这样定义两个系统是要让我们知道努力的方向——实现更深层的思考能力。这代表着人类智能的一个非常高的水平,可以通过思考,通过不断的试错,根据外部的反馈,知道该往哪个方向努力,从而更好地解决问题。从这个角度来讲,o1 给我们带来的一个非常大的挑战是在于:为了实现面向这种更深层的思考的能力,如何去获取合适的标注数据,构建监督的信号,让这个模型具备这种能力。面向未来,为了实现超级智能,依靠人来标注持续地获取监督信号是不可行的。因为,可能发展到一定的阶段,人类的能力也不能满足标注的要求。此时可能需要一些类似于 self-play 的机制,让模型不断自我提升。
张宁豫:在 o1 出来之前,学术界就有一些若干模型「左右互搏」从而提升模型性能的工作。然而,当性能提升到一定程度以后,即使使用合成数据,性能的提升幅度逐步减小。所以,我一直很好奇 o1 是怎么能够保证持续提升性能。当然,可能它也涉及了一些更加新颖的机制。
安波:在没有额外知识的情况下,为什么推理能够提升呢?实际上,在强化学习、马尔科夫决策等任务中,我们需要做规划。而大语言模型生成 token 本身就是一个序列关系决策任务,如果我们能够看到未来的情况,就可能会改变对当前 token的选择。推理对提升性能是会有帮助的。
Q3:o1的诞生是否代表大模型领域的研究范式迁移:从训练的 scaling law 走向推理的 scaling law 计算成本的增加。计算主要消耗在推理侧,性能增长也不再依靠参数量本身的增长。大家如何看待这一问题?
刘知远:我整体不觉得这是一个范式迁移,训练时的 scaling law 还会持续发挥作用,但是会达到新的高度。只是大家关注的重点可能会有所转移。我并不认为一个好的方案一定是对之前方案的一个否定,我觉得是相当于站在巨人的肩膀上,又往前走了坚实的一步。
张宁豫:部分观点认为 o1模型算是一个比较强的「理科生」。然而,在普通对话中,并不总是需要复杂的逻辑推理。如何平衡训练阶段和测试阶段的 scaling law,以优化智能系统的设计,提升系统的效率,是未来研究的关键方向。
刘知远:我赞同宁豫的观点。system 1 和 system 2 的分类实际上也存在一些问题。在处理问题时,如果一个问题被反复遇到,即使它本身是复杂的,但通过不断的实践和熟悉,人们可能会发展出一种类似于条件反射的快速解决方式,建立一些「捷径」。这种快速反应可以通过 system 1来实现,而不需要 system 2的深度参与。system 1/2 并没有严格的边界,它更像是一个有不同分布的连续光谱。我们团队最近开发了很多端侧模型,端云协同的方案可能是未来的趋势。我们希望训练动态的模型,可以根据问题的复杂程度,决定调用多少的算力完成任务。
Q4:很多用户在实测 o1后给出了比较失望的评价,认为 o1对于很多问题的回答和 GPT-4o 差异并不大,但训练成本却差了十倍,甚至更多。o1是否对于某些问题会过度思考?
刘知远:要将这类技术转化为广泛使用的对话类产品,可能需要大约一年到一年半的时间。无论是产业界还是学术界,国内都应该充分重视并学习国际领先机构创新技术。我们应该关注这些机构的长处,而不是过分关注他们目前存在的问题。这些问题在未来半年到一年内可以通过产品化和技术发展得到快速解决。我们应该站在巨人的肩膀上,迅速地进行探索和创新。当别人已经掌握了深度思考的能力时,我们在做什么?
安波:这是个很有意义的问题,我们之前的工作也没有考虑过。我们是一直搜索到满意的解决方案为止。实际上,当年的 AlphaGo 在做决策时,有的决策需要十多分钟,而有的只需要一两秒。如何基于 token 中的概率信息或者 critic 的信息确定搜索的终点,利用合适的答案是很好的研究问题。
张宁豫:我想从应用的角度出发,对 o1模型以及 OpenAI 未来可能发布的更新进行一些思考。显然,这些更新将针对特定的实际应用场景。这引发了一个关键问题:在哪些场景下,复杂的推理是必需的?从直观上讲,科学研究工作本身就涉及到复杂的推理过程。目前,我们已经看到了许多致力于开发 agent,将其用于科学研究的 AI 系统的工作。
Q5:一些评论称,o1开辟了一条通向 AGI 的新路径,让大家对世界模型有更多的想象。大家对此有何看法?
安波:我不认为 o1与世界模型有太大关系。我怀疑 o1是否有报道中那么重大的突破。之前大家的研究重点放在预训练、RLHF。现在往后开始提升回答的能力,针对推理做一些研究,是一个很自然的步骤。
刘知远:我觉得世界模型本身也有狭义和广义之分。许多人可能会将世界模型理解为通过视觉构建的物理模型,但这种理解是狭义的。实际上,世界模型可以包括我们通过视觉感知的物理世界之外的微观和宏观层面。
张宁豫:我认同刘老师的观点,即世界模型的核心在于模型在执行任务时是否对该领域、环境或任务本身有深入的理解。这背后的关键问题在于我们是否需要一个独立的模型来构建这个世界、环境或场景的模型,还是将这些元素整合到大模型中去。这是一个开放性的问题。我个人认为 o1在 OpenAI 技术路线图中的第三层,也就是所谓的agent层。我好奇的是,这个agent将如何实现,它将呈现为何种形态?
OpenAI技术路线 付杰:已有研究者探索直接将预训练的语言模型视为世界模型。例如,通过提示(prompt)的方式,让模型将自己视为一个世界模型,并回答相关问题。比如告诉语言模型“你在一个房间里”,然后询问“往前走十步会不会撞墙”,模型可能会回答“不会撞墙”。但如果向前走了五步后继续询问:“再往前走五步会不会撞墙”,模型可能会回答“会撞墙”。这表明模型并没有形成一个自洽、一致的世界模型。
刘知远:在我看来,所谓的世界模型实际上代表了描述世界运行规律的基本公式。这些底层机制是理解世界运作的关键。利用大型模型进行世界模型的学习,实际上是从大量数据中提取和总结这些底层运行机制的过程。这个过程类似于人类如何通过经验和观察来识别规律。只有通过识别这些规律,模型才能有效地验证每一个行为的反馈。从这个角度来看,世界模型的名称并不是最重要的,关键在于我们能否找到更深层次的运行规律和机制。
张宁豫:如果我们要将这些模型或智能系统嵌入机器人中,或使其能够服务于人类,它们必须能够理解世界的运作方式。从这个角度来看,世界的规律不仅包括物理规律,还包括空间上的诸多规律,这些规律对于智能系统来说极为重要。一个挑战是如何将这些规律以计算机可学习、可编码的方式整合到智能系统中,使其能够理解这些规律。
Q6:其它公司也表示正在研发的模型也具有高级推理和规划能力,o1的诞生可能给谷歌等其它公司带来了巨大压力,它是否有可能改变国内外该领域的竞争格局?
刘知远:至少从目前的表现来看,o1的学术价值远大于其商业价值。短期内,它在许多专业领域的应用可能难以显著发挥作用。面向未来,OpenAI 的应用更可能集中在科学探索、高技术和知识密度较高的领域。然而,这些领域的成功应用需要先构建相应的世界模型,这一过程并不简单。
Q7:o1的推理能力是否可以用在端侧设备上?高级规划和推理能力是否对于基础模型的能力是强依赖的?
刘知远:目前,我们显然还无法达到在端侧实现 o1。当前我们应该专注于提升复现其性能,沿着既定方向稳步前进。从长远来看,我们最近提出了一个观点:随着模型的更新和增大,其参数数量也随之增加,从而能够容纳更多的知识。然而,我们认为未来的模型发展不应仅仅依赖于简单的规模扩张,而应更加重视改进模型的制造工艺。通过不断改进,我们可以在单位参数内放入更多的知识,持续提高模型的知识密度。在这一基础上,我们可以逐步增大模型规模,增强其能力。此外,o1给我们带来的一个重要启示是推理时计算的重要性。面向未来,我们一定会发展出能够在更短时间内、以更少的计算资源达到相同推理能力的模型。我相信未来一定能够在端侧实现更强的类似于 o1的能力。这只是一个时间问题。
Q8:结合形式化语言来做训练,有什么具体的思路吗?
付杰:几个月前,我对利用语言模型进行数学证明的前景持乐观态度,认为可以通过随机生成的方式,让模型产生符合逻辑的证明。然而,我后来意识到一个问题:如果没有良好的初始化,类似于“猴子打印机”的随机过程可能永远无法生成一个有效的证明。
Q9:在模型架构改进上,我们是否会跳出大一统的 Transformer?
刘知远:我们最近确实在关注高知识密度的端侧模型。从实践角度来看,我们认为决定模型知识密度有三个重要因素:模型架构、数据的数量和质量、数据到知识的转换效率(模型的成长规律)。
Q10:各位嘉宾对国产模型研发的现状有什么看法?
刘知远:我认为大模型的浪潮始于2018年的 BERT 和 GPT,当时我们称之为预训练模型。北京智源研究院在这个过程中扮演了国内非常重要的角色。任何一次大的技术突破,真正让社会各界感知到大概需要五年时间。深度学习大约在2010年技术相对成熟,直到2016年 AlphaGo 战胜人类围棋冠军,才让全社会认识到深度学习的强大。大模型技术在2018年初步成熟,直到2022年底到2023年,整个社会才认识到大模型技术的重要突破。
Q11:很多 AI 安全的专家对于 o1模型感到非常的担忧,把 o1评级为具有中等风险的模型。如果被滥用后果会很严重。大家对此有何看法?
付杰:在我较早的研究中,大约在2019年,我进行了一些评估,旨在探究 BERT 模型是否能理解人类的社会价值观,这也算是早期的模型对齐研究。
ditch of danger 张宁豫:AI 安全问题至关重要。随着大型模型和智能体等新技术的发展,这一领域将持续存在并发展。我们面临的挑战是如何开发更强大的模型,使其既能服务于实际应用,又能解决人类问题。
参会人员
新加坡南洋理工大学校长委员会讲席教授和南洋理工大学人工智能研究院联席院长,于2011年在美国麻省大学Amherst分校获计算机科学博士学位。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习、及优化。有100余篇论文发表在人工智能领域的国际顶级会议上。曾获2010 IFAAMAS杰出博士论文奖、2011年美国海岸警卫队的卓越运营奖、2012 AAMAS最佳应用论文奖、2016年IAAI创新应用论文奖,2020 DAI最佳论文奖,2012年美国运筹学和管理学研究协会(INFORMS)Daniel H. Wagner杰出运筹学应用奖, 2018年南洋青年研究奖、以及2022年南洋研究奖等荣誉。
曾在加拿大Mila做过Yoshua Bengio和Chris Pal的博士后,博士毕业于新加坡国立大学师从蔡达成。他获得NAACL 2024,ICLR 2021杰出论文奖。他目前的研究兴趣是System-2 deep learning, AI safety.