硬核|O1之父和XAI联创解析推理时间计算和自动提示工程、AI从压缩机器时代过渡到思考机器时代

文摘   2024-11-23 07:01   日本  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文访谈内容整理自Jimmy Ba和Noam Brown在Scale AI的专家论坛,公开发表于2024年11月20日。原始内容参考:https://www.youtube.com/watch?v=_m_GTV3XWQY

Jimmy Ba(XAI联合创始人)和Noam Brown(OpenAI O1研究员)接受Scale AI专访

内容导读

本次技术论坛主要围绕大型语言模型(LLM)的推理能力、发展趋势以及未来研究方向展开,Jimmy Ba和Noam Brown分享了各自的见解,主要观点如下:

Noam Brown (OpenAI O1研究员):

  1. 推理计算的重要性: Noam 强调了推理计算在提升 LLM 能力方面的巨大作用,远超单纯的预训练规模扩大。他以自身在扑克游戏AI领域的经验为例,指出增加推理时间(思考时间)相当于大幅提升了模型训练规模的效果。这在他参与的扑克比赛中得到了验证,单纯扩大模型规模未能取得胜利,而加入更深层次的搜索规划则显著提升了胜率。
  2. 预训练并非万能:  Noam 对仅依靠扩大预训练规模来实现AGI持谨慎态度,认为单纯的预训练不足以达到超级智能,推理计算能力的提升至关重要。
  3. 对AGI时间线的看法转变:  Noam 从最初的AI怀疑论者,转变为如今相信通过提升推理计算能力可以实现AGI,并认为目前已具备实现AGI所需的关键要素。
  4. 对未来研究方向的建议:  Noam 认为需要更多关注AGI的社会影响,特别是推理计算成为主要因素后对经济和社会结构的影响,以及相应的政策研究。
    Jimmy Ba (XAI联合创始人):
  5. 自动提示工程 (APE): Jimmy 介绍了其团队开发的自动提示工程技术 (APE),该技术通过优化提示词来提升模型性能,即使在计算资源有限的情况下也能取得良好效果。他将其比作在无法直接调整模型参数的情况下,通过调整输入(提示词)来达到优化模型输出的目的。
  6. 模型的“懒惰性”与潜在能力:  Jimmy 指出模型的“懒惰性”是其性能瓶颈之一,但模型内部存在着强大的潜在能力,通过合适的提示和引导,可以激发出这些能力。
  7. 提示工程的重要性:  Jimmy 认为提示工程与推理计算、微调一样重要,甚至在达到AGI之前,更高级的提示工程(例如元提示)会成为模型协同工作的关键方式,类似于企业内部不同角色(实习生、经理等)之间的协作。
  8. 对推理计算的看法: Jimmy 同意推理计算的重要性,并将其比作解决问题的计算成本。认为通过优化推理过程,减少冗余计算,可以大幅提升模型效率。他还强调了高质量预训练模型在减少推理过程中需要处理的信息量(位数)方面的作用。
  9. 未来研究方向的建议: Jimmy 建议建立一个幽默的排行榜作为模型评估指标,以此来衡量模型的创造力和趣味性。

访谈全文

主持人Summer:  大家好,很多人认识我。我叫Summer,我在SCALE负责运营研究团队。今天很高兴能邀请到Jimmy Ba和Noam Brown。我们先从Jimmy开始。Jimmy是XAI的联合创始人之一,致力于构建追求真相的人工智能。在创立XAI之前,Jimmy因发明Adam优化器、层归一化以及作为模型蒸馏的早期先驱而闻名。让我们为Jimmy鼓掌。

是的,我们也请到了Noam,他是OpenAI的一名研究科学家。他最著名的工作是早期创建了超越人类的扑克AI模型。就在两年前,Noam还构建了第一个在策略游戏《外交》中表现与人类一样优秀的大型语言模型代理。最近,Noam也是著名项目OpenAI O1的联合创建者之一。非常期待听到Noam对对齐推理的一些想法。让我们也为他鼓掌。也许我们可以先问两位一个简单的热身问题。众所周知,大型语言模型近年来变得越来越聪明。我们很好奇,你们能否分享一些时刻,这些时刻大型语言模型做了一些让你们感到惊讶的事情,比如推理任务,无论是好的还是坏的,以及这些时刻是否塑造了你们未来的思考。

Jimmy:  在这个领域,我感觉自己像个“恐龙”了,对吧?在这个领域待了这么久,我实际上是那些早期大型语言模型的“怀疑论者”之一,“唱衰者”之一,直到……我认为是在2022年NeurIPS截止日期之后,我的一个学生Karen给我看了一篇论文,或者说,他并没有真的给我看论文,他给我看的是一个控制台,就像打开了一个游乐场,我当时心想这是什么?然后,然后他输入了一个问题,模型并没有做太多,然后他说你应该试试一步一步地问它,我说好吧,一步一步地,我当时心想,哇!那是我第一次看到模型不再“偷懒”,这非常令人惊讶……是的,然后我认为,我认为这个主题——模型不再“偷懒”——将会反复出现。目前的模型很愚蠢/懒惰,很多时候就是这样,而那是我第一次……也许模型并不那么愚蠢,也不那么懒惰,那里有一些智慧的火花。

主持人Summer:  是的,所以模型默认情况下是懒惰和愚蠢的。但是当你要求它不要偷懒,比如一步一步地思考时,它就会有所不同。

Noam:  对我来说,我最初感到惊讶的是这些模型有多么愚蠢。我经常问的问题总是井字棋。所以当GPT-3发布,以及后来的GPT-3.5时,我总是问它:“好的,让我们玩井字棋,看看它能玩到什么程度。”它完全失败了。GPT-3.5甚至无法正确画出棋盘,而GPT-4尽管是一个相当聪明的模型,但仍然会犯明显的错误。它会做出非法的移动,并且无法识别它自己赢了还是我赢了。

长期以来,我一直思考着我们如何才能从连井字棋棋盘都画不好的GPT-4,发展到真正超级智能的东西。是的,随着规模的扩大,这些模型正在变得更好。至少现在,它们在画棋盘和减少非法移动方面做得更好,但它们仍然无法弄清楚如何在井字棋中获胜。在我们达到不合理的预训练量之前,还有大约四个数量级的规模需要提升。这让我怀疑我们该如何才能达到那个目标。

我记得和一些对人工智能非常乐观的人谈过。他们中的一些人说,没关系;井字棋并不是真正具有代表性的,你只需要扩大预训练规模,你就能做到。然而,我在2021年末与Ilya进行了一次谈话,他问我我的AGI时间表是什么。我告诉他,我有点怀疑,因为我不认为仅仅依靠预训练就能让我们达到目标。我在游戏中工作过,我知道推理时间计算的重要性。我说,在我们弄清楚如何扩大语言模型的推理计算规模之前,我们根本不可能实现AGI。我觉得这是一个非常困难的研究问题,可能需要十年甚至更长的时间才能解决。

Inference Time Compute(推理时间计算)是指在机器学习模型部署后,实际运行模型进行预测或推理时所涉及的计算过程。这一阶段与训练阶段不同,训练阶段主要关注模型参数的学习和优化,而推理阶段则侧重于利用已训练好的模型对新数据进行快速准确的预测。

主持人Summer:  哦,这次谈话是最近的吗?

Noam:  2021年末。

主持人Summer: 所以能够在那个阶段预见到推理时间计算,真是很有远见。

Noam:  我的整个职业生涯都在致力于各种领域的推理时间计算。在那时,很明显,一旦大型语言模型(LLM)开始流行,而它们并没有使用这些技术,我就想,好吧,我已经看到在游戏中不使用这些技术会发生什么了。在大型游戏中不使用大规模推理计算,你不会走得太远。令我惊讶的是,Ilya 实际上同意我的观点,他说,是的,我们绝对需要解决这个问题。我认为确实有相当多的人认识到,当你详细地与他们讨论我们如何才能真正实现超级智能以及诸如此类的事情时,他们意识到目前的模式无法让我们到达那里,我们需要一些更高级的东西。也许我对需要多长时间有点悲观,但我认为我们现在已经拥有了所有要素,所以我从一个对人工智能持怀疑态度的人(认为,好吧,这件事在可预见的未来不会发生)变成了现在能够看到前进道路的人。

主持人Summer:  非常酷,非常酷。大型语言模型获得真正优秀的推理能力有很多不同的方法。标准方法就是增加计算量,例如训练更大的模型,用更多的数据进行训练。我认为,Jimmy,你做了一些稍微不同的工作,你教模型给出更有用的提示,更好地描述任务。所以是自动提示工程师。你想给我们讲讲这个吗?

Jimmy:  当然可以。我认为这没什么不同。总的来说,我现在处于一种科学主义的状态,如果你在正确的时间、正确的地点,拥有正确的工具和资源,任何聪明的人都会想出同样的主意。所以那篇论文实际上是这样的:在我们开始提示模型之后,我们想,好吧,我们在学术界,我们没有计算资源,我们该怎么办?如果你在实验室里研究深度学习和神经网络的内部运作和机制,现在突然有人把那台机器从你身边拿走了,你会想知道,好吧,学生们该怎么办?

所以这确实是我们的起点。我们认为,提示很有趣,对吧?因为这些系统的唯一可调参数就是提示。现在,你不用自己构建机器了,你是在调整别人的机器的旋钮,但你甚至不能看内部。你唯一可以设置的参数就是这些提示。所以我们想知道,在21世纪,调整这些提示真正有效的等效方法是什么?

起点是,我们能否为调整这些提示重新创建一个 Adam 等效算法?然而,我们并没有使用 Adam,而是提出了 APE,它代表自动提示工程(Automatic Prompt Engineering)。其工作原理的核心在于,如果你只能调整提示,如何让机器表现得更好。每个人都能理解的一句话描述是:想象一下,你想教机器做某事,或者教你的实习生。这可能是最好的比喻。

你拥有所有公司内部的堆栈和工具,这些工具很难用语言向你的实习生描述。那么,你会怎么做呢?第一天,你的实习生来了。我会做的是让实习生坐在我旁边,我会在他们面前做一些演示。之后,就会说,好吧,让这个运行得更快。

就是这样。所以这基本上是这篇论文的核心思想:你进行一些演示,模型就能看出这些任务是什么,并以它自己的方式内化它需要描述这些任务的系统提示,而无需查看这些演示。然后你告诉它做得更好。现在这就是你教人的方法,对吧?这就是这篇论文的起点和核心思想。

我们尝试了大量的方法,包括很多计算测试。我们尝试了最佳 N 种方法,我们甚至尝试了一些疯狂的线性搜索,我们会采用之前的系统提示,并通过添加诸如“或者”、“等等”或“但是,我想知道”之类的短语来修改它。然而,模型太懒了,根本做不到。最后,我们决定采用最佳 N 种方法。

但是的,这就是开始。我认为现在我们有了更多先进的系统,可以查看任务,分析系统提示的集合,并为尚未部署的任务创建新的系统提示。这就是所谓的元提示(meta prompting),就像在 ChatGPT 和云提示生成器等平台上看到的那样。所以,我相信这个领域肯定朝着正确的方向发展。这就是下一代梯度下降的方向。

主持人Summer:  我认为从那篇论文中看到的一个非常有趣的图表是,如果只是让人类想出一个我们认为效果很好的提示,这实际上相当违反直觉。它效果并不好。模型最终优化并采用的提示,它非常违反直觉。这不是人们会说的话。

Jimmy:  是的,我的意思是,这也是我们相信这项技术能够、应该并且可能必须在达到 AGI 或 ASI 之前发挥作用的原因之一。模型可能有一些内部运作机制,你非常努力地将其与人类对齐,对吧?但总会有差距。如果你可以在系统的问题上运行梯度下降以随着时间的推移进行修改,你就可以利用这个差距,因为模型可能拥有这种内部语言。它知道如何激活某些能力和任务。

如果你认为总会有这种对齐差距,那么总应该有一些隐藏的提示在那里,可以利用一些更疯狂的能力。这可以使模型在某些任务中表现得更好。事实证明,如果你只是通过执行简单的最佳 N 方法来关闭计算任务,并继续采样新的系统提示来描述任务,你就可以突然得到仍然听起来直观的提示,甚至是任何人类都不会写出的提示。

所以,我们达到 AGI 的速度将取决于我们消除对任何元提示需求的速度,对吧?所有你需要做的个性化就是考虑解决任务的正确方法。如果你在一个能够构建这些系统并能够在很长一段时间内观察用户的公司中,那么我相信这种对齐差距将会缩小。

通过了解用户,你可以了解他们喜欢什么,他们想如何提示系统等等。最终,用户只需要让系统变得更好,而模型通常确切地知道该怎么做。

主持人Summer:  在转向 Noam 之前,关于这个主题的最后一个问题是,你是否认为这个方向与推理时间计算或微调范式一样重要?或者这更像是,我们尝试了提示方法,效果非常好,但这可能是我们所能做的最好的事情了?

Jimmy:  是的,我认为在我们完全消除对齐差距之前,我们将经历一个系统看起来像跨国公司的一个阶段。你将拥有实习生、实习生经理、正式员工、跳级经理和首席执行官,对吧?然后他们将如何一起解决任务呢?这可能需要某种提示,对吧?调整彼此的旋钮,但你实际上无法窥探别人的大脑,对吧?所以是的,所以,想象一下,就像你指导你的实习生一样,对吧?你可能非常努力地思考如何激励他们,如何提示他们,如何设定目标,例如,这对人类的未来有益,突然之间他们获得了20%的生产力提升,所以是的,这将会非常相似。

主持人Summer:  太棒了,太棒了。Noam,我们很乐意听听你的看法。你拥有丰富的经验,从扑克、多人扑克到外交游戏,都构建过游戏代理程序,外交游戏要难得多,因为它不再是零和博弈了。它要求玩家彼此合作,并与人类合作。从游戏代理程序到如今在OpenAI的出色工作,我很想知道你对一些历史趋势的高层次观察。轨迹看起来如何?你能分享这方面的任何见解吗?

Noam:  好的。我从2012年开始攻读博士学位,研究扑克人工智能。当我开始的时候,大家的态度是,我们已经有了算法,我们只需要弄清楚如何很好地扩展它。所以,我的博士学位的头三年都集中在将该算法扩展大约100倍。该算法,今天并不太重要,但它对扑克非常有用。它有点像预训练。我们会进行自我博弈,让机器人与自己对战,并且每年都会有一场这样的比赛,我们会利用数千个CPU进行数月的自我博弈,大约两三个月。对于学术标准来说,这是大量的计算资源,但如今已经不算什么了。当真正开始比赛时,机器人几乎可以立即行动,只需要10毫秒就能查找到它在特定位置应该做什么。2015年,我们参加了一场与世界顶级扑克高手对决的比赛,我们输了。我注意到,人类不会立即行动;他们会花一些时间思考困难的情况。这一观察启发我去研究人类决策的这种延迟到底有多大影响。

人们之前并不是没有研究过扑克中的更深入思考、搜索或规划,但由于各种原因,它并没有被认为是高度优先事项。一个原因是,让一个机器人花20秒做决定在扑克中并不是一件很有趣的事情;由于扑克是一个高方差游戏,你需要玩一百万局才能确定你的机器人是否胜过另一个机器人或人类。因此,你不会希望它每一局都停滞20秒。然而,我发现,如果让机器人行动前思考20或30秒,这相当于将预训练扩展了10万倍。在这个结果中,在我博士学位的头三年里,我设法将它扩展了100倍,我认为这是一项非常令人印象深刻的工作。

我发表了多篇关于这方面的论文,后来我仅仅通过让机器人在下棋后期行动前思考20秒,就实现了相当于10万倍的提升。这对我来说是一个警示,我们采取了错误的方法。从那时起,我把我的研究重点放在如何扩展扑克中的搜索和规划。在我们最初输掉比赛大约一年半后,我们又进行了一次比赛,这次我们击败了人类。我们分别击败了所有四个人。那是第一刻我意识到我们正在采用的方法的威力。

几年后,我们进行了一次六人扑克的后续比赛,更加专注于扩展搜索并使其更通用。我们再次击败了六人扑克中的顶级人类玩家,值得注意的是,训练该机器人只花了150美元。这清楚地表明,成功并非由于计算能力随时间的增加;如果人们有效地优先考虑搜索和规划,这本可以在90年代就实现。对我来说,真正的收获是,在那之后,我把所有的研究都集中在扩展推理计算和探索搜索和规划上。

当其他人试图将无模型深度强化学习应用于汉诺塔和外交等各个领域时,我始终取得了优于现有技术的成果。这很有趣,因为人们常常对这些方法持怀疑态度,而且直到他们在自己关心的领域见证了成功,我才看到其他人将这些技术应用到其他领域。在研究汉诺塔机器人(一种在强化学习社区中流行的基准合作纸牌游戏)时,我和我的合作者发现了一种非常简单的搜索技术,它思考大约一秒钟而不是10毫秒。其性能令人印象深刻,以至于他们最初以为这是一个错误。

我认为理解这些技术在扑克和其他领域的影响力如此之大的原因是,许多人没有意识到它可能产生的差异的规模。在观察扑克中的结果之前,我会估计其影响大约是10倍,这已经很显著了,但我不会因此而彻底改变我的整个研究议程。如果我知道它实际上是10万倍,我会早得多改变我的研究方向。这个结果并非扑克所独有;例如,在围棋中,AlphaGo在2016年以一项具有里程碑意义的成就击败了李世石。然而,仅凭原始神经网络就会输给顶级人类。使其超越人类的是神经网络和蒙特卡洛树搜索的结合,如果去掉后者,则无法达到相同的性能水平。为了与完整的AlphaGo的有效性相匹配,你必须将模型和训练扩展大约1000到10万倍。

所以,对所有这一切的公平批评是,我们在扑克中使用的技术在某种程度上是特定于扑克的。在其他领域使用的技术在某种程度上是特定于这些领域的。而神经网络的美妙之处在于,它们总是非常通用的。深度强化学习,无模型深度强化学习,确实是通用的。所以,是的,在我完成外交游戏工作的时候,我们再次开发了扩展推理计算的方法,这对于外交游戏是特定的。你看,我意识到,真正产生重大影响的方法是以一种非常广泛、通用的方式扩展推理计算,这种方式几乎适用于所有领域。这就是我加入OpenAI时感兴趣的东西。幸运的是,OpenAI的人们也对这个方向感兴趣。并且有一个非常强大的团队,我能够与他们一起工作来实现它。就是这样。我希望你们都喜欢它。

主持人Summer:  我想我有一个问题,你提到原始神经网络本身并不那么好,但是在其之上加上搜索,就会好得多。是什么阻止人们仅仅训练、从模型加上搜索结果中提取知识,再将其放回模型中,并反复迭代地继续这样做呢?你是否会在某个时刻达到一个平台期,还是不会?

Noam:  这是一个很好的问题。当我向人们宣传这个方向时,这是一个我经常得到的批评。我的回答是,如果你看看AlphaZero和AlphaGo在做什么,它正是这样做的。它进行搜索,找到策略,找到有效的行动,然后试图将这些行动提炼到原始神经网络中。证据表明,如果你只查看提炼所有这些规划和搜索的原始神经网络的性能差距,并将其与加上搜索的性能进行比较,那差异巨大。

主持人Summer:  所以根据经验,它目前还不能完全奏效。

Noam:  我的意思是,我并不是说这是不可能的,但我的意思是,如果你看看AlphaGo和AlphaZero,这是我的灵感来源之一,这正是算法所做的。而你无法将性能提炼到原始神经网络中。

主持人Summer:  很有意思。所以我想,如果你有一个更大、更强大的预训练模型,

Noam:  没错,是的。在我看来,这是一个模型容量问题。所以对此的回应是,好吧,你能弄个更大的模型吗?答案是肯定的。但是你需要多大的模型?你需要训练多长时间?所有事情都是可以完成的。我完全相信,你可以通过扩大预训练规模来实现超级智能。但你需要扩大多少规模?这就是挑战。

主持人Summer:  Jimmy,你仍然花费大量时间微调模型,所以我很好奇你对推理时间计算范式的看法。

Jimmy:  是的,我认为这太棒了。我想我们已经从压缩机器时代过渡到了思考机器时代。人们昨晚一直在问,让模型搜索和思考数百万个token需要什么?我认为你现在已经可以做到。你昨天或去年就已经可以做到。我的意思是,只是模型没有取得太大进展。这就是主要问题

我认为很多测试时的运行搜索可以被认为是在解决问题。如果你想解决问题,你愿意花多少计算资源来解决特定问题?专注于一个问题,而不是所有可能的问题非常重要。在压缩时代,我们向巨大的神经网络投入了难以置信的计算资源。然而,当在所有问题上摊销时,解决问题所需的实际计算资源接近于零。现在的挑战是如何让它非零。当然,你会看到巨大的提升——10倍、100倍,甚至10万倍的提升。

我认为这可能是正确的思考方式。如果你投入计算资源来解决问题,你想把这些计算资源导向哪里?我赞同Noam的观点,如果我们能很好地进行压缩,我们很可能会取得显著成果。之后我还有一个问题要问你,因为我认为压缩的直觉至关重要。顺便说一句,我是扑克工作的忠实粉丝。

你可以将测试时间可视化为你正在构建的树——注意它是线性的,并且由一堆单词组成。问题变成了:你需要多少来自基础模型的比特才能做出正确的决策并沿着正确的分支前进?你需要多少剩余熵来解决?在每个分支上,你对下一步都有很高的信心,而不是必须在两个选项之间进行选择。在这种情况下,你需要一个额外的比特的熵来解决,然后才能继续正确的路径。

如果我们从压缩路径考虑这个问题,你选择最佳轨迹并询问模型该轨迹的可能性,这会告诉你你有多少结果。你可能不需要计算所有单词,因为它们可能会因表面形式竞争而有所不同。相反,你关注的是模型有多少额外的交叉熵定律可以选择最佳推理链。也许在当前模型中,对于一个简单的玩具开关问题,还有大约四个比特剩余,而使用100倍的计算资源,可能只剩下两个比特。因此,100倍的计算资源可以帮助将模型正确识别分支的能力减半,如果你能够消除这种计算负担的话。

我遇到了一些具有挑战性的思考问题。那么,还剩下多少比特?你希望在预训练中解决这个问题,还是应该通过收集大量专门的数据来让模型能够回溯并纠正错误?此外,这种回溯可以修复多少比特?我的结论是你需要同时采用这两种方法。

我仍然相信,即使模型看起来很懒——要求它执行任务会导致它立即给出答案而无需深入思考——我认为模型内部存在一个需要引出的“爱因斯坦”。最好的预训练模型对于消除剩余比特至关重要,即使对于人类来说,在决定选择哪个搜索分支时,这些比特也很难识别。因此,你必须将最高质量的世界模型与预压缩模型结合起来,以细化剩余比特。

然后,你可以组建一个专家小组,为特定问题提供分支选择指导。通过记录他们的见解并相应地训练模型,你可以在测试时间内针对这些特定问题运行模型。这可能会导致指数级的改进——甚至可能是10万倍。所以这令人兴奋。

我有一个问题要问你:考虑到我们今天的知识,你认为我们能够构建O1的第一年是哪一年?

所有技术、内部运作、如何构建系统。考虑到我们拥有的计算能力,历史上我们甚至有机会尝试像O1这样的项目的第一年会是哪一年?

Noam:  哦,历史上。事实上,我认为这会是最近的事,因为,你知道,我认为,好吧,我认为O1真正强大的地方在于其通用性。我认为要获得这种通用性,你需要预训练才能达到一定的性能水平。所以我认为它不可能发生得早很多,仅仅是因为预训练将成为瓶颈。

Jimmy:  是的,我完全同意。这就像拥有最好的预训练模型的人将更容易解决搜索树中剩余的那些比特。而且现在我们有点像,你知道,也许你不认同,但我感觉我们仍然处于这个AlphaGo时代,AlphaGo的类似物就像你建立了脚手架系统。你可以运行它,但整个系统是由人类SFP引导和点燃的。然后,世界上某个角落可能有人正在认真思考如何构建这些系统的AlphaZero,而无需任何人类的点燃。

Noam:  我认为很多人都在思考这个问题,是的。

主持人Summer:  是的,哦,哇,我们的时间非常短。我们已经听取了Jimmy和Noam关于他们想法的很多内容。我认为也应该给你们一个机会,向观众征求一些你们希望看到的研究所需的内容,例如评估方法、基准测试或你们希望从观众那里看到更多不同研究方向的内容。如果你要说明一两点,你会选择哪些?谢谢。

Noam: 我认为当然是评估。我不知道你想不想谈论评估,但是,是的,我认为我看到的研究不足的一件事是关于社会影响的更多内容。我没有看到经济学家发表关于在一个拥有真正强大AI(特别是通用AI)的世界中经济是什么样子的研究。大规模推理计算成为一个主要因素的影响是什么?

我看到的大部分安全工作都假设了一个世界,在这个世界里,一切都与预训练有关。在这种情况下,你花费大量资金和计算资源进行预训练,然后推理可以忽略不计。例如,如果每个人都训练这个巨大的模型,那么理论上,每个人都可以访问权重,并且他们都可以利用这个超强大的模型。

然而,我认为如果推理缩放继续成为一条突出的前进道路,那么这个世界可能会改变。在这种情况下,推理计算最终会变得非常有价值。那么,在这个仅仅拥有权重还不够的世界里,情况会怎样呢?你还需要大量的推理能力来实际运行模型。我认为围绕这个问题有很多问题,以及如何构建事物以实现最佳可能的结果,我认为除了AI社区之外,我没有看到很多人真正考虑这个问题。我相信这将非常有价值。

主持人Summer:  此外,我认为政策研究更容易利用开源权重进行深入研究,并尽可能测量一切。但人们可能会以非常不同的方式使用它,对推理时间计算取平均值,而你实际上很难很好地预测整个系统的强大程度。

Noam:  是的,这当然意味着任何开源模型的强大程度都远超其原始模型能力的表面表现。

主持人Summer:  非常好的观点。

Jimmy:  我不知道。你们需要建立一个幽默排行榜。有趣的邪恶,有趣的邪恶。是的,没错。这是最重要的东西。今天的机器人太无聊了。科学家和原子笑话,就像,是的,那应该是核心场景。如果你那样做,就会扣1000分。

主持人Summer:  如果让模型讲笑话,现在每个人都可以尝试。它要么会重复那些已经存在且好笑的东西,要么会说一些完全不好笑的东西。

Jimmy:  不好笑。嗯,事实证明我们已经拥有了最好的、不断发展的幽默感。只需将我们最新的模型搬上舞台,看看它是否能引起轰动。这只是将其运作起来,以便我们都能参与其中。如果系统无法让人类发笑,那我们讨论什么呢?对齐。

主持人Summer:  是的,我想我们在SEAL确实构建了许多评估指标,我们有SEAL排行榜。我很想看看有多少观众举手,如果你希望在不久的将来看到一个幽默排行榜,请举手,让我们看看需求如何。好吧,好吧,我们会建一个。好的,好的,我们开始吧。好的,非常感谢Noam和Jimmy加入我们的会议。谢谢大家。

参考资料: https://www.youtube.com/watch?v=_m_GTV3XWQY,公开发表于2024-11-20

👇关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章