5万字访谈，Anthropic的CEO：AI离人类智慧还有多久？2027年或将见分晓！

文摘 2024-11-12 09:22 广东

2024.11.12

这是Dario Amodei最新的访谈，Dario作为Anthropic的CEO，展示了Anthropic对AI发展方向的清晰愿景，并解释了“缩放假设”如何推动了过去十年AI的进步，以及这一理论如何指向未来可能的AI超越人类智能的时刻。

以下是访谈中的几个核心观点和启示：

1. 缩放假设的力量与AI快速发展的潜力

Dario提出，自2014年以来，AI技术的“缩放假设”已经带来了明显的成效。通过增加模型的规模、数据量和训练时间，AI的表现呈现出指数式增长，仿佛具备一种“神奇力量”，在数据和计算能力充足的条件下，AI系统可以掌握越来越复杂的任务。Dario认为，按照当前的发展速度，AI可能在2026年或2027年达到甚至超越人类水平。虽然Dario也指出了一些可能放慢这个过程的因素，例如数据限制、计算成本以及现实中的复杂性，但总体趋势是让人类逐步接近超级智能AI的实现。

2. 模型扩展的哲学：平稳而非瞬间的奇点

Dario认为，AI的发展将是一条平稳的曲线，而不是一个“瞬间的奇点”。即便AI越来越智能，在许多任务上接近人类甚至超越人类，但它的实际应用还会受到现实世界的复杂性、人类制度的障碍和资源的限制。因此，他认为AI不会在瞬间“接管世界”，更可能在5到10年内对各行业带来系统性、逐步的影响。Dario认为，关键在于如何在AI达到“超级智能”前做好预防措施，并持续推动对AI的安全和道德规范，防止潜在的“失控”风险。

访谈目录：

AI 即将大爆发？
AI 巨头间的爱恨情仇
Claude：你爱它也恨它：
AI 安全：如何避免世界末日？
AI 用电脑，还要抢程序员饭碗？
政府应该管管 AI 吗？
揭秘 Anthropic 梦之队
训练 AI 的独家秘方
AI 时代，人生还有意义吗？
AI 医疗：长生不老不是梦？

以下是访谈内容：

缩放定律

Lex Fridman：让我们从缩放定律和缩放假设这个大概念开始。它是什么？它的历史是什么，我们今天站在哪里？

Dario Amodei：我只能根据自己的经验来描述它，但我已经在 AI 领域工作了大约 10 年，这是我很早就注意到的事情。我第一次加入 AI 世界是在 2014 年底，当时我在百度与吴恩达一起工作，那几乎是 10 年前了。我们做的第一件事是语音识别系统。在那些日子里，我认为深度学习是一件新鲜事。它取得了很多进展，但每个人总是说，“我们没有成功所需的算法。我们只匹配了一小部分。我们需要在算法上发现很多东西。我们还没有找到如何匹配人脑的图景。”在某些方面，我很幸运，你可以拥有几乎是新手的运气。我是这个领域的新手。我看着我们用于语音的循环神经网络，我说，“我不知道，如果你把它们做得更大，给它们更多层会怎么样？如果你也扩大数据规模会怎么样？”我只是把这些看作可以独立转动的刻度盘。我注意到，随着你给模型更多的数据，随着你使模型更大，随着你训练它们的时间更长，模型开始做得越来越好。在那些日子里，我没有精确地测量事情，但与同事一起，我们非常非正式地感觉到，投入到这些模型中的数据越多，计算量越多，训练越多，它们的性能就越好。所以最初我的想法是，“嘿，也许这仅适用于语音识别系统。也许这只是一个特殊的怪癖，一个特殊的领域。”直到 2017 年我第一次看到 GPT-1 的结果时，我才恍然大悟，语言可能是我们可以做到这一点的领域。我们可以获得数万亿字的语言数据，我们可以对其进行训练。当时我们训练的模型很小。你可以在一到八个 GPU 上训练它们，而现在我们在数万个 GPU 上训练作业，很快就会达到数十万个 GPU。所以当我看到这两件事在一起时，有一些人像你采访过的 Ilya Sutskever，他们有类似的观点。他可能是第一个，尽管我认为有几个人大约在同一时间得出了类似的观点，对吧？有 Rich Sutton 的惨痛教训，Gwern 写了关于缩放假设的文章。但我认为在 2014 年到 2017 年之间的某个时候，我真正顿悟了，我真正相信，“嘿，如果我们只是扩大模型的规模，我们将能够完成这些令人难以置信的广泛认知任务。”在每个缩放阶段，总是有争论。当我第一次听到它们时，老实说，我想，“可能是我错了，所有这些领域的专家都是对的。他们比我更了解情况，对吧？”有乔姆斯基关于“你可以获得句法，但你不能获得语义”的论点。有这样的想法，“哦，你可以让一个句子有意义，但你不能让一个段落有意义。”我们今天最新的说法是，“我们将耗尽数据，或者数据质量不够高，或者模型无法推理。”每次，每次，我们都设法找到解决方法，或者缩放就是解决方法。有时是其中之一，有时是另一个。所以我到了这个地步，我仍然认为它总是很不确定的。除了归纳推理之外，我们没有任何东西可以告诉我们，未来两年将像过去 10 年一样。但我已经看过这部电影很多次了，我已经看过这个故事发生过很多次了，我真的相信缩放可能会继续下去，并且它有一些我们还没有在理论基础上真正解释的魔力。

Lex Fridman：当然，这里的缩放是指更大的网络、更大的数据、更大的计算量？

Dario Amodei：是的。

Lex Fridman：所有这些？

Dario Amodei：特别是更大网络、更长训练时间和更多数据的线性扩展。所以所有这些东西，几乎就像一个化学反应，你在化学反应中有三种成分，你需要线性地扩大这三种成分。如果你扩大其中一个，而不是其他两个，你就会耗尽其他试剂，反应就会停止。但是如果你按顺序扩大所有东西，那么反应就可以进行。

Lex Fridman：当然，既然你有了这种经验科学/艺术，你就可以把它应用到其他更细微的东西上，比如应用于可解释性的缩放定律或应用于训练后的缩放定律。或者只是看看这个东西是如何缩放的。但是大的缩放定律，我猜想潜在的缩放假设与大网络、大数据导致智能有关？

Dario Amodei：是的，我们在语言以外的许多领域都记录了缩放定律。因此，最初我们在 2020 年初发表的论文首先展示了它，我们首先展示了它用于语言。然后在 2020 年后期有一些工作，我们展示了其他模态的相同内容，如图像、视频、文本到图像、图像到文本、数学。它们都具有相同的模式。你是对的，现在还有其他阶段，比如训练后，或者有新型的推理模型。在我们测量过的所有这些情况下，我们都看到了类似类型的缩放定律。

Lex Fridman：这是一个有点哲学的问题，但是你对网络规模和数据规模越大越好的直觉是什么？为什么它会导致更智能的模型？

Dario Amodei：在我以前的生物物理学家职业生涯中……我本科学习物理，研究生学习生物物理。所以我回想起我作为物理学家的知识，这实际上比我在 Anthropic 的一些同事的物理学专业知识要少得多。有一个叫做 1/f 噪声和 1/x 分布的概念，通常，就像你把一堆自然过程加起来，你会得到一个高斯分布，如果你把一堆不同分布的自然过程加起来……如果你拿一个探针把它连接到一个电阻器上，电阻器中热噪声的分布与频率成反比。这是一种自然的收敛分布。我认为这相当于，如果你看一下由许多不同尺度的自然过程产生的许多东西，不是高斯分布，它是一种窄分布，但是如果我看一下导致电噪声的大波动和小波动，它们具有这种衰减的 1/x 分布。所以我想到物理世界或语言中的模式。如果我想到语言中的模式，有一些非常简单的模式，有些词比其他词更常见，比如 the。然后是基本的动词结构。然后是名词和动词必须一致的事实，它们必须协调。还有更高级别的句子结构。然后是段落的主题结构。所以，存在这种回归结构的事实，你可以想象，随着你使网络更大，它们首先捕获了非常简单的相关性，非常简单的模式，并且还有很长的其他模式的尾巴。如果其他模式的长尾像物理过程中电阻器中的 1/f 噪声一样平滑，那么你可以想象，随着你使网络更大，它正在捕获越来越多的该分布。这种平滑性反映在模型的预测能力和性能上。语言是一个进化过程。我们已经发展了语言，我们有常用词和不常用词。我们有常用的表达方式和不常用的表达方式。我们有经常表达的想法、陈词滥调，我们也有新颖的想法。这个过程已经发展，已经与人类一起进化了数百万年。所以猜测，这纯粹是推测，是这些想法的分布存在某种长尾分布。

Lex Fridman：所以有长尾，但也有你正在建立的概念层次结构的高度。因此，网络越大，大概你就有更高的能力来——

Dario Amodei：没错。如果你有一个小网络，你只会得到常见的东西。如果我拿一个很小的神经网络，它很擅长理解一个句子必须有动词、形容词、名词，但它不擅长决定这些动词、形容词和名词应该是什么，以及它们是否应该有意义。如果我把它做得更大一点，它就擅长了，然后突然它就擅长句子了，但它不擅长段落。因此，随着我向网络添加更多容量，这些更稀有和更复杂的模式会被拾取。

LLM 缩放的限制

Lex Fridman：那么自然的问题是，这有什么上限？

Dario Amodei：是的。

Lex Fridman：现实世界有多复杂？有多少东西需要学习？

Dario Amodei：我认为我们没有人知道这个问题的答案。我强烈的直觉是，在人类水平以下没有上限。我们人类能够理解这些各种模式。因此，这让我认为，如果我们继续扩大这些模型的规模，以开发训练它们和扩大它们规模的新方法，那我们将至少达到我们人类已经达到的水平。然后有一个问题是，比人类理解的更多多少是可能的？比人类更聪明、更有洞察力多少是可能的？我猜答案必须取决于领域。如果我看一下生物学领域，我写过这篇文章，《慈爱的恩典机器》，在我看来，人类正在努力理解生物学的复杂性。如果你去斯坦福大学、哈佛大学或伯克利大学，你会看到整个系的人都在努力研究免疫系统或代谢途径，每个人都只了解其中的一小部分，专门研究其中的一部分。他们正在努力将他们的知识与其他人的知识结合起来。所以我的直觉是，在顶层还有很多空间让 AI 变得更聪明。如果我想到物理世界中的材料之类的东西，或者解决人与人之间的冲突之类的东西，我的意思是，有些问题并非无法解决，但要困难得多。在某些事情上，你可能只能做得这么好。就像语音识别一样，我只能听到你的讲话这么清晰。所以我认为在某些领域，可能存在非常接近人类所做的事情的上限。在其他领域，这些上限可能非常遥远。我认为只有当我们构建这些系统时，我们才会发现。事先很难知道。我们可以推测，但我们不能确定。

Lex Fridman：正如你所写，在某些领域，上限可能与人类官僚机构之类的东西有关。

Dario Amodei：是的。

Lex Fridman：所以人类必须从根本上成为循环的一部分。这是上限的原因，而不是智力极限的原因。

Dario Amodei：是的，我认为在许多情况下，理论上，技术可以变化得非常快。例如，我们可能在生物学方面发明的所有东西，但请记住，我们必须经历一个临床试验系统才能真正将这些东西应用于人类。我认为这是不必要的官僚主义和保护社会完整性的混合体。整个挑战在于很难分辨出发生了什么。很难分辨哪个是哪个。我认为就药物开发而言，我的观点是，我们太慢了，太保守了。但当然，如果你把这些事情搞错了，就有可能因为太鲁莽而危及人们的生命。所以至少其中一些人类机构实际上是在保护人们。所以这一切都是为了找到平衡。我强烈怀疑，这种平衡更倾向于希望事情发生得更快，但确实存在平衡。

Lex Fridman：如果我们确实达到了极限，如果我们确实在缩放定律中遇到了减速，你认为原因是什么？是计算受限、数据受限吗？是其他的东西吗？想法受限？

Dario Amodei：所以有几件事，现在我们谈论的是在我们达到人类水平和人类技能之前达到极限。所以我认为今天流行的一个，我认为可能是我们遇到的一个限制，就像大多数限制一样，我会打赌它不会发生，但它绝对是可能的，是我们根本就没有数据了。互联网上的数据是有限的，而且数据质量也存在问题。你可以在互联网上获得数百万亿字，但其中很多是重复的，或者是搜索引擎优化的废话，或者将来甚至可能是由 AI 生成的文本。所以我认为这种方式产生的东西是有限的。也就是说，我们，我猜想其他公司也在努力使数据合成，你可以使用模型来生成更多你已经拥有的类型的数据，甚至从头开始生成数据。如果你想想 DeepMind 的 AlphaGo Zero 所做的，他们设法让一个机器人从完全没有玩围棋的能力到达到高于人类的水平，只需与自己对抗即可。在 AlphaGo Zero 版本中不需要来自人类的示例数据。当然，另一个方向是这些推理模型，它们会进行思维链并停下来思考和反思自己的思维。在某种程度上，这是另一种合成数据与强化学习相结合。所以我猜想用其中一种方法，我们将绕过数据限制，或者可能有其他数据源可用。我们可以观察到，即使数据没有问题，随着我们开始扩大模型的规模，它们也只会停止变得更好。它们变得更好似乎是一个可靠的观察结果，它可能在某个时候因为我们不理解的原因而停止。答案可能是我们需要发明一些新的架构。过去在模型的数值稳定性方面存在一些问题，看起来好像事情正在趋于平稳，但实际上，当我们找到了正确的解除障碍因素时，它们并没有这样做。所以也许有一些新的优化方法或一些我们需要解除障碍的新技术。到目前为止，我还没有看到这方面的证据，但如果事情放缓，那可能是一个原因。

Lex Fridman：计算的限制，即构建越来越大的数据中心的昂贵性质，又如何呢？

Dario Amodei：所以现在，我认为大多数前沿模型公司，我猜，都在大约 10 亿美元的规模上运营，正负三倍。这些是现在存在或正在训练的模型。我认为明年我们将达到几十亿美元，然后到 2026 年，我们可能会超过 100 亿美元。到 2027 年，他们可能雄心勃勃地构建千亿美元的集群。我认为所有这些实际上都会发生。在这个国家内构建计算能力的决心很大，我猜想它确实会发生。现在，如果我们达到千亿美元，那仍然没有足够的计算能力，仍然没有足够的规模，那么要么我们需要更大的规模，要么我们需要开发一些更有效地做到这一点的方法来改变曲线。我认为在所有这些因素中，我之所以看好强大的 AI 会如此迅速地出现，原因之一是，如果你推断曲线上的接下来的几个点，我们很快就会接近人类水平的能力。我们开发的一些新模型，一些来自其他公司的推理模型，它们开始达到我所说的博士或专业水平。如果你看一下它们的编码能力，我们发布的最新模型 Sonnet 3.5，新的或更新的版本，它在 SWE-bench 上的得分约为 50%。SWE-bench 是一系列专业的现实世界软件工程任务的示例。在今年年初，我认为最先进的技术是 3% 或 4%。因此，在 10 个月内，我们在这项任务上的得分从 3% 上升到了 50%。我认为再过一年，我们可能会达到 90%。我的意思是，我不知道，但可能甚至不到那么长时间。我们在像 OpenAI 的 o1 这样的模型中看到了类似的研究生水平的数学、物理和生物学。因此，如果我们继续根据我们拥有的技能推断这一点，我认为如果我们推断直线曲线，那么在几年内，我们将使这些模型在人类方面高于最高的专业水平。现在，这条曲线会继续下去吗？你已经指出，我已经指出了许多可能不会发生的原因。但如果外推曲线继续下去，那就是我们所处的轨迹。

与 OpenAI、Google、xAI、Meta 的竞争

Lex Fridman：所以 Anthropic 有几个竞争对手。了解你对这一切的看法会很有趣。OpenAI、Google、xAI、Meta。在广义上赢得这个领域需要什么？

Dario Amodei：是的，所以我想区分几件事，对吧？Anthropic 的使命是努力让这一切顺利进行。我们有一种叫做“竞相登顶”的变革理论。“竞相登顶”是指通过树立榜样来推动其他参与者做正确的事情。这与做好人无关，而是要建立一个环境，让我们所有人都能成为好人。我将举几个例子。在 Anthropic 的早期，我们的联合创始人之一 Chris Olah，我相信你很快就会采访他，他是机械可解释性领域的联合创始人，这是试图理解 AI 模型内部发生了什么。所以我们让他和我们早期的团队之一专注于这个可解释性领域，我们认为这有利于使模型安全和透明。三四年来，这没有任何商业应用。现在仍然没有。今天我们正在进行一些早期测试，它最终可能会实现，但这是一个非常非常长的研究床，我们公开构建并公开分享我们的结果。我们这样做是因为我们认为这是一种使模型更安全的方法。有趣的是，随着我们这样做，其他公司也开始这样做了。在某些情况下，因为他们受到了启发，在某些情况下，因为他们担心如果其他公司这样做，看起来更负责任，他们也希望看起来更负责任。没有人想看起来像不负责任的演员。所以他们也采用了这种方法。当人们来到 Anthropic 时，可解释性通常是一个吸引人的地方，我告诉他们，“你没有去的其他地方，告诉他们你为什么来这里。”然后你很快就会看到其他地方也有可解释性团队。在某种程度上，这带走了我们的竞争优势，因为这就像，“哦，现在其他人也在做同样的事情。”但这对更广泛的系统有好处，所以我们必须发明一些我们正在做的其他人没有做的事情。希望是基本上提高做正确事情的重要性。这与我们无关。这与拥有一个特定的好人无关。其他公司也可以这样做。如果他们加入这场竞赛，那就是最好的消息。这是关于塑造向上激励而不是向下激励。

Lex Fridman：我们应该说，机械可解释性领域的这个例子是一个严谨的、非空洞的做 AI 安全的方法——

Dario Amodei：是的。

Lex Fridman：或者它正在趋向于这种方式。

Dario Amodei：正在努力。我的意思是，我认为就我们看到事物的能力而言，我们还处于早期阶段，但我对我们能够深入了解这些系统并理解我们所看到的东西感到惊讶。与缩放定律不同，缩放定律感觉像是有某种规律正在推动这些模型表现得更好，在内部，模型并不是……没有理由它们应该被设计成让我们理解它们，对吧？它们被设计成运行，它们被设计成工作。就像人脑或人类生物化学一样。它们不是为了让人类打开舱口，观察内部并理解它们而设计的。但是我们已经发现，当你打开它们时，当我们确实观察它们的内部时，我们发现了令人惊讶的有趣的东西，你可以更详细地与 Chris 谈论这一点。

Lex Fridman：作为副作用，你还可以看到这些模型的美。你可以通过 MEC 和 TERP 之类的方法来探索大型神经网络的美妙性质。

Dario Amodei：我对它的干净程度感到惊讶。我对像感应头这样的东西感到惊讶。我对我们能够使用稀疏自动编码器在网络中找到这些方向感到惊讶，并且这些方向对应于这些非常清晰的概念。我们用金门大桥克劳德演示了这一点。这是一个实验，我们在其中一个神经网络层中找到了一个对应于金门大桥的方向。我们只是把它调高了。所以我们发布了这个模型作为演示，这有点像个玩笑，持续了几天，但它说明了我们开发的方法。你可以拿这个模型，你可以问它任何问题。就像你可以说，“你今天过得怎么样？”而你问的任何问题，因为这个特征被激活了，它都会与金门大桥联系起来。所以它会说，我感觉很放松，很开阔，就像金门大桥的拱门一样，或者——

Lex Fridman：它会巧妙地改变话题，转向金门大桥并将其整合进去。它对金门大桥的关注也有一种悲伤。我认为人们很快就爱上了它。所以人们已经想念它了，因为它在一天后就被下架了，我想。

Dario Amodei：不知何故，这些对模型的干预，你调整了它的行为，不知何故在情感上使它看起来比模型的任何其他版本都更像人类。

Lex Fridman：它有很强的个性，很强的身份认同。

Dario Amodei：它有很强的个性。它有这些痴迷的兴趣。我们都能想到某个痴迷于某事的人。所以它确实让它感觉更像人类。

Claude

Lex Fridman：让我们谈谈现在。让我们谈谈 Claude。今年发生了很多事情。3 月，Claude 3 Opus、Sonnet 和 Haiku 发布。然后是 7 月的 Claude 3.5 Sonnet，刚刚发布了一个更新版本。然后还发布了 Claude 3.5 Haiku。好的。你能解释一下 Opus、Sonnet 和 Haiku 之间的区别吗？我们应该如何看待不同的版本？

Dario Amodei：是的，让我们回到 3 月，我们第一次发布这三个模型的时候。我们的想法是，不同的公司生产大大小小的模型，有好有坏。我们认为，市场需要一个真正强大的模型，它可能有点慢，你需要为此付出更多，也需要快速、便宜的模型，它们在速度和价格方面尽可能地智能。每当你想做某种困难的分析时，比如我想写代码，或者我想集思广益，或者我想做创意写作，我想要真正强大的模型。但是有很多实际应用在商业意义上，比如我正在与一个网站交互，我正在纳税，或者我正在与法律顾问交谈，我想分析一份合同。或者我们有很多公司，就像我想在我的 IDE 上做自动完成或其他什么。对于所有这些事情，你希望快速行动，并且希望非常广泛地使用模型。所以我们希望满足所有这些需求。所以我们最终想到了这个诗歌主题。那么什么是非常短的诗？俳句。俳句是当时的小型、快速、廉价的模型，它在速度和价格方面都非常智能，令人惊讶。十四行诗是一种中等大小的诗，写几段。所以十四行诗是中间模型。它更智能，但也稍微慢一点，稍微贵一点。而 Opus，就像一部巨著，Opus 是当时最大、最智能的模型。所以这就是它背后的最初想法。然后我们的想法是，“好吧，每一代新模型都应该改变权衡曲线。”所以当我们发布 Sonnet 3.5 时，它的成本和速度与 Sonnet 3 模型大致相同，但它的智能提高到了比原始 Opus 3 模型更智能的地步。特别是对于代码，但也只是一般而言。现在我们已经展示了 Haiku 3.5 的结果。我相信 Haiku 3.5，这个最小的新模型，与 Opus 3，最大的旧模型一样好。所以这里的目标是改变曲线，然后在某个时候会有一个 Opus 3.5。现在，每一代新模型都有自己的东西。它们使用新的数据，它们的个性以我们试图引导但无法完全引导的方式发生变化。所以从来没有完全等同，你唯一改变的是智能。我们总是试图改进其他事情，有些事情在我们不知不觉或没有测量的情况下发生变化。所以这在很大程度上是一门不精确的科学。在许多方面，这些模型的举止和个性更像一门艺术，而不是一门科学。

Opus 3.5

Lex Fridman：那么，Claude Opus 3.0 和 3.5 之间的时间跨度的原因是什么？如果可以的话，你能谈谈这需要多长时间吗？

Dario Amodei：是的，所以有不同的过程。有预训练，这只是普通的语言模型训练。这需要很长时间。这些天，它使用数万个，有时是数十万个 GPU 或 TPU 或训练它们，或者我们使用不同的平台，但加速器芯片，通常训练数月。然后有一个训练后阶段，我们进行人类反馈强化学习以及其他类型的强化学习。这个阶段现在越来越大，而且通常它不是一门精确的科学。通常需要努力才能做好。然后，模型会与我们的一些早期合作伙伴进行测试，以查看它们有多好，然后在内部和外部对其安全性进行测试，特别是针对灾难性和自主性风险。所以我们根据我们的负责任扩展政策进行内部测试，我可以更详细地谈谈这一点。然后，我们与美国和英国人工智能安全研究所以及特定领域的第三方测试人员达成协议，以测试模型的 CBRN 风险，即化学、生物、放射和核风险。我们认为模型目前还没有构成这些风险的严重威胁，但我们希望评估每个新模型，以查看我们是否开始接近其中一些更危险的功能。所以这些是阶段，然后让模型在推理方面工作并在 API 中启动它需要一些时间。所以让模型工作实际上有很多步骤。当然，我们总是试图使流程尽可能精简。我们希望我们的安全测试是严谨的，但我们希望它是严谨的，并且是自动的，尽可能快地发生，而不影响严谨性。我们的预训练过程和训练后过程也是如此。所以这就像构建其他东西一样。就像制造飞机一样。你想让它们安全，但你想让流程精简。我认为这两者之间的创造性张力是使模型工作的重要因素。

Lex Fridman：是的，坊间传闻，我忘了是谁说的，Anthropic 有非常好的工具。所以可能很多挑战在这里，在软件工程方面，是构建工具以与基础设施进行高效、低摩擦的交互。

Dario Amodei：你会惊讶于构建这些模型的挑战有多少归结于软件工程、性能工程。从外部来看，你可能会想，“哦，伙计，我们有了这个尤里卡式的突破。”你知道，这部关于科学的电影。“我们发现了它，我们想出了它。”但我认为所有的事情，即使是令人难以置信的发现，它们几乎总是归结于细节。而且通常是超级超级无聊的细节。我不能说我们是否有比其他公司更好的工具。我的意思是，我没有在其他公司工作过，至少最近没有，但这肯定是我们非常关注的事情。

Lex Fridman：我不知道你是否能说，但从 Claude 3 到 Claude 3.5，是否有任何额外的预训练，还是主要集中在训练后？性能有了飞跃。

Dario Amodei：是的，我认为在任何阶段，我们都专注于同时改进所有内容。很自然。就像，有不同的团队。每个团队都在特定领域取得进展，使他们在接力赛中的特定部分变得更好。当我们制作一个新模型时，我们同时将所有这些东西都放进去，这很自然。

Lex Fridman：那么你拥有的数据，你从 RLHF 获得的偏好数据，有没有办法将它应用于更新的模型，因为它已经被训练好了？

Dario Amodei：是的。来自旧模型的偏好数据有时会被用于新模型，尽管当然，当它在新模型上进行训练时，它的性能会更好。请注意，我们有这种宪法性 AI 方法，因此我们不仅使用偏好数据，还有一个训练后过程，我们将模型与自身进行对抗训练。每天都有新的类型的模型与自身进行对抗训练的方法。所以它不仅仅是 RLHF，还有一堆其他方法。我认为，训练后正变得越来越复杂。

Sonnet 3.5

Lex Fridman：是什么解释了新的 Sonnet 3.5 的性能飞跃，我的意思是，至少在编程方面？也许这是一个谈论基准的好地方。变得更好意味着什么？只是数字上升了，但我编程，我也喜欢编程，我通过 Cursor 使用 Claude 3.5 来帮助我编程。而且，至少根据经验，轶事地说，它在编程方面变得更智能了。那么让它变得更智能需要什么？

Dario Amodei：我们也观察到了这一点。顺便说一句，Anthropic 这里有几个非常强大的工程师，他们之前所有的代码模型，无论是我们生产的还是所有其他公司生产的，对他们来说都没有真正有用。他们说，“也许这对初学者有用。但对我来说没用。”但是 Sonnet 3.5，第一个，他们说，“哦，我的天哪，这帮助我完成了一件本来要花我几个小时的事情。这是第一个真正节省我时间的模型。”所以，水位线正在上升。然后我认为新的 Sonnet 更好。就它需要什么而言，我只会说它一直都在。它在预训练中，它在训练后中，它在我们进行的各种评估中。我们也观察到了这一点。如果我们深入研究基准测试的细节，SWE-bench 基本上是……由于你是一名程序员，你将熟悉拉取请求，以及拉取请求，它们就像一个工作原子单元。你可以说我正在实现一件事。所以 SWE-bench 实际上给你一个现实世界的情况，代码库处于当前状态，我正在尝试实现用语言描述的东西。我们有内部基准，我们测量相同的事情，你说，“让模型自由地做任何事情，运行任何事情，编辑任何事情。它能够多好地完成这些任务？”正是这个基准测试从“它可以完成 3% 的时间”变成了“它可以完成大约 50% 的时间”。所以我确实相信你可以获得基准测试，但我认为如果我们以一种没有过度训练或针对该特定基准测试的方式达到该基准测试的 100%，则可能代表编程能力的真正和严重的提高。我怀疑如果我们能够达到 90%、95%，它将代表自主完成大部分软件工程任务的能力。

Lex Fridman：荒唐的时间线问题。Claude Opus 3.5 什么时候推出？

Dario Amodei：我不会给你一个确切的日期，但据我们所知，计划仍然是推出 Claude 3.5 Opus。

Lex Fridman：我们会在 GTA 6 之前得到它吗？

Dario Amodei：像永远的毁灭公爵？

Lex Fridman：永远的毁灭公爵。对。

Dario Amodei：那是什么游戏？有一个游戏被推迟了 15 年。

Lex Fridman：没错。我认为 GTA 现在只是在发布预告片。

Dario Amodei：我们发布第一个 Sonnet 才三个月。

Lex Fridman：是的，这是令人难以置信的发布速度。

Dario Amodei：这只是告诉你速度，对事物何时发布的期望。

Claude 4.0

Lex Fridman：那么 4.0 呢？你认为随着这些模型越来越大，版本控制以及一般的版本控制会如何？为什么 Sonnet 3.5 更新了日期？为什么不是 Sonnet 3.6，很多人这么称呼它？

Dario Amodei：命名实际上是一个有趣的挑战，对吧？因为我认为一年前，大多数模型都是预训练的。所以你可以从头开始，然后说，“好的，我们将拥有不同大小的模型。我们将一起训练它们，我们将有一系列命名方案，然后我们将加入一些新的魔法，然后我们将拥有下一代。”当其中一些模型的训练时间比其他模型长得多时，麻烦就开始了。这已经打乱了你一点时间。但是，当你对预训练进行重大改进时，你突然注意到，“哦，我可以制作更好的预训练模型。”这不需要很长时间就能完成，但显然它与之前的模型具有相同的大小和形状。所以我认为这两个因素以及时间问题。你提出的任何方案，现实往往会挫败该方案，对吧？它往往会打破方案。这不像软件，你可以说，“哦，这是 3.7，这是 3.8。”不，你有具有不同权衡的模型。你可以更改模型中的某些内容，你可以更改其他内容。有些推理速度更快，有些推理速度更慢。有些必须更贵，有些必须更便宜。所以我认为所有公司都在为此苦苦挣扎。我认为当我们有 Haiku、Sonnet 和 Opus 时，我们在命名方面处于有利地位。

Lex Fridman：这是一个很棒的开始。

Dario Amodei：我们正在努力维持它，但它并不完美，所以我们将尝试回到简单性。但我感觉这个领域的本质是，没有人想出命名方法。它在某种程度上与普通软件的范式不同，所以没有一家公司在这方面做得完美。与训练模型的宏伟科学相比，这是我们令人惊讶地苦苦挣扎的事情。

Lex Fridman：所以从用户方面来说，更新后的 Sonnet 3.5 的用户体验与之前的 2024 年 6 月的 Sonnet 3.5 不同。最好能想出某种标签来体现这一点。因为人们谈论 Sonnet 3.5，但现在有一个不同的版本。那么，当有明显的改进时，你如何指代前一个和新一个呢？这使得关于它的对话变得具有挑战性。

Dario Amodei：是的，是的。我绝对认为模型有很多属性没有反映在基准测试中。我认为情况确实如此，每个人都同意。并非所有这些都是能力。模型可以是礼貌的，也可以是粗鲁的，它们可以是非常被动的，也可以是问你问题的。它们可以具有感觉温暖的个性或冷酷的个性。它们可以是无聊的，也可以是非常独特的，就像金门大桥克劳德一样。我们有一个完整的团队专注于，我认为我们称之为克劳德角色。Amanda 领导该团队，并将与你讨论这个问题，但这仍然是一门非常不精确的科学，而且我们经常发现模型具有我们不知道的属性。事实上，你可以与一个模型交谈 10,000 次，但有些行为你可能看不到，就像人类一样，对吧？我可以认识一个人几个月，却不知道他们有某种技能，或者不知道他们有某种一面。所以我认为我们只需要习惯这个想法。我们一直在寻找更好的方法来测试我们的模型，以展示这些功能，并决定我们希望模型拥有哪些个性属性，哪些不希望拥有。这本身，规范性问题，也超级有趣。

对 Claude 的批评

Lex Fridman：我必须问你一个来自 Reddit 的问题。

Dario Amodei：来自 Reddit？哦，天哪。

Lex Fridman：这对我来说至少是一个迷人的心理社会现象，人们报告说 Claude 对他们来说随着时间的推移变得越来越笨了。所以问题是，用户抱怨 Claude 3.5 Sonnet 变笨的抱怨是否有道理？所以这些轶事报道是一种社会现象，还是在某些情况下 Claude 会变笨？

Dario Amodei：所以这实际上并不适用。这不仅仅是关于 Claude 的。我相信我已经看到过对主要公司生产的每个基础模型的这些抱怨。人们对 GPT-4 这么说，他们对 GPT-4 Turbo 也这么说。所以有几件事。第一，模型的实际权重，模型的实际大脑，除非我们引入一个新模型，否则它不会改变。有很多原因使得随机替换新版本的模型在实践中没有意义。从推理的角度来看，这很困难，而且实际上很难控制更改模型权重的所有后果。假设你想微调模型，我不知道，少说“当然”，这是旧版 Sonnet 过去会做的事情。你实际上最终还会更改 100 件事情。所以我们有一个完整的流程，我们有一个完整的修改模型的流程。我们对它进行了一系列测试。我们对早期客户进行了一系列用户测试。所以我们从来没有在不告诉任何人的情况下更改过模型的权重。当然，在目前的设置中，这样做没有意义。现在，我们偶尔会做几件事。一是我们有时会进行 A/B 测试，但这些测试通常非常接近模型发布的时间，并且时间非常短。所以在新 Sonnet 3.5 发布的前一天，我同意我们应该有一个更好的名字。用它来指代它很笨拙。有人评论说它变得好多了，这是因为一小部分人在这两三天里接触到了 A/B 测试。另一个是系统提示偶尔会更改。系统提示会有一些影响，尽管它不太可能使模型变笨，不太可能使它们变笨。我们已经看到，虽然我列出的这两件事很少发生，但对我们和其他模型公司关于模型变化的抱怨，模型不擅长于此，模型被审查得更多了，模型被弱智化了。这些抱怨是不间断的，所以我不想说人们在想象它或其他什么，但模型在大多数情况下没有改变。如果我要提供一个理论，我认为它实际上与我之前说过的一件事有关，那就是模型非常复杂，有很多方面。所以通常，如果我问模型一个问题，如果我说，“做任务 X”与“你能做任务 X 吗？”，模型可能会以不同的方式响应。所以，你可以改变与模型交互的方式的各种细微之处，可以给你带来非常不同的结果。需要明确的是，这本身就是我们和其他模型提供商的失败，因为模型通常对措辞的细微变化很敏感。这只是这些模型如何工作的科学非常不发达的另一种方式。所以，如果我某天晚上睡觉，我以某种方式与模型交谈，我稍微改变了与模型交谈的措辞，我可能会得到不同的结果。所以这是一种可能的方式。另一件事是，伙计，这东西很难量化。这东西很难量化。我认为人们对新模型出来时非常兴奋，然后随着时间的推移，他们会非常清楚它们的局限性。所以这可能是另一种效应，但这一切都是一种非常冗长的说法，在大多数情况下，除了一些相当狭窄的例外，模型没有改变。

Lex Fridman：我认为有一种心理效应。你只是开始习惯它，基线提高了。当人们第一次在飞机上使用 Wi-Fi 时，它令人惊叹，神奇。

Dario Amodei：这太神奇了。是的。

Lex Fridman：然后你开始——

Dario Amodei：现在我想，“我无法让这东西工作。这真是个垃圾。”

Lex Fridman：没错。所以很容易有这样的阴谋论，“他们让 Wi-Fi 越来越慢。”这可能是我会和 Amanda 更多地谈论的事情，但另一个 Reddit 问题是，“Claude 什么时候会停止试图成为我纯洁的触手奶奶，将它的道德世界观强加给我这个付费客户？还有，让 Claude 过于道歉的心理是什么？”所以这是关于体验的报告，对挫折感的一个不同角度。

Dario Amodei：是的，关于这一点，首先有几点。一是人们在 Reddit 和 Twitter 或 X 或其他任何地方所说的东西，实际上在人们在社交媒体上大声抱怨的东西与实际统计上用户关心和驱动人们使用模型的东西之间存在巨大的分布差异。人们对模型没有写出所有代码或模型的代码能力不如它应有的那么好感到沮丧，即使它是世界上最好的代码模型。我认为大多数事情都与此有关，但当然有一小部分人大声疾呼地提出了这些担忧，对模型拒绝它不应该拒绝的事情或过于道歉或只是有这些烦人的口头禅感到沮丧。第二个警告，我只想非常清楚地说出来，因为我认为有些人不知道，有些人知道，但忘了它。很难全面控制模型的行为。你不能只是伸出手说，“哦，我希望模型少道歉。”你可以做到这一点。你可以包含训练数据，上面写着，“哦，模型应该少道歉。”但在其他一些情况下，它们最终会以误导人们的方式变得非常粗鲁或过于自信。所以存在所有这些权衡。例如，另一件事是，如果在一段时间内，模型，我们的模型，我认为其他公司的模型也是如此，过于冗长，它们会重复自己，它们会说得太多。你可以通过惩罚模型说话时间过长来减少冗长。如果你以一种粗略的方式这样做，当模型编写代码时，有时它们会说，“其余的代码在这里”，对吧？因为它们已经学会了，这是经济的方式，它们看到了。然后这会导致模型在编码中变得所谓的懒惰，它们只是说，“啊，你可以完成剩下的部分。”这不是因为我们想节省计算量，也不是因为模型在寒假期间懒惰，或者其他任何出现的阴谋论。实际上，只是很难控制模型的行为，在所有情况下同时引导模型的行为。这就像打地鼠一样，你推一件事，其他一些你也可能没有注意到或测量的事情也开始移动。所以我如此关心这些人工智能系统在未来的宏伟对齐的原因之一实际上是，这些系统实际上是相当不可预测的。它们实际上很难引导和控制。我们今天看到的这个版本，你让一件事变得更好，它会让另一件事变得更糟，我认为这就像未来人工智能系统控制问题的当今模拟，我们可以从今天开始研究。我认为引导行为并确保如果我们将人工智能系统推向一个方向，它不会以我们不想要的其他方式推向另一个方向的难度。我认为这是未来事情的早期迹象，如果我们能够很好地解决这个问题，你要求模型制造和分发天花，它说不行，但它愿意在你的研究生水平的病毒学课程中帮助你，我们如何同时获得这两件事？这很难。很容易走到一边或另一边，这是一个多维问题。所以我认为塑造模型个性这些问题，它们非常困难。我认为我们在这方面做得不完美。我认为我们实际上做得最好，但在所有人工智能公司中，仍然离完美还很远。我认为，如果我们能做好这一点，如果我们能控制在这个非常可控的当今环境中的误报和漏报，那么在未来，当我们担心的是：模型会超级自主吗？它们能够制造非常危险的东西吗？它们能够自主建立整个公司吗？这些公司是否一致？所以我把现在的任务既看作是令人烦恼的，也看作是对未来的良好实践。

Lex Fridman：收集用户反馈的当前最佳方式是什么？不是轶事数据，而是关于痛点或痛点相反方面的大规模数据，积极的事情等等？是内部测试吗？是特定组测试、A/B 测试吗？什么有效？

Dario Amodei：所以通常，我们会进行内部模型抨击，Anthropic 的所有人……Anthropic 现在有近 1000 人。人们只是试图破坏模型。他们试图以各种方式与它互动。我们有一套评估，“哦，模型是否以它不应该的方式拒绝？”我想我们甚至有一个“当然”的评估，因为同样，在某一时刻，模型有这个问题，它有一个烦人的习惯，它会用“当然，我可以帮你。”“当然，我很乐意这样做。”“当然，这是正确的。”来回答各种问题。所以我们有一个“当然”评估，它是：模型多久说一次“当然”？但是，这只是打地鼠。如果它从“当然”变成“肯定”怎么办？所以每次我们添加一个新的评估，我们总是评估所有旧的东西，我们有数百个这样的评估，但我们发现没有什么可以替代人类与它的互动。所以它非常像普通的产品开发流程。我们在 Anthropic 内部有数百人抨击模型。然后我们进行外部 A/B 测试。有时我们会与承包商一起运行测试。我们付钱给承包商与模型互动。所以你把所有这些东西放在一起，它仍然不完美。你仍然会看到你不太想看到的一些行为。你仍然会看到模型拒绝它不应该拒绝的事情。但我认为，试图解决这一挑战，试图阻止模型做每个人都同意它不应该做的真正坏事，每个人都同意模型不应该谈论，我不知道，儿童虐待材料。每个人都同意模型不应该这样做，但与此同时，它不会以这些愚蠢和愚蠢的方式拒绝。我认为尽可能精细地划清这条界限，接近完美，仍然是一个挑战，我们每天都在进步，但还有很多需要解决的问题。再说一次，我会将其视为未来在引导更强大的模型方面面临挑战的一个指标。

Lex Fridman：你认为 Claude 4.0 会出现吗？

Dario Amodei：我不想承诺任何命名方案，因为如果我在这里说，“我们明年将推出 Claude 4”，然后我们决定我们应该重新开始，因为有一种新型的模型，我不想承诺它。我希望在正常的业务过程中，Claude 4 会在 Claude 3.5 之后出现，但在这个古怪的领域，你永远不知道。

Lex Fridman：但这种扩展的想法仍在继续。

Dario Amodei：扩展仍在继续。肯定会有比现有模型更强大的模型来自我们。这是肯定的。如果没有，那我们作为一家公司就彻底失败了。

人工智能安全等级

Lex Fridman：好的。你能解释一下负责任的扩展政策和 AI 安全等级标准 ASL 等级吗？

Dario Amodei：尽管我对这些模型的好处感到兴奋，如果我们谈论《慈爱的恩典机器》，我们会谈到这一点，但我担心风险，我仍然担心风险。没有人应该认为《慈爱的恩典机器》是我说我不再担心这些模型的风险。我认为它们是同一枚硬币的两面。模型的力量及其解决生物学、神经科学、经济发展、治理与和平、大部分经济领域中所有这些问题的能力，也伴随着风险，对吧？能力越大，责任越大。两者是成对的。强大的事物可以做好事，也可以做坏事。我认为这些风险分为几个不同的类别，也许是我考虑的两个最大的风险。这并不是说今天没有重要的风险，但当我想到真正会在最大范围内发生的事情时，一个是所谓的灾难性滥用。这些是在网络、生物、放射、核等领域滥用模型，如果真的出了问题，可能会伤害甚至杀死数千甚至数百万人。这些是需要预防的首要任务。在这里，我只想做一个简单的观察，那就是模型，如果我今天看看那些在世界上做过真正坏事的人，我认为实际上人类受到了这样一个事实的保护，即真正聪明、受过良好教育的人和想做真正可怕事情的人之间的重叠通常很小。假设我是一个拥有该领域博士学位的人，我有一份高薪工作。损失太大了。即使假设我完全邪恶，而大多数人并非如此，为什么这样的人会冒着生命危险、遗产、声誉去做一些真正、真正邪恶的事情？如果我们有更多这样的人，世界将是一个更加危险的地方。所以我担心的是，通过成为一个更智能的代理，AI 可能会打破这种相关性。所以我确实对此有严重的担忧。我相信我们可以预防这些担忧。但我认为，作为《慈爱的恩典机器》的对比，我想说仍然存在严重的风险。第二类风险是自主性风险，即模型本身，特别是当我们赋予它们比过去更多的代理权时，特别是当我们赋予它们对更广泛任务的监督时，例如编写整个代码库或有朝一日甚至有效地运营整个公司，它们处于足够长的控制之下。它们是否在做我们真正希望它们做的事情？很难详细了解它们在做什么，更不用说控制它了。就像我说的，这些早期迹象表明，很难完美地划清模型应该做的事情和模型不应该做的事情之间的界限，如果你走到一边，你会得到令人讨厌和无用的东西，如果你走到另一边，你会得到其他的行为。如果你修复了一件事，它会产生其他问题。我们越来越擅长解决这个问题。我不认为这是一个无法解决的问题。我认为这是一门科学，就像飞机安全、汽车安全或药物安全一样。我不认为我们缺少什么重要的东西。我只是认为我们需要更好地控制这些模型。所以这是我担心的两个风险。以及我们的负责任扩展计划，我承认这对你的问题是一个非常冗长的回答。

Lex Fridman：我喜欢它。我喜欢它。

Dario Amodei：我们的负责任扩展计划旨在解决这两类风险。所以每次我们开发一个新模型时，我们基本上都会测试它在这两件坏事上的能力。所以，如果我要稍微回顾一下，我认为我们在人工智能系统方面有一个有趣的困境，它们还没有强大到足以造成这些灾难。我不知道它们是否会造成这些灾难。有可能不会。但是，担忧的理由，风险的理由足够充分，我们应该现在就采取行动，而且它们正在变得越来越快。我在参议院作证说，我们可能在两到三年内面临严重的生物风险。那大约是一年前。事情一直在进行。那么，你如何处理今天不存在的东西，不存在的东西，但正以非常快的速度向我们袭来？所以我们与 METR 和 Paul Christiano 等组织合作提出的解决方案是，你需要测试来告诉你风险何时接近。你需要一个预警系统。所以每次我们有一个新模型时，我们都会测试它执行这些 CBRN 任务的能力，以及测试它自主执行任务的能力。在我们最近一两个月发布的最新版 RSP 中，我们测试自主性风险的方式是 AI 模型自身进行 AI 研究的能力，当 AI 模型可以进行 AI 研究时，它们就变得真正、真正地自主。这个阈值在其他一些方面也很重要。那么我们如何处理这些任务呢？RSP 基本上开发了我们所谓的 if-then 结构，即如果模型通过了某种能力，那么我们就会对它们施加一组安全和安保要求。今天的模型是所谓的 ASL-2。ASL-1 模型适用于明显不构成任何自主性或滥用风险的系统。例如，一个下棋机器人，深蓝将是 ASL-1。很明显，你不能将深蓝用于国际象棋以外的任何东西。它只是为国际象棋而设计的。没有人会用它来进行巧妙的网络攻击或疯狂地接管世界。ASL-2 是今天的人工智能系统，我们已经对它们进行了测量，我们认为这些系统根本不够智能，无法自主自我复制或执行大量任务，也不够智能，无法提供关于 CBRN 风险以及如何构建 CBRN 武器的有意义信息，超出了从谷歌搜索中可以了解到的信息。事实上，它们有时确实提供了超出搜索引擎的信息，但不是以可以拼凑在一起的方式，不是以端到端的方式足够危险。所以 ASL-3 将是模型足以增强非国家行为者能力的程度，对吧？不幸的是，国家行为者已经能够以很高的熟练程度做很多这些非常危险和破坏性的事情。区别在于非国家行为者没有能力这样做。因此，当我们达到 ASL-3 时，我们将采取特殊的安全预防措施，旨在足以防止非国家行为者窃取模型以及在部署模型时滥用模型。我们将不得不加强针对这些特定领域的过滤器。

Lex Fridman：网络、生物、核。

Dario Amodei：网络、生物、核和模型自主性，这与其说是滥用风险，不如说是模型自身做坏事的风险。ASL-4，达到这些模型可以增强已经知识渊博的国家行为者的能力和/或成为这种风险的主要来源的地步。如果你想参与这种风险，你主要会通过模型来做到这一点。然后我认为在自主性方面的 ASL-4，这是 AI 模型在 AI 研究能力方面的一定程度的加速。然后 ASL-5 是我们达到真正有能力的模型的程度，它可以超过人类在执行任何这些任务中的能力。所以 if-then 结构承诺的要点基本上是说，“看，我不知道，我已经使用这些模型很多年了，我已经担心风险很多年了。喊狼来了实际上很危险。说这个模型有风险实际上很危险。人们看着它，他们说这显然没有危险。”再说一次，风险的微妙之处在于今天不存在，但它正以非常快的速度向我们袭来。你如何处理它？对于风险规划者来说，处理它真的令人烦恼。所以这个 if-then 结构基本上是说，“看，我们不想对抗一群人，我们不想损害我们自己参与对话的能力，方法是将这些非常繁重的负担强加给今天没有危险的模型。”所以 if-then，触发承诺基本上是处理这个问题的一种方式。它说，当你可以证明模型是危险的时，你就要严厉打击。当然，随之而来的是足够的缓冲阈值，使你不会面临错过危险的高风险。这不是一个完美的框架。我们不得不改变它。几周前我们推出了一个新的框架，而且可能会在未来一年多次发布新的框架，因为很难在技术上、组织上和研究上使这些政策正确。但这就是建议，if-then 承诺和触发器，以便最大程度地减少现在的负担和误报，但在危险来临时做出适当的反应。

ASL-3 和 ASL-4

Lex Fridman：你认为 ASL-3 的时间表是什么时候，其中几个触发器被触发？你认为 ASL-4 的时间表是什么时候？

Dario Amodei：是的。所以在公司内部对此进行了激烈的辩论。我们正在积极努力准备 ASL-3 安全措施以及 ASL-3 部署措施。我不打算详细介绍，但我认为我们在这两方面都取得了很大进展，我们准备很快做好准备。如果我们明年达到 ASL-3，我一点也不会感到惊讶。有人担心我们今年甚至可能会达到。这仍然是可能的。这仍然可能发生。很难说，但如果是在 2030 年，我会非常非常惊讶。我认为比这要早得多。

Lex Fridman：所以有检测它的协议，if-then，然后有如何响应它的协议。

Dario Amodei：是的。

Lex Fridman：后者有多难？

Dario Amodei：是的。我认为对于 ASL-3，它主要与安全性以及在我们部署模型时与非常狭窄的领域相关的过滤器有关。因为在 ASL-3，模型还没有自主性。所以你不必担心模型本身的行为不好，即使它是在内部部署的。所以我认为 ASL-3 措施，我不会说很简单，它们很严格，但它们更容易推理。我认为一旦我们达到 ASL-4，我们就会开始担心模型足够聪明，以至于它们可能会在测试中放水，它们可能不会说出关于测试的真相。我们有一些关于沉睡特工的结果出来了，最近还有一篇论文是关于“模型能否误导试图掩盖自身能力的尝试，将自己表现得不如实际能力强？”所以我认为对于 ASL-4，除了与模型互动之外，使用其他东西也很重要。例如，可解释性或隐藏的思维链，你必须查看模型内部，并通过某种其他机制验证，这种机制不像模型所说的那样容易被破坏，该模型确实具有某些属性。所以我们仍在研究 ASL-4。RSP 的一个特性是，在我们达到 ASL-3 之前，我们不会指定 ASL-4。我认为这是一个明智的决定，因为即使是 ASL-3，也很难详细了解这些东西，我们希望尽可能多地花时间来做好这些事情。

Lex Fridman：所以对于 ASL-3，坏人是人类。

Dario Amodei：人类，是的。

Lex Fridman：所以还有一点……

Dario Amodei：对于 ASL-4，我认为两者都有。

Lex Fridman：两者都有。所以欺骗，这就是机械可解释性发挥作用的地方，希望用于此的技术不会被模型访问。

Dario Amodei：是的。当然，你可以将机械可解释性连接到模型本身，但随后你就失去了它作为模型状态的可靠指标。有很多奇特的方式，你可能会认为它也可能不可靠，例如，如果模型变得足够聪明，以至于它可以跳过计算机并读取你正在查看其内部状态的代码。我们已经考虑过其中的一些。我认为它们足够奇特。有一些方法可以使它们不太可能发生。但是，是的，通常情况下，你想将机械可解释性保留为与模型的训练过程分开的验证集或测试集。

计算机使用

Lex Fridman：Claude 变得越来越强大的方式之一是它现在能够做一些代理的事情，计算机使用。在 Claude.ai 本身的沙盒中也有一个分析。但让我们谈谈计算机使用。在我看来，这非常令人兴奋，你可以给 Claude 一个任务，它会采取一系列行动，弄清楚它，并且可以访问你的计算机通过截图。所以你能解释一下它是如何工作的，以及它将走向何方吗？

Dario Amodei：是的。这实际上相对简单。所以 Claude 从 3 月份的 Claude 3 开始，就已经有能力分析图像并用文本进行响应。我们添加的唯一新内容是这些图像可以是计算机的屏幕截图，作为响应，我们训练模型给出屏幕上的一个位置，你可以单击该位置和/或键盘上的按钮，你可以按下该按钮来执行操作。事实证明，实际上不需要太多额外的训练，模型就可以非常擅长这项任务。这是一个很好的泛化例子。人们有时会说，如果你到达近地轨道，你就已经走了一半的路程，因为逃离重力井需要付出很多努力。如果你有一个强大的预训练模型，我觉得你就已经走了一半的路程，就智能空间而言。所以实际上，让 Claude 做到这一点并不需要太多。你只需将其设置为循环，给模型一个屏幕截图，告诉它单击什么，给它下一个屏幕截图，告诉它单击什么，这将变成模型的完整 3D 视频交互，它能够执行所有这些任务。我们展示了这些演示，它能够填写电子表格，它能够与网站交互，它能够打开各种程序，不同的操作系统，Windows、Linux、Mac。所以我认为所有这些都非常令人兴奋。我要说的是，虽然理论上你可以在那里做任何你不能通过只给模型驱动计算机屏幕的 API 做的事情，但这确实降低了门槛。而且有很多人要么没有能力与这些 API 交互，要么需要很长时间才能做到。屏幕只是一个通用界面，更容易与之交互。所以我预计随着时间的推移，这将降低很多障碍。现在，老实说，目前的模型还有很多不足之处，我们在博客中坦诚地谈到了这一点。它会犯错误，它会点错。我们小心地警告人们，“嘿，你不能就这样让这东西在你的电脑上运行几分钟。你必须给这东西设定界限和护栏。”我认为这就是为什么我们首先以 API 形式发布它，而不是直接交给消费者并让它控制他们的计算机的原因之一。但我绝对认为将这些功能公开发布很重要。随着模型变得越来越强大，我们将不得不应对如何安全地使用这些功能。我们如何防止它们被滥用？我认为在模型的功能仍然有限的情况下发布模型，对于做到这一点非常有帮助。我认为自从它发布以来，许多客户，我认为 Replit 可能是部署速度最快的客户之一，已经以各种方式使用它。人们已经连接了 Windows 桌面、Mac、Linux 机器的演示。所以是的，这非常令人兴奋。我认为与其他任何事情一样，它带来了新的令人兴奋的能力，然后随着这些新的令人兴奋的能力，我们必须考虑如何使模型安全、可靠，做人类希望它们做的事情。这与其他任何事情都是同一个故事。同样的事情。这是同样的张力。

Lex Fridman：但是这里用例的可能性，范围是惊人的。那么，在未来如何才能使它真正有效呢？你必须专门做多少超出预训练模型正在做的事情，做更多的训练后、RLHF 或监督微调或专门针对代理事物的合成数据？

Dario Amodei：是的。我认为从高层次上讲，我们打算继续大力投资于改进模型。我认为我们看一些基准测试，以前的模型就像，“哦，可以做到 6% 的时间”，而现在我们的模型可以做到 14% 或 22% 的时间。是的，我们希望达到 80%、90% 的人类水平可靠性，就像其他任何地方一样。我们处于与 SWE-bench 相同的曲线上，我认为我猜一年后，模型可以非常非常可靠地做到这一点。但你必须从某个地方开始。

Lex Fridman：所以你认为有可能达到人类水平的 90%，基本上做你现在正在做的同样的事情，还是它必须专门用于计算机使用？

Dario Amodei：这取决于你对特殊的定义，以及一般的特殊，但我通常认为我们一直用来训练当前模型的同类技术，我希望以与我们对代码、一般模型、图像输入、语音相同的方式加倍使用这些技术，我希望这些相同的技术将像在其他任何地方一样在这里扩展，

Lex Fridman：但这赋予了 Claude 行动的力量，因此你可以做很多非常强大的事情，但你也会造成很多损害。

Dario Amodei：是的，是的。不，我们已经非常清楚这一点。看，我的观点实际上是计算机使用不像 CBRN 或自主能力那样是一种根本上的新能力。它更像是它为模型使用和应用其现有能力打开了光圈。因此，我们对它的看法，回到我们的 RSP，是这个模型所做的任何事情都不会从 RSP 的角度固有地增加风险，但随着模型变得越来越强大，拥有这种能力可能会使它更可怕，一旦它具有在 ASL-3 和 ASL-4 级别做某事的认知能力，这可能是使它不受限制地做某事的东西。因此，展望未来，当然，这种互动方式是我们已经测试过的，我们将继续在 RSP 中测试它。我认为最好在模型超级强大之前学习和探索这种能力

Lex Fridman：是的。还有很多有趣的攻击，比如提示注入，因为现在你扩大了光圈，所以你可以通过屏幕上的东西进行提示注入。因此，如果这变得越来越有用，那么将东西注入模型的好处就越来越大。如果它访问某个网页，它可能是无害的东西，比如广告，也可能是有害的东西，对吧？

Dario Amodei：是的，我们已经考虑了很多关于垃圾邮件、验证码、大规模……我会告诉你一个秘密，如果你发明了一项新技术，不一定是最大的滥用，但你会看到的第一种滥用，诈骗，只是小诈骗。

Lex Fridman：是的。

Dario Amodei：就像古老的东西一样，人们互相诈骗，这就像古老的东西一样。每次，你都必须处理它。

Lex Fridman：说起来几乎很傻，但这是真的，随着机器人和垃圾邮件变得越来越智能，这是一种东西——

Dario Amodei：是的，是的。

Lex Fridman：……越来越难对抗它。

Dario Amodei：就像我说的，世界上有很多小罪犯，就像每一项新技术都是小罪犯做一些愚蠢和恶意的事情的新方法一样。

Lex Fridman：关于沙盒化它有什么想法吗？沙盒化任务有多难？

Dario Amodei：是的，我们在训练期间进行沙盒化。例如，在训练期间，我们没有将模型暴露在互联网上。我认为在训练期间这可能是一个坏主意，因为模型可能会改变其策略，它可能会改变它正在做的事情，并且它在现实世界中会产生影响。就实际部署模型而言，它取决于应用程序。有时你希望模型在现实世界中做某事。但当然，你总是可以设置防护，你总是可以在外部设置护栏。你可以说，“好的，这个模型不会将数据从我的，模型不会将任何文件从我的计算机或我的网络服务器移动到其他任何地方。”现在，当你谈论沙盒化时，再一次，当我们到达 ASL-4 时，所有这些预防措施都没有意义了。当你谈论 ASL-4 时，你就会在那里，从理论上讲，模型可能会足够聪明，能够打破任何盒子。因此，在那里，我们需要考虑机械可解释性。如果我们要有一个沙盒，它需要在数学上是可证明的。这与我们今天处理的模型完全不同。

Lex Fridman：是的，构建 ASL-4 AI 系统无法逃脱的盒子的科学。

Dario Amodei：我认为这可能不是正确的方法。我认为正确的方法，而不是拥有你试图阻止它逃脱的不一致的东西，我认为最好是以正确的方式设计模型，或者有一个循环，你在其中查看模型内部，并且能够验证属性，这使你能够判断，迭代并真正做好它。我认为包含坏模型比拥有好模型要糟糕得多。

政府对人工智能的监管

Lex Fridman：让我问一下关于监管的问题。监管在确保 AI 安全方面扮演什么角色？例如，你能描述一下最终被州长否决的加州 AI 监管法案 SB 1047 吗？这个法案的优缺点是什么？

Dario Amodei：是的，我们最终对该法案提出了一些建议。然后其中一些被采纳了，我认为我们最终对该法案的看法相当积极，它确实仍然有一些缺点。当然，它被否决了。我认为，从高层次上讲，我认为该法案背后的一些关键思想与我们的 RSP 背后的思想类似。我认为非常重要的是，某些司法管辖区，无论是加州还是联邦政府和/或其他国家和其他州，都通过了这样的监管。我可以谈谈为什么我认为这如此重要。所以我对我们的 RSP 感到满意。它并不完美。它需要进行大量迭代。但它一直是一个很好的强制函数，让公司认真对待这些风险，将它们纳入产品规划，真正使它们成为 Anthropic 工作的核心部分，并确保所有一千人，现在 Anthropic 几乎有一千人，都明白这是公司的最高优先事项之一，如果不是最高优先事项的话。但是，仍然有一些公司没有像 RSP 这样的机制，像 OpenAI，谷歌在 Anthropic 之后几个月也采用了这些机制，但还有其他公司根本没有这些机制。因此，如果一些公司采用这些机制而其他公司不采用，这真的会造成这样一种情况，即其中一些危险具有这样的特性，即五家公司中有三家是安全的并不重要，如果另外两家是不安全的，它会产生这种负外部性。我认为缺乏统一性对我们这些为深思熟虑这些程序而付出很多努力的人来说是不公平的。第二件事是我认为你不能相信这些公司会自己遵守这些自愿计划。对吧？我喜欢认为 Anthropic 会，我们尽我们所能做到，我们的 RSP 由我们的长期利益信托检查，所以我们尽我们所能遵守我们自己的 RSP。但是你听到很多关于各种公司的事情，说“哦，他们说他们会提供这么多计算，但他们没有。他们说他们会做这件事，但他们没有。”我认为没有必要对公司所做的特定事情进行诉讼，但我认为，如果没有人在监督它们，如果没有人在监督我们这个行业，就不能保证我们会做正确的事情，而且风险非常高。所以我认为有一个每个人都遵守的统一标准非常重要，并确保该行业做大多数行业已经说过重要的事情，并且已经说过他们肯定会做的事情。对，有些人，我认为有一类人原则上反对监管。我理解他们的出发点。如果你去欧洲，你会看到像 GDPR 这样的东西，你会看到他们所做的其他一些事情。其中一些是好的，但其中一些真的不必要地繁琐，我认为公平地说，它确实减缓了创新。所以我理解人们的先验知识从何而来。我理解为什么人们从这个立场出发。但是，我认为 AI 是不同的。如果我们谈到我几分钟前谈到的自主性和滥用的非常严重的风险，我认为这些风险是不寻常的，它们需要采取异常强烈的应对措施。所以我认为这非常重要。再说一次，我们需要一些每个人都能支持的东西。我认为 SB 1047 的问题之一，尤其是它的原始版本，是它有一些 RSP 的结构，但它也有一些东西要么很笨拙，要么只会造成一堆负担，一堆麻烦，甚至可能在解决风险方面错过了目标。你在 Twitter 上并没有真正听到它，你只是听到人们在为任何监管欢呼。然后那些反对的人编造这些通常在智力上很不诚实的论点，说它会让我们离开加州，如果你总部设在加州，该法案就不适用，该法案只适用于在加州开展业务，或者它会损害开源生态系统，或者它会导致所有这些事情。我认为这些大多是无稽之谈，但有更好的反对监管的论点。有一个人，Dean Ball，我认为他是一位非常博学的分析师，他研究了当一项监管到位时会发生什么，它们会如何以自己的方式存在，或者它们的设计如何糟糕。所以我们一直感兴趣的是，我们确实认为这个领域应该有监管，但我们希望成为一个确保监管是外科手术式的，针对严重风险的，并且是人们实际可以遵守的监管的行为者。因为我认为监管的支持者没有他们应该理解的一件事是，如果我们制定了一些目标不明确的东西，浪费了一堆人的时间，那么将会发生的是，人们会说：“看，这些安全风险，都是胡说八道。我不得不雇用 10 名律师来填写所有这些表格。我不得不为一些显然没有危险的东西运行所有这些测试。”六个月后，就会出现一股浪潮，我们最终会达成一个持久的反对监管的共识。所以我认为那些想要真正问责的人最大的敌人是设计糟糕的监管。我们需要真正做好它。如果我能对支持者说一件事，那就是我希望他们更好地理解这种动态，我们需要非常小心，我们需要与那些真正有经验的人交谈，看看监管在实践中是如何发挥作用的。而那些见过这种情况的人，明白要非常小心。如果这是一个不那么重要的问题，我可能根本就反对监管。但我希望反对者理解的是，潜在的问题实际上是严重的。它们不是我或其他公司仅仅因为监管俘获而编造的东西，它们不是科幻幻想，它们不是这些东西中的任何一个。每次我们有一个新模型时，每隔几个月我们都会测量这些模型的行为，它们在这些令人担忧的任务上越来越好，就像它们在良好、有价值、经济上有用的任务上越来越好一样。所以我只是希望一些前者，我认为 SB 1047 非常两极分化，我希望一些最合理的反对者和一些最合理的支持者能够坐下来一起讨论。Anthropic 是唯一一家在非常详细的方面感到积极的 AI 公司。我认为埃隆简短地发推文说了一些积极的东西，但一些大公司，如谷歌、OpenAI、Meta、微软都相当坚定地反对。所以我真的希望一些关键的利益相关者，一些最有思想的支持者和一些最有思想的反对者能够坐下来，说我们如何以一种支持者认为能够真正降低风险的方式解决这个问题，并且反对者认为它不会对行业或创新造成不必要的阻碍。我认为无论出于何种原因，事情变得过于两极分化，这两个群体没有像他们应该的那样坐下来。我感到紧迫。我真的认为我们需要在 2025 年做些什么。如果我们到了 2025 年底，我们仍然没有对此采取任何行动，那么我就会担心。我现在还不担心，因为风险还没有到来，但我认为时间不多了。

Lex Fridman：并且想出一些外科手术式的东西，就像你说的那样。

Dario Amodei：是的，是的，是的，没错。我们需要摆脱这种强烈的支持安全与反对监管的言论。它已经变成了 Twitter 上的口水战，不会有什么好结果。

Lex Fridman：所以人们对游戏中的不同玩家有很多好奇。其中一个 OG 是 OpenAI。你在 OpenAI 有几年的经验。你在那里的故事和历史是什么？

Dario Amodei：是的。我在 OpenAI 工作了大约五年。在过去的几年里，我想是几年，我是那里的研究副总裁。可能我和 Ilya Sutskever 是真正设定研究方向的人。大约在 2016 年或 2017 年，当我开始真正相信或者至少证实了我对缩放假设的信念时，Ilya 著名地对我说：“你需要了解的是，这些模型只是想学习。模型只是想学习。”再一次，有时会有这些一句话，这些锥形体，你听到它们，你会想，“啊，这解释了一切。这解释了我见过的上千件事情。”从那以后，我的脑海中就有了这样的画面，你以正确的方式优化模型，你以正确的方式指向模型，它们只是想学习。它们只是想解决问题，而不管问题是什么。

Lex Fridman：所以基本上就是别挡它们的道？

Dario Amodei：别挡它们的道。是的。

Lex Fridman：好的。

Dario Amodei：不要强加你自己的关于它们应该如何学习的想法。这与 Rich Sutton 在惨痛教训中提出的或 Gwern 在缩放假设中提出的相同。我认为总的来说，动态是我从 Ilya 和其他人那里获得了这种灵感，像 Alec Radford，他做了最初的 GPT-1，然后非常努力地运行它，我和我的合作者，在 GPT-2、GPT-3、人类反馈的 RL 上，这是试图处理早期安全性和耐久性，例如辩论和放大，重视可解释性。所以，安全性和缩放性的结合。可能 2018 年、2019 年、2020 年，这些是我和我的合作者，其中许多人后来成为 Anthropic 的联合创始人，真正有远见并推动方向的年份。

Lex Fridman：你为什么离开？你为什么决定离开？

Dario Amodei：是的，所以你看，我会这样说，我认为这与竞相登顶有关，那就是在我 OpenAI 的时候，随着我对缩放假设的理解以及我对安全性和缩放假设的重要性的理解，我逐渐认识到我逐渐认识到。第一个，我认为 OpenAI 正在接受。第二个在某种程度上一直是 OpenAI 信息的一部分。但是在我多年的时间里，我对我们应该如何处理这些事情，我们应该如何在世界上被带出来，组织应该拥有的那种原则有了一个特殊的愿景。你看，有很多关于公司是否应该这样做，公司是否应该那样的讨论？外面有很多错误信息。人们说我们离开是因为我们不喜欢与微软的交易。错误的。虽然，关于我们究竟如何与微软达成交易有很多讨论，很多问题。我们离开是因为我们不喜欢商业化。那不是真的。我们构建了 GPD-3，这是商业化的模型。我参与了商业化。更多的是关于你如何做到这一点？文明正在走向这条通往非常强大的人工智能的道路。谨慎、直接、诚实地做到这一点的方法是什么？这会在组织和个人中建立信任。我们如何从这里到达那里，我们如何对如何做好它有一个真正的愿景？我们如何才能让安全不仅仅是我们说的话，因为它有助于招聘。我认为在一天结束的时候，如果你对如何做到这一点有一个愿景，忘记其他任何人的愿景。我不想谈论其他任何人的愿景。如果你对如何做到这一点有一个愿景，你应该走出去，你应该实现你的愿景。试图与别人的愿景争论是极其没有效率的。你可能会认为他们做得不对。你可能会认为他们不诚实。谁知道呢？也许你是对的，也许你错了。但你应该做的是，你应该带上一些你信任的人，你们应该一起出去，你应该实现你的愿景。如果你的愿景令人信服，如果你能让它吸引人们，在道德和市场上的某种结合，如果你能建立一个人们想加入的公司，一个从事人们认为合理的行为的公司，同时设法在生态系统中保持其地位，如果你做到了，人们会复制它。你正在做这件事，尤其是你做得比他们好，这使得他们以一种比他们是你的老板，你在和他们争论更有说服力的方式改变他们的行为。我不知道如何比这更具体地说明它，但我认为试图让别人的愿景看起来像你的愿景通常是非常没有效率的。进行一个干净的实验并说，“这是我们的愿景，这就是我们将如何做事。”要有效得多。你的选择是你可以忽略我们，你可以拒绝我们正在做的事情，或者你可以开始变得更像我们。模仿是最真诚的奉承。这体现在客户的行为中，体现在公众的行为中，体现在人们选择工作的地方的行为中。最后，这不是关于一家公司赢还是另一家公司赢。如果我们或另一家公司从事人们真正喜欢的某种做法，我希望它在实质上，而不仅仅是表面，我认为研究人员很老练，他们会看实质，然后其他公司开始复制这种做法，他们赢了，因为他们复制了这种做法。那太好了。那是成功。这就像竞相登顶。最终谁赢并不重要，只要每个人都在复制彼此的良好做法。我认为这的一种方式是我们都害怕的事情是竞相追逐，竞相追逐谁赢并不重要，因为我们都输了。在最极端的世界里，我们制造了这种自主的 AI，机器人奴役我们或其他什么。这只是半开玩笑，但这是可能发生的最极端的事情。那么哪家公司领先并不重要。如果你创造了一个竞相登顶的环境，人们竞争进行良好实践，那么在一天结束时，谁最终获胜并不重要，甚至谁开始竞相登顶也不重要。重点不是要成为美德，重点是让系统进入比以前更好的平衡。个别公司可以在此方面发挥作用。个别公司可以帮助启动它，可以帮助加速它。坦率地说，我认为其他公司的个人也做到了这一点。当我们推出 RSP 时，个人会通过更加努力地在其他公司做类似的事情来做出反应，有时其他公司会做一些我们认为，“哦，这是一个很好的做法。我们认为这很好。我们也应该采用它。”的，唯一区别在于，我认为我们尝试更加前瞻。当其他人发明这些做法时，我们尝试首先采用更多这些做法，并更快地采用它们。但我认为这种动态是我们应该指出的，我认为它抽象了哪家公司获胜的问题，谁信任谁。我认为所有这些关于戏剧的问题都非常无趣，重要的是我们都在其中运作的生态系统，以及如何使该生态系统变得更好，因为它限制了所有参与者。

Lex Fridman：那么 Anthropic 就是这种基于具体 AI 安全应该是什么样子的基础的干净实验？

Dario Amodei：嗯，你看，我相信我们一路走来犯了很多错误。完美的组织并不存在。它必须处理一千名员工的不完美。它必须处理我们的领导人的不完美，包括我。它必须处理我们指定来监督领导人的不完美的人的不完美，比如董事会和长期利益信托。所有这些都是一群不完美的人，不完美地追求永远不会完美实现的理想。这就是你注册的目的。它将永远是这样。但是，不完美并不意味着你就放弃了。有好有坏。希望我们能做得足够好，我们可以开始建立一些整个行业都参与的实践。然后我猜想这些公司中的多家公司都会成功。Anthropic 会成功。其他这些公司，比如我过去工作过的公司，也会成功。有些公司会比其他公司更成功。这不如我们调整行业激励措施重要。这部分是通过竞相登顶来实现的，部分是通过 RSP 之类的东西来实现的，部分是通过，再次，选择性外科手术式监管来实现的。

组建一支优秀的团队

Lex Fridman：你说人才密度胜过人才质量，所以你能解释一下吗？你能详细说明一下吗？

Dario Amodei：是的。

Lex Fridman：你能谈谈组建一支优秀的 AI 研究人员和工程师团队需要什么吗？

Dario Amodei：这是每个月都更正确的说法之一。每个月我都比前一个月更认为这句话是真的。所以如果我要做一个思想实验，假设你有一支由 100 人组成的团队，他们非常聪明，积极进取，并且与使命一致，这就是你的公司。或者你可以拥有一支由 1000 人组成的团队，其中 200 人非常聪明，与使命非常一致，然后 800 人是，假设你选择了 800 名随机的大型科技公司员工，你更愿意拥有哪一个？一千人的群体中的人才质量更大。你甚至拥有更多数量的非常有才华、非常一致、非常聪明的人。但问题是，如果每次一个超级有才华的人环顾四周，他们都会看到另一个超级有才华和超级敬业的人，这为一切奠定了基调。这为每个人都超级渴望在同一个地方工作奠定了基调。每个人都信任彼此。如果你有一千或一万人，事情真的倒退了，你无法进行选择，你选择随机的人，那么会发生的是，你需要设置很多流程和很多护栏，仅仅是因为人们不完全信任彼此，或者你必须裁决政治斗争。有很多事情会减慢组织的运作能力。所以我们有近一千人，我们试图使这一千人中尽可能多的部分都超级有才华，超级熟练，这是我们在过去几个月里大幅放慢招聘速度的原因之一。我们在今年的前七八个月里从 300 人增长到 800 人，我相信，现在我们已经放慢了速度。在过去的三个月里，我们从 800 人增加到 900 人、950 人左右。不要引用我的确切数字，但我认为在一千人左右有一个拐点，我们希望更加小心我们如何增长。早期，以及现在，我们雇佣了很多物理学家。理论物理学家可以学得很快。甚至最近，随着我们继续雇佣这些人，我们在研究方面和软件工程方面都有很高的标准，雇佣了很多高级人员，包括以前在这个领域其他公司工作的人，我们只是继续非常有选择性。从一百人到一千人，从一千人到一万人很容易，而不用注意确保每个人都有一个统一的目标。如果你的公司由许多不同的诸侯组成，他们都想做自己的事情，他们都在为自己的事情进行优化，这非常强大。很难完成任何事情。但是，如果每个人都看到了公司的更广泛目标，如果存在信任和对做正确事情的奉献精神，那就是一种超能力。这本身我认为可以克服几乎所有其他劣势。

Lex Fridman：对史蒂夫·乔布斯来说，A 级人才也是如此。A 级人才希望环顾四周，看到其他 A 级人才，这是另一种说法。

Dario Amodei：对。

Lex Fridman：我不知道这与人性有什么关系，但看到那些没有执着地追求单一使命的人会让人感到沮丧。另一方面，看到这种情况会让人超级有动力。这很有趣。根据你与这么多优秀人才合作的经验，成为一名优秀的 AI 研究人员或工程师需要什么？

Dario Amodei：是的。我认为最重要的品质，尤其是在研究方面，但实际上两者都是，是开放的心态。听起来很容易保持开放的心态，对吧？你只是想，“哦，我对任何事情都持开放态度。”但如果我思考一下我自己在这个扩展假设中的早期历史，我看到的是其他人看到的数据。我不认为我是一个比我共事的数百人中任何一个都更好的程序员或更擅长提出研究想法的人。在某些方面，我更差。我从来没有精确地编写程序来查找错误，编写 GPU 内核。我可以在这里指出数百人比我更擅长这一点。但我认为我拥有的不同之处在于，我只是愿意用新的眼光看待事物。人们说：“哦，我们还没有合适的算法。我们还没有想出正确的方法来做事。”我只是想，“哦，我不知道。这个神经网络有 3000 万个参数。如果我们给它 5000 万个参数呢？让我们画一些图表。”这种基本的科学思维方式，比如“哦，伙计”，我看到了一些我可以改变的变量。当它改变时会发生什么？让我们尝试这些不同的东西，并创建一个图表。即使，这是世界上最简单的事情，改变数字的数量，这不是博士水平的实验设计，这很简单，很愚蠢。如果你只是告诉他们这很重要，任何人都可以做到这一点。这也不难理解。你不需要很聪明就能想出这个办法。但你把这两件事放在一起，少数人，个位数的人，通过意识到这一点推动了整个领域的发展。通常就是这样。如果你回顾历史上的发现，它们通常就是这样。所以这种开放的心态和这种愿意用新的眼光看待事物的意愿，这通常来自于对这个领域比较陌生，通常经验对此是一个劣势，这是最重要的事情。这很难寻找和测试，但我认为这是最重要的事情，因为当你发现一些东西，一些真正看待事物的新方法时，当你有主动性去做的时候，它绝对是变革性的。

Lex Fridman：并且能够进行快速实验，并且面对这种情况，保持开放的心态和好奇心，用这些新鲜的眼光看待数据，看看它实际上在说什么。这适用于机械可解释性。

Dario Amodei：这是另一个例子。一些早期的工作和机械可解释性如此简单，只是以前没有人想过关心这个问题。

Lex Fridman：你说成为一名优秀的 AI 研究人员需要什么。我们能否让时钟倒流，你对那些对 AI 感兴趣的人有什么建议？他们很年轻，展望未来，我该如何对世界产生影响？

Dario Amodei：我认为我的第一个建议就是开始玩模型。实际上，我有点担心，这现在看起来像是显而易见的建议。我认为三年前这并不明显，人们从“哦，让我阅读最新的强化学习论文”开始。你也应该这样做，但现在随着模型和 API 的更广泛的可用性，人们正在更多地这样做。但是，我认为只是经验知识。这些模型是没有人真正理解的新工件，所以获得玩它们的经验。我还要说，再次，按照做一些新的事情，以一些新的方向思考，有很多事情还没有被探索。例如，机械可解释性仍然非常新。研究它可能比研究新的模型架构更好，因为它比以前更受欢迎。可能有 100 人在研究它，但没有像 10000 人在研究它。这只是一个肥沃的研究领域。有很多唾手可得的成果，你可以走过去，你可以挑选东西。出于某种原因，人们对它不够感兴趣。我认为在长视野学习和长视野任务方面，有一些事情可以做。我认为评估，我们仍然处于研究评估的早期阶段，特别是对于在世界上运行的动态系统。我认为有一些关于多智能体的东西。我的建议是，滑向冰球将要到达的地方，你不需要很聪明就能想到它。所有将在五年后令人兴奋的事情，人们甚至将它们作为常识提及，但不知何故，存在这种障碍，即人们没有尽可能地加倍努力，或者他们害怕做一些不受欢迎的事情。我不知道为什么会发生这种情况，但克服这个障碍，这是我的第一个建议。

训练后

Lex Fridman：如果可以的话，让我们谈谈训练后。所以看起来现代的训练后方法有一点所有东西。所以监督微调，RLHF，带有 RLAIF 的宪法性 AI——

Dario Amodei：最好的首字母缩写词。

Lex Fridman：又是命名问题。然后是合成数据。看起来有很多合成数据，或者至少试图找出拥有高质量合成数据的方法。所以如果这是一个让 Anthropic Claude 如此不可思议的秘方，那么有多少魔力是在预训练中？有多少是在训练后？

Dario Amodei：是的。所以首先，我们自己无法完美地衡量这一点。当你看到一些很棒的角色能力时，有时很难判断它是来自预训练还是训练后。我们开发了区分这两者的方法，但它们并不完美。我要说的第二件事是，当存在优势时，我认为我们通常在 RL 方面都做得很好，也许是最好的，尽管我不知道，我看不到其他公司内部发生了什么。通常它不是“哦，我的上帝，我们有这种其他人没有的秘密魔法方法。”通常它就像，“好吧，我们在基础设施方面做得更好，所以我们可以运行更长时间，”或者，“我们能够获得更高质量的数据，”或者，“我们能够更好地过滤我们的数据，或者我们能够将这些方法结合起来并在实践中应用。”它通常是一些无聊的实践和工艺问题。所以当我想到如何在我们训练这些模型的方式上做一些特别的事情时，两者都是，但我更认为它有点像设计飞机或汽车。这不仅仅是“哦，伙计。我有蓝图。”也许这会让你制造下一架飞机。但我认为，关于我们如何看待设计过程的文化工艺，比我们能够发明的任何特定的小玩意都更重要。

Lex Fridman：好的。好吧，让我问你一些具体的技术。首先是 RLHF，你认为，只是放大直觉，几乎是哲学……你为什么认为 RLHF 效果这么好？

Dario Amodei：如果我回到扩展假设，扩展假设的一种方法是，如果你为 X 进行训练，并且你投入足够的计算，那么你会得到 X。所以 RLHF 擅长做人类希望模型做的事情，或者至少更准确地说，做那些在短时间内查看模型并考虑不同可能响应的人类更喜欢的响应，这从安全性和能力的角度来看都不是完美的，因为人类通常无法完美地识别模型想要什么，以及人类此刻想要的东西可能不是他们长期想要的东西。所以这里有很多微妙之处，但模型擅长生成人类在某种浅层意义上想要的东西。实际上，你甚至不需要投入那么多计算，因为另一个原因，那就是关于一个强大的预训练模型已经走了一半路程的说法。所以一旦你有了预训练模型，你就有了所有让模型到达你想要它去的地方所需的表示。

Lex Fridman：所以你认为 RLHF 会让模型更聪明，还是只是让人类看起来更聪明？

Dario Amodei：我不认为它会让模型更聪明。我不认为它只是让模型看起来更聪明。这就像 RLHF 弥合了人类和模型之间的差距。我可以有一些非常聪明的东西，但根本无法沟通。我们都认识这样的人，他们非常聪明，但无法理解他们在说什么。所以我认为 RLHF 只是弥合了这一差距。我不认为这是我们做的唯一一种 RL。这不是未来会发生的唯一一种 RL。我认为 RL 有可能使模型更聪明，使它们更好地推理，使它们更好地运作，甚至使它们发展新的技能。也许即使在某些情况下，也可以通过人类反馈来做到这一点。但是，我们今天做的这种 RLHF 大多还没有做到这一点，尽管我们很快就能做到。

Lex Fridman：但是如果你看一下有帮助性的指标，它会增加吗？

Dario Amodei：是的。它还会增加，Leopold 的文章中这个词是什么，“unhobbling”，其中基本上模型被束缚，然后你对它们进行各种训练以解除它们的束缚。我喜欢这个词，因为它是一个罕见的词。所以我认为 RLHF 在某些方面解除了模型的束缚。然后在其他方面，该模型还没有被解除束缚，需要解除束缚。

Lex Fridman：如果可以的话，就成本而言，预训练是最昂贵的事情吗？还是训练后会逐渐接近？

Dario Amodei：目前，预训练仍然是成本的大部分。我不知道将来会发生什么，但我当然可以预见未来训练后将是成本的大部分。

Lex Fridman：在你预见的未来，是人类还是 AI 是训练后成本高昂的东西？

Dario Amodei：我不认为你可以扩大足够多的人类来获得高质量。任何依赖人类并使用大量计算的方法，都必须依赖某种规模化的监督方法，例如辩论或迭代放大或类似的东西。

宪法性 AI

Lex Fridman：关于围绕宪法性 AI 的一组超级有趣的想法，你能描述一下它在 2022 年 12 月的论文中首次详细介绍的内容以及之后的内容吗？它是什么？

Dario Amodei：是的。所以这是两年前的事了。基本思想是，所以我们描述了 RLHF 是什么。你有一个模型，你只是从中采样两次。它吐出两个可能的响应，然后你就会想，“人类，你更喜欢哪个响应？”或者它的另一个变体是，“在一到七的范围内评价这个响应。”所以这很难，因为你需要扩大与人类的互动，而且它非常隐含。我没有意识到我想要模型做什么。我只是意识到这 1000 个人的平均值想要模型做什么。所以有两个想法。一个是，AI 系统本身能否决定哪个响应更好？你能向 AI 系统展示这两个响应并询问哪个响应更好吗？然后第二个，好吧，AI 应该使用什么标准？所以然后就有了这个想法，你有一个单一的文件，如果你愿意的话，可以称之为宪法，它说，这些是模型应该用来响应的原则。AI 系统读取这些原则以及读取环境和响应。它说：“好吧，AI 模型做得怎么样？”它基本上是一种自我博弈的形式。你在训练模型与自身对抗。所以 AI 给出响应，然后你将其反馈到所谓的偏好模型中，该模型反过来馈送模型以使其更好。

Lex Fridman：我们应该说，在宪法中，这组原则是人类可以理解的。它们是——

Dario Amodei：是的。是的。这是人类和 AI 系统都可以阅读的东西。所以它具有这种很好的可翻译性或对称性。在实践中，我们既使用模型宪法，也使用 RLHF，我们也使用其他一些方法。所以它变成了工具包中的一个工具，既减少了对 RLHF 的需求，又增加了我们从使用 RLHF 的每个数据点中获得的价值。它还以有趣的方式与未来的推理型 RL 方法相互作用。所以它是工具包中的一个工具，但我认为它是一个非常重要的工具。

Lex Fridman：嗯，这对我们人类来说很有说服力。想想开国元勋和美国的建立。自然的问题是谁以及你认为它如何定义宪法，宪法中的一系列原则？

Dario Amodei：是的。所以我会给出一个实际的答案和一个更抽象的答案。我认为实际的答案是，在实践中，模型被各种不同的客户使用。所以你可以有这样的想法，模型可以有专门的规则或原则。我们隐式地微调模型的版本。我们已经讨论过明确地做它，让人们可以在模型中内置特殊的原则。所以从实际的角度来看，答案对不同的人来说可能非常不同。客户服务代理的行为与律师非常不同，并且遵守不同的原则。但是，我认为在它的基础上，有一些模型必须遵守的具体原则。我认为其中很多都是人们会同意的东西。每个人都同意我们不希望模型呈现这些 CBRN 风险。我认为我们可以更进一步，同意一些关于民主和法治的基本原则。除此之外，它变得非常不确定，我们的目标通常是让模型更中立，不要支持特定的观点，而只是成为明智的代理或顾问，帮助你思考问题，并将提出可能的考虑因素。但不表达强烈或具体的意见。

Lex Fridman：OpenAI 发布了一个模型规范，它清晰、具体地定义了模型的一些目标和具体示例，例如 AB，模型应该如何表现。你认为这有趣吗？顺便说一句，我应该提到，我相信才华横溢的 John Schulman 也参与其中。他现在在 Anthropic。你认为这是一个有用的方向吗？Anthropic 也可能会发布模型规范吗？

Dario Amodei：是的。所以我认为这是一个非常有用的方向。再一次，它与宪法性 AI 有很多共同之处。所以，再次，这是竞相登顶的另一个例子。我们有一些我们认为更好、更负责任的做事方式。这也是一种竞争优势。然后其他人发现它有优势，然后开始做那件事。然后我们不再拥有竞争优势，但从现在每个人都采用了一种其他人没有采用的积极做法的角度来看，这是件好事。所以我们对此的回应是，“好吧，看来我们需要一个新的竞争优势，以继续推动这场比赛向上发展。”所以这就是我对它的总体看法。我还认为这些东西的每个实现都是不同的。所以模型规范中有一些东西不在宪法性 AI 中，所以我们总是可以采用这些东西，或者至少从中学习。所以我再次认为这是我认为我们都希望该领域拥有的积极动态的一个例子。

慈爱的恩典机器

Lex Fridman：让我们谈谈那篇不可思议的文章《慈爱的恩典机器》。我建议每个人都读一读。它很长。

Dario Amodei：它确实很长。

Lex Fridman：是的。读到关于积极的未来是什么样子的具体想法，真是令人耳目一新。你采取了一个大胆的立场，因为你很可能在日期或具体应用上是错的——

Dario Amodei：哦，是的。我完全预料到所有细节都会出错。我可能对整件事都大错特错，人们会嘲笑我很多年。这就是未来的运作方式。

Lex Fridman：所以你提供了一堆关于 AI 的具体积极影响，以及超级智能的 AI 如何准确地加速例如生物学和化学领域的突破速度，这将导致诸如我们治愈大多数癌症、预防所有传染病、将人类寿命延长一倍等等的事情。那么，首先让我们谈谈这篇文章。你能对这篇文章做一个高层次的概述吗？人们有哪些关键收获？

Dario Amodei：是的。我花了很多时间，Anthropic 也花了很多精力来研究我们如何应对 AI 的风险？我们如何看待这些风险？我们正在努力进行一场竞相登顶的比赛，这需要我们建立所有这些能力，而这些能力很酷。但是，我们试图做的很大一部分是应对风险。这样做的理由是，所有这些积极的事情，市场是一个非常健康的生物体。它将产生所有积极的事情。风险呢？我不知道，我们可能会减轻它们，也可能不会。因此，我们可以通过试图减轻风险来产生更大的影响。但是，我注意到这种思维方式的一个缺陷，这并不是我对风险的重视程度发生了变化。这可能是我谈论它们的方式发生了变化，那就是无论你的推理多么合乎逻辑或理性，我刚才给出的推理路线。如果你只谈论风险，你的大脑只会想到风险。因此，我认为了解如果事情进展顺利会发生什么，实际上非常重要。我们试图预防这些风险的全部原因不是因为我们害怕技术，不是因为我们想放慢它的速度。这是因为如果我们能够克服这些风险，如果我们能够成功地通过挑战，用直白的话来说，那么在挑战的另一边是所有这些伟大的事物。这些事情值得为之奋斗。这些事情真的可以激励人们。我想我想，因为……你看，你所有这些投资者，所有这些风险投资家，所有这些 AI 公司都在谈论 AI 的所有积极好处。但正如你指出的那样，这很奇怪。实际上，真正具体说明它的人很少。Twitter 上有很多随机的人发布这些闪闪发光的城市，以及这种只是努力、更快加速、踢出……的氛围。这是一种非常激进的意识形态。但随后你会想，“好吧，你实际上对什么感到兴奋？”所以我认为，我认为对于一个真正来自风险方面的人来说，尝试真正解释好处是什么，将是有趣和有价值的，既因为我认为这是我们可以团结一致的事情，也因为我希望人们理解。我希望他们真正理解，这不是末日论者与加速主义者之间的斗争。这就是，如果你真正了解 AI 的发展方向，也许这是更重要的轴心，AI 发展迅速与 AI 发展不迅速，那么你就会真正欣赏这些好处，并且你真的希望人类或文明抓住这些好处。但是，你也对任何可能破坏它们的事情非常认真。

Lex Fridman：所以我认为，首先要谈论的是这个强大的 AI，这是你喜欢的术语，世界上大多数人使用 AGI，但你不喜欢这个术语，因为它基本上有太多的包袱，它变得毫无意义。这就像我们被这些术语困住了，不管我们喜不喜欢它们。

Dario Amodei：也许我们被这些术语困住了，而我改变它们的努力是徒劳的。

Lex Fridman：这是令人钦佩的。

Dario Amodei：我会告诉你我还不喜欢什么……这是一个毫无意义的语义点，但我一直在谈论它——

Lex Fridman：又是命名问题。

Dario Amodei：我只想再说一遍。我认为这有点像，假设是 1995 年，摩尔定律正在使计算机变得更快。出于某种原因，一直存在这种口头禅，每个人都像，“好吧，总有一天我们会拥有超级计算机。超级计算机将能够做所有这些事情……一旦我们拥有超级计算机，我们将能够对基因组进行测序，我们将能够做其他事情。”所以。第一，这是真的，计算机越来越快，随着它们越来越快，它们将能够做所有这些伟大的事情。但是，没有一个离散的点，你拥有了一台超级计算机，而以前的计算机没有。“超级计算机”是我们使用的术语，但它是一个模糊的术语，用来描述比我们今天拥有的计算机更快的计算机。没有一个点，你超过了阈值，你就会想，“哦，我的上帝！我们正在进行一种全新的计算和新的……所以我对 AGI 有这种感觉。这只是一个平滑的指数。如果 AGI 的意思是 AI 越来越好，逐渐地它将做越来越多人类做的事情，直到它比人类更聪明，然后它会从那里变得更聪明，那么是的，我相信 AGI。但是，如果 AGI 是一些离散的或独立的东西，就像人们经常谈论它的那样，那么它就是一个毫无意义的流行语。

Lex Fridman：对我来说，它只是一个强大的 AI 的柏拉图式形式，正如你定义它的那样。你很好地定义了它，所以在智力轴上，它只是在纯粹的智力上，它比你描述的诺贝尔奖获得者在大多数相关学科中都更聪明。所以，好吧，那只是智力。所以它既有创造力，又能在每个学科中产生新的想法，所有这些东西都在诺贝尔奖获得者的鼎盛时期。它可以使用每种模态，所以这是不言自明的，但只是在世界的所有模态中运作。它可以花费数小时、数天和数周来完成任务，并进行自己的详细计划，只在需要时才向你寻求帮助。这实际上很有趣。我想你在文章中说过……再一次，这是一个赌注，它不会被具体化，但它可以控制具体的工具。所以它可以控制工具、机器人、实验室设备，用来训练它的资源可以重新用于运行它的数百万个副本，每个副本都是独立的，可以做自己独立的工作。所以你可以克隆智能系统。

Dario Amodei：是的。是的。你可能会从该领域之外想象，只有一个这样的，对吧？你只制造了一个。但事实是规模化非常快。我们今天就这样做。我们制造一个模型，然后部署数千个，也许是数万个实例。我认为到那时，肯定在两三年内，无论我们是否拥有这些超级强大的 AI，集群的规模都将达到能够部署数百万个实例的程度。它们会比人类更快。所以，如果你的想法是，“哦，我们会拥有一个，制造它们需要一段时间，”我的观点是，不。实际上，你马上就拥有了数百万个。

Lex Fridman：而且总的来说，它们的学习和行动速度比人类快 10 到 100 倍。所以这是一个非常好的关于强大 AI 的定义。好的，就是这样。但是，你还写道，“显然，这样的实体将能够非常快速地解决非常困难的问题，但要弄清楚有多快并非易事。两个‘极端’立场在我看来都是错误的。”所以奇点在一个极端，而相反的极端在另一个极端。你能描述一下每个极端吗？

Dario Amodei：是的。

Lex Fridman：所以为什么？

Dario Amodei：所以，是的。让我们描述一下极端情况。所以一个极端是，“嗯，看。如果我们看一下进化史，就像有一个很大的加速，几十万年来我们只有单细胞生物，然后我们有了哺乳动物，然后我们有了猿类。然后很快就变成了人类。人类很快就建立了工业文明。”所以，这将继续加速，在人类水平上没有上限。一旦模型比人类聪明得多，它们就会非常擅长构建下一个模型。如果你写下一个简单的微分方程，就像这是一个指数……所以将会发生的是，模型将构建更快的模型。模型将构建更快的模型。这些模型将构建可以接管世界并产生比你原本可以产生的更多能量的纳米机器人。所以，如果你只是解这个抽象的微分方程，那么在我们构建第一个比人类更强大的人工智能后的五天内，世界将充满这些人工智能，以及所有可能被发明的技术，都将被发明。我有点夸张了，但我认为这是一个极端。我认为这不是事实的原因是，第一，我认为它们忽略了物理定律。在物理世界中，只可能以如此快的速度做事。其中一些循环会产生更快的硬件。生产更快的硬件需要很长时间。事情需要很长时间。存在复杂性的问题。我认为无论你多么聪明，人们都在谈论，“哦，我们可以制作生物系统的模型，它可以做生物系统所做的一切……”看，我认为计算建模可以做很多事情。当我从事生物学工作时，我做了很多计算建模。但只是有很多事情你无法预测如何……它们足够复杂，以至于只是迭代，只是运行实验就会胜过任何建模，无论进行建模的系统多么聪明。

Lex Fridman：即使它不与物理世界互动，仅仅是建模也会很难？

Dario Amodei：是的。嗯，建模会很难，让模型与物理世界匹配会很难

Lex Fridman：好吧。所以它确实必须与物理世界互动才能验证。

Dario Amodei：但你只需看看最简单的问题。我想我谈到了三体问题或简单的混沌预测，或预测经济。很难预测两年后的经济。也许情况是人类可以预测下个季度经济会发生什么，或者他们真的做不到。也许比人类聪明无数倍的人工智能只能预测一年左右，而不是……计算机智能的指数增长换来的是线性预测能力的提高。同样，就像生物分子相互作用一样。你不知道当你扰乱一个复杂的系统时会发生什么。你可以找到其中的简单部分，如果你更聪明，你更擅长找到这些简单部分。然后我认为人类制度，人类制度真的很难。很难让人们。我不会给出具体的例子，但即使是我们已经开发的技术，即使是那些有效性非常非常强的技术，也很难让人们采用。人们有顾虑。他们认为事情是阴谋论。这真的很难。通过监管体系获得非常简单的东西也很困难。我不想贬低任何在任何技术的监管体系中工作的人。他们必须处理的困难有很多。他们必须拯救生命。但我认为，整个体系做出了一些明显的权衡，这些权衡与最大化人类福祉相去甚远。因此，如果我们将 AI 系统引入这些人力系统，通常智力水平可能不是限制因素。可能只是做某事需要很长时间。现在，如果 AI 系统绕过所有政府，如果它只是说，“我是世界独裁者，我想做什么就做什么，”它可以做其中一些事情。再说一次，事情与复杂性有关。我仍然认为很多事情需要一段时间。我不认为 AI 系统可以产生很多能量或登上月球会有帮助。就像评论中的一些人回应这篇文章所说的那样，AI 系统可以产生很多能量和更智能的 AI 系统。这没有抓住重点。这种循环并不能解决我在这里谈到的关键问题。所以我认为很多人没有抓住重点。但即使它完全不一致，并且可以绕过所有这些人力障碍，它也会遇到麻烦。但是，如果你希望这是一个不接管世界，不毁灭人类的 AI 系统，那么基本上它需要遵守基本的人类法律。如果我们想要一个真正美好的世界，我们将不得不拥有一个与人类互动的 AI 系统，而不是一个创建自己的法律体系，或无视所有法律或所有这些的 AI 系统。所以，尽管这些流程效率低下，我们还是不得不处理它们，因为在这些系统的推出方式中需要有一些民众和民主的合法性。我们不能让一小群开发这些系统的人说：“这对每个人都是最好的。”我认为这是错误的，而且我认为在实践中它也行不通。所以你把所有这些东西放在一起，我们不会在五分钟内改变世界并上传每个人。A，我不认为这会发生，B，就它可能发生的程度而言，这不是通往美好世界的方式。所以这是一方面。另一方面，还有另一组观点，我在某些方面实际上更同情，那就是，看，我们以前见过生产力的大幅提高。经济学家熟悉研究计算机革命和互联网革命带来的生产力提高。总的来说，这些生产力的提高令人失望。它们比你想象的要少。罗伯特·索洛有句名言：“除了生产力统计数据，你到处都能看到计算机革命。”为什么会这样呢？人们指出公司结构、企业结构、将现有技术推广到世界非常贫困地区的缓慢程度，我在文章中谈到了这一点。我们如何将这些技术带到在手机技术、计算机、医学方面落后的世界最贫困地区，更不用说尚未发明的新型 AI 了。所以你可能有这样的观点，“好吧，这在技术上很神奇，但它只是一个汉堡。我认为写了一些回应我的文章的泰勒·考恩有这种观点。我认为他认为彻底的改变最终会发生，但他认为这需要 50 或 100 年。你甚至可以对整件事有更静态的看法。我认为这有一定的道理。我认为时间尺度太长了，我可以看到它。我实际上可以用今天的 AI 看到双方。所以我们的很多客户都是大型企业，他们习惯于以某种方式做事。我在与政府交谈时也看到了这一点，对吧？这些是典型的机构，变化缓慢的实体。但是，我一遍又一遍地看到的动态是，是的，移动这艘船需要很长时间。是的。有很多阻力和缺乏理解。但是，让我觉得进步最终会以中等速度发生，而不是以非常快的速度发生的原因是，你与……我发现的是，我一遍又一遍地发现，即使是在大型公司中，即使是在实际上令人惊讶地前瞻的政府中，你也会发现两件事推动着事情向前发展。第一，你发现在公司内部、政府内部，有一小部分人真正看到了大局，看到了整个扩展假设，了解了 AI 的发展方向，或者至少了解了它在他们行业中的发展方向。在现任美国政府中，有一些人真正看到了全局。这些人认为这是世界上最重要的事情，直到他们为此鼓动。他们一个人是不足以成功的，因为在一个大型组织中只有一小部分人。但是，随着技术的推出，随着它在一些最愿意采用它的人那里取得成功，竞争的幽灵给了他们一股力量，因为他们可以在他们的大型组织中指出。他们可以说：“看，其他人正在做这件事。”一家银行可以说：“看，这家新潮的对冲基金正在做这件事。他们会抢走我们的生意。”在美国，我们可以说我们担心中国会在我们之前到达那里。这种结合，竞争的幽灵加上这些在许多方面都僵化的组织中的一些有远见的人，你把这两件事放在一起，它实际上会发生一些事情。这很有趣。这是一场势均力敌的战斗，因为惯性非常强大，但最终经过足够的时间，创新的方法会突破。我已经看到它发生了。我已经一遍又一遍地看到它的轨迹，这就像障碍在那里，进步的障碍，复杂性，不知道如何使用模型，如何部署它们在那里。有一段时间，它似乎会永远持续下去，变化不会发生。但是，最终变化发生了，而且总是来自少数人。当我还是 AI 领域内扩展假设的支持者而其他人不理解它时，我也有同样的感觉。感觉好像没有人会理解它。然后感觉就像我们有一个几乎没有人拥有的秘密。然后，几年后，每个人都知道了这个秘密。所以，我认为这就是 AI 在世界上的部署方式。障碍将逐渐崩溃，然后一下子崩溃。因此，我认为这将是更多，这只是一个直觉。我可以很容易地看出我哪里错了。我认为，正如我在文章中所说的那样，这将是 5 或 10 年，而不是 50 或 100 年。我还认为这将是 5 或 10 年，而不是 5 或 10 个小时，因为我已经看到了人力系统是如何工作的。我认为很多写下这些微分方程的人，他们说 AI 会制造更强大的 AI，他们无法理解怎么可能这些事情不会发生得这么快。我认为他们不理解这些事情。

AGI 时间表

Lex Fridman：那么你认为实现 AGI，也就是强大的 AI，也就是超级有用的 AI 的时间表是什么？

Dario Amodei：我将开始这样称呼它。

Lex Fridman：这是一个关于命名的争论。在纯粹的智力上，比每个相关学科的诺贝尔奖获得者都更聪明，以及我们所说的一切。模态，可以自己去做几天、几周的事情，并且可以在一个……你知道吗？让我们只谈生物学，因为你在整个生物学和健康部分说服了我。这太令人兴奋了，只是……我从科学的角度感到头晕目眩。它让我想成为一名生物学家。

Dario Amodei：所以，不。不。这是我在写它时的那种感觉，这就像，如果我们能让它发生，这将是一个多么美好的未来。如果我们能让它发生。如果我们能把地雷清除掉，让它发生。如果我们能……它背后有如此多的美、优雅和道德力量。这是我们都应该能够达成一致的事情。尽管我们对所有这些政治问题争论不休，但这是否真的是可以让我们团结起来的事情？但你问的是我们什么时候会得到这个？

Lex Fridman：什么时候？你认为什么时候？只是把数字摆在桌面上。

Dario Amodei：这当然是我多年来一直在努力解决的问题，我一点也不自信。如果我说 2026 年或 2027 年，Twitter 上会有无数人会说，“AI CEO 说 2026 年，2020 年……”在接下来的两年里，这将被反复提及，这是我肯定认为它会发生的时间。所以，无论是谁在运用这些剪辑，都会剪掉我刚才说的话，只说我将要说的话。但我还是会说——

Lex Fridman：玩得开心点。

Dario Amodei：所以，如果你推断我们目前为止的曲线。对吧？如果你说，“嗯，我不知道。我们开始达到博士水平，去年我们处于本科水平，前年我们处于高中生的水平。”再一次，你可以争论在什么任务上以及为什么我们仍然缺少模态，但这些模态正在被添加。计算机使用被添加了，就像 ImageEn 被添加了，图像生成被添加了。这完全不科学，但如果你只是看看这些能力的增长速度，它确实会让你觉得我们会在 2026 年或 2027 年实现。再一次，很多事情可能会使它偏离轨道。我们可能会耗尽数据。我们可能无法像我们想要的那样扩展集群。也许台湾被炸毁了，或者其他什么，然后我们就无法生产我们想要的那么多 GPU 了。所以有各种各样的——

Dario Amodei：然后我们就无法生产我们想要的那么多 GPU 了。所以有各种各样的可能会破坏整个进程的事情。所以我并不完全相信直线外推法，但如果你相信直线外推法，我们会在 2026 年或 2027 年实现。我认为最有可能的是，相对于此会有一些轻微的延迟。我不知道延迟是多少，但我认为它可能会按计划发生。我认为可能会有一些轻微的延迟。我认为仍然存在 100 年内不会发生的情况。这些情况的数量正在迅速减少。我们正在迅速失去真正令人信服的阻碍因素，真正令人信服的理由来解释为什么这在未来几年不会发生。2020 年有很多，尽管我当时的猜测是，我们会克服所有这些障碍。所以作为一个个看过大多数障碍被清除的人，我怀疑，我的预感是，剩下的障碍不会阻碍我们。但是，归根结底，我不想把它说成是一个科学预测。人们称它们为扩展定律。这是一个误称。就像摩尔定律是一个误称一样。摩尔定律，扩展定律，它们不是宇宙定律。它们是经验规律。我将押注它们会继续下去，但我对此并不确定。

Lex Fridman：所以在文章中你广泛地描述了某种压缩的 21 世纪，AGI 将如何帮助引发生物学和医学领域的一系列突破，从而以我提到的所有这些方式帮助我们。它可能会做的早期步骤是什么？顺便说一句，我问了 Claude 一些问你的好问题，Claude 告诉我问，你认为在这个未来，一个从事 AGI 的生物学家的典型一天是什么样的？

Dario Amodei：是的，是的。

Lex Fridman：Claude 很好奇。

Dario Amodei：好吧，让我先回答你的第一个问题，然后再回答这个问题。Claude 想知道他的未来是什么，对吧？

Lex Fridman：没错。

Dario Amodei：我将与谁一起工作？

Lex Fridman：没错。

Dario Amodei：所以我认为，当我在这篇文章中深入探讨的一件事是，让我回到这个想法，因为它真的对我有影响，这个想法是在大型组织和系统中，最终会有一些人或一些新的想法，使事情朝着与以前不同的方向发展，这些人不成比例地影响着轨迹。有很多相同的事情正在发生，对吧？如果你想想医疗保健领域，有数万亿美元用于支付医疗保险和其他医疗保险，然后 NIH 是 1000 亿美元。然后，如果我想到一些真正彻底改变任何事情的事情，它可以被封装在那其中的一小部分。所以当我想到 AI 将在哪里产生影响时，我想，“AI 能否将那一小部分变成更大的部分，并提高其质量？”在生物学领域，我在生物学领域的经验是，生物学最大的问题是你看不到发生了什么。你几乎没有能力看到发生了什么，更没有能力改变它，对吧？你拥有的是这个。从这里，你必须推断出一堆细胞，每个细胞内都有 30 亿个碱基对的 DNA，根据遗传密码构建。所有这些过程都在进行，而我们这些没有增强的人类却无法影响它。这些细胞正在分裂。大多数时候这是健康的，但有时这个过程会出错，那就是癌症。细胞正在老化，你的皮肤可能会变色，随着年龄的增长会出现皱纹，所有这些都由这些过程决定。所有这些蛋白质都被生产出来，运输到细胞的各个部分，相互结合。在我们关于生物学的初始状态下，我们甚至不知道这些细胞的存在。我们必须发明显微镜来观察细胞。我们必须发明更强大的显微镜才能看到细胞以下的分子水平。我们必须发明 X 射线晶体学才能看到 DNA。我们必须发明基因测序来读取 DNA。现在我们必须发明蛋白质折叠技术来预测它将如何折叠以及这些东西如何相互结合。我们必须发明各种技术，现在我们可以编辑 DNA，就像过去 12 年的 CRISPR 一样。所以整个生物学史，很大一部分历史基本上是我们读取和理解正在发生的事情的能力，以及我们深入并选择性地改变事物的能力。我的观点是，我们仍然可以在那里做更多的事情。你可以做 CRISPR，但你可以对你的全身做。假设我想对一种特定类型的细胞做它，我希望靶向错误细胞的比率非常低。这仍然是一个挑战。这仍然是人们正在努力的事情。这就是我们对某些疾病的基因治疗可能需要的东西。我之所以说所有这些，它超越了基因测序，超越了用于观察细胞内部发生的事情的新型纳米材料，超越了抗体药物偶联物。我之所以说所有这些，是因为这可能是 AI 系统的一个杠杆点，对吧？这类发明的数量，在生物学史上处于两位数中期或类似的水平，两位数中期，也许是三位数初期。假设我有一百万个这样的 AI，它们能否一起发现一千个，或者它们能否很快发现数千个这样的，这是否提供了一个巨大的杠杆？与其试图利用我们每年在医疗保险或其他方面花费的 2 万亿美元，我们能否利用每年花费 10 亿美元用于发现，但质量要高得多？那么成为一名与 AI 系统一起工作的科学家是什么感觉？我实际上是这样想的，嗯，所以我认为在早期阶段，AI 会像研究生一样。你会给他们一个项目。你会说：“我是一位经验丰富的生物学家。我已经建立了实验室。”生物学教授甚至研究生自己会说：“这就是你可以用 AI……人工智能系统，我想研究这个。”而人工智能系统，它拥有所有的工具。它可以查找所有文献来决定做什么。它可以查看所有设备。它可以访问一个网站说：“嘿，我要去赛默飞世尔或其他今天占主导地位的实验室设备公司。我的时代是赛默飞世尔。我要订购这种新设备来做这个。我要进行我的实验。我要写一份关于我的实验的报告。我要检查图像是否有污染。我要决定下一个实验是什么。我要编写一些代码并进行统计分析。”研究生会做的所有事情都将是一台带有人工智能的计算机，教授偶尔会与之交谈，它会说：“这就是你今天要做的。”人工智能系统会带着问题来找它。当需要运行实验室设备时，它可能会受到某些限制。它可能不得不雇用一个人类实验室助理来做实验并解释如何做，或者它可以使用过去十年左右逐渐开发或已经开发出来的实验室自动化方面的进步，并将继续开发。所以它看起来就像一个人类教授和 1000 名人工智能研究生，如果你去找这些诺贝尔奖获得者生物学家或其他什么人，你会说：“好吧，你以前有 50 名研究生。好吧，现在你有 1000 名，顺便说一下，他们比你更聪明。”然后我想在某个时候，情况会反过来，人工智能系统将成为 PI，将成为领导者，他们将命令人类或其他人工智能系统四处走动。所以我认为这就是它在研究方面的工作方式。

Lex Fridman：他们将成为 CRISPR 类型技术的开发者。

Dario Amodei：他们将成为 CRISPR 类型技术的开发者。然后我想，正如我在文章中所说的那样，我们会想要转变，可能放任自流是错误的用词，但我们会想要利用 AI 系统来改进临床试验系统。其中有一些是监管方面的，这是社会决策的问题，这会更难。但是我们能否更好地预测临床试验的结果？我们能否更好地进行统计设计，以便以前需要 5000 人参与的临床试验，因此需要 1 亿美元的资金才能招募他们，现在他们需要 500 人参与，两个月就能招募到他们？这就是我们应该开始的地方。我们能否通过在动物试验中做我们以前在临床试验中做的事情，以及在模拟中做我们以前在动物试验中做的事情来提高临床试验的成功率？再一次，我们无法完全模拟。人工智能不是上帝，但我们能否大幅度地改变曲线？所以，我不知道，这就是我的设想。

Lex Fridman：在体外做，然后做。我的意思是，你仍然会慢下来。它仍然需要时间，但你可以做得更快。

Dario Amodei：是的，是的。我们能否一步一步地走，然后这些步骤加起来会很多？即使我们仍然需要临床试验，即使我们仍然需要法律，即使 FDA 和其他组织仍然不完美，我们能否只是将一切都朝着积极的方向发展，当你把所有这些积极的方向加起来，你是否会得到从现在到 2100 年将会发生的一切，而不是从 2027 年到 2032 年或其他什么时间发生？

编程

Lex Fridman：我认为即使在今天，世界也可能随着 AI 而改变的另一种方式，但朝着强大的超级有用 AI 的未来迈进，那就是编程。所以，你如何看待编程的本质，因为它与构建 AI 的实际行为如此密切？你如何看待它对我们人类的改变？

Dario Amodei：我认为这将是变化最快的领域之一，原因有两个。第一，编程是一项与实际构建 AI 非常接近的技能。所以一项技能离构建 AI 的人越远，它被 AI 颠覆所需的时间就越长。我坚信 AI 会颠覆农业。也许它已经在某些方面颠覆了，但这与构建 AI 的人相去甚远，所以我认为这需要更长的时间。但编程是 Anthropic 和其他公司的大部分员工的谋生之道，所以它会很快发生。它会很快发生的另一个原因是，使用编程，你可以在训练模型和应用模型时闭环。模型可以编写代码的想法意味着模型可以运行代码，然后查看结果并对其进行解释。因此，它真的有一种能力，不像硬件，不像我们刚才讨论的生物学，模型有能力闭环。所以我认为这两件事将导致模型非常快速地擅长编程。正如我在典型的现实世界编程任务中看到的，模型的完成率从今年 1 月的 3% 上升到今年 10 月的 50%。所以我们正处于这条 S 曲线上，它很快就会开始放缓，因为你只能达到 100%。但我猜想，在接下来的 10 个月里，我们可能会非常接近。我们至少会达到 90%。所以，再说一次，我猜想，我不知道需要多长时间，但我猜想，再一次，2026 年、2027 年，Twitter 上那些裁剪掉这些数字并去掉警告的人，我不知道。我不喜欢你，走开。我猜想，绝大多数程序员所做的这类任务，AI 可能，如果我们把任务变得非常狭窄，只是编写代码，AI 系统将能够做到这一点。话虽如此，我认为比较优势是强大的。我们会发现，当 AI 可以完成程序员 80% 的工作时，包括其中大部分实际上是根据给定的规范编写代码，我们会发现工作的其余部分对人类来说变得更有影响力，对吧？人类，将更多地关于高级系统设计或查看应用程序以及它的架构是否良好，以及设计和用户体验方面，最终 AI 也将能够做到这些。这就是我对强大 AI 系统的设想。但我认为，在比我们预期更长的时间内，我们将看到人类仍然做的工作的很小一部分将扩展到填满他们的整个工作，以便整体生产力提高。这是我们已经看到的事情。过去，写信和编辑信件非常困难，印刷也很困难。好吧，一旦你有了文字处理器，然后有了计算机，制作作品和共享作品变得很容易，然后这就变成了即时的，所有的焦点都集中在想法上。所以这种比较优势的逻辑，将任务的很小一部分扩展到任务的很大一部分，并创造新的任务以扩大生产力，我认为情况将会如此。再一次，总有一天 AI 会在所有方面都做得更好，而这种逻辑将不再适用，然后人类将不得不思考如何共同应对这种情况，我们每天都在思考这个问题，这是除了滥用和自主性之外需要处理的另一个重大问题，我们应该非常认真地对待它。但我认为在短期内，甚至在中期，中期比如 2、3、4 年，我希望人类将继续发挥巨大作用，编程的性质会发生变化，但编程作为一种角色，编程作为一种工作不会改变。它只是不会再一行一行地写东西，它会更宏观。

Lex Fridman：我想知道 IDE 的未来会是什么样子。所以与 AI 系统交互的工具，这适用于编程，也可能适用于其他环境，如计算机使用，但可能是特定领域的，就像我们提到的生物学，它可能需要自己的关于如何有效的工具。然后编程需要自己的工具。Anthropic 会在该领域发挥作用，也可能提供工具吗？

Dario Amodei：我绝对相信强大的 IDE，那里有很多唾手可得的成果，现在它就像你与模型交谈，它会回复你。但是你看，IDE 非常擅长静态分析，静态分析可以做很多事情，比如很多错误你甚至不用编写代码就能找到。然后 IDE 擅长运行特定的事情，组织你的代码，衡量单元测试的覆盖率。使用普通的 IDE 可以做很多事情。现在你添加一些东西，比如，模型现在可以编写代码并运行代码。我绝对相信，在接下来的一两年里，即使模型的质量没有提高，也会有巨大的机会通过捕捉一堆错误，为人们做一堆繁重的工作来提高人们的生产力，而我们甚至还没有触及皮毛。Anthropic 本身，我的意思是，你不能说不……很难说未来会发生什么。目前，我们并没有试图自己制造这样的 IDE，而是为像 Cursor 或 Kognition 或安全领域的其他一些公司提供支持，我也可以提到其他一些正在我们的 API 之上构建自己的东西的公司，我们的观点是让百花齐放。我们在内部没有资源来尝试所有这些不同的东西。让我们让我们的客户尝试一下，我们会看到谁会成功，也许不同的客户会以不同的方式成功。所以我既认为这非常有希望，Anthropic 也并不急于，至少现在，在这个领域与我们所有的公司竞争，也许永远不会。

Lex Fridman：是的，看着 Cursor 试图成功地整合云很有趣，因为它实际上很有趣，它可以在很多地方帮助编程体验。这并不那么微不足道。

Dario Amodei：这真的很惊人。我觉得作为一名 CEO，我没有那么多时间编程，我觉得如果六个月后我回去，它对我来说将完全无法辨认。

人生的意义

Lex Fridman：没错。在这个日益自动化的超级强大 AI 的世界里，我们人类的意义来源是什么？对我们许多人来说，工作是意义的重要来源。我们在哪里找到意义？

Dario Amodei：这是我在文章中写过的一些内容，尽管我实际上有点轻描淡写，不是出于任何原则性的原因，但这篇文章，如果你相信它最初只有两三页，我将在全体会议上谈论它。我意识到这是一个重要且未被充分探索的主题的原因是，我只是不停地写东西，我只是想，“哦，伙计，我无法公正地对待它。”所以这件事膨胀到了 40 或 50 页，然后当我到达工作和意义部分时，我想，“哦，伙计，这不会是 100 页。”我将不得不写一篇关于它的完整文章。但意义实际上很有趣，因为你思考一个人生活或其他什么，或者假设你把我放在，我不知道，像一个模拟环境或其他什么地方，我有一份工作，我正在努力完成一些事情，我不知道，我做了 60 年，然后你就会想，“哦，哦，这其实只是一场游戏，”对吧？这真的会剥夺你对整件事的意义吗？我仍然做出了重要的选择，包括道德选择。我仍然做出了牺牲。我仍然必须获得所有这些技能，或者只是一个类似的练习。回想一下那些发现了电磁学或相对论或其他什么的历史人物。如果你告诉他们，“嗯，实际上在 20000 年前，这个星球上的某个外星人比你更早地发现了这个，”这会剥夺这个发现的意义吗？在我看来，并非如此，对吧？似乎过程才是最重要的，以及它如何一路展现你是一个什么样的人，以及你如何与其他人相处，以及你一路做出的决定。这些都是重要的。我可以想象，如果我们在 AI 世界中处理不当，我们可能会设置一些让人们没有任何长期意义来源或任何意义来源的环境，但这更多是我们做出的一系列选择，更多是我们与这些强大模型的社会架构的一系列选择。如果我们设计得很糟糕，而且是为了肤浅的事情，那么这可能会发生。我还要说，今天大多数人的生活，尽管令人钦佩，他们非常努力地在这些生活中寻找意义。你看，我们这些有特权并开发了这些技术的人，我们应该对人们，不仅是这里的人，还有世界上其他地方的人，他们花了很多时间勉强维持生计，假设我们可以将这项技术的好处分配到世界各地，他们的生活将会好很多，意义对他们来说将很重要，就像现在对他们很重要一样。但我认为所有这些都说，我认为一个拥有强大 AI 的世界是可能的，它不仅对每个人都有同样多的意义，而且对每个人都有更多的意义，它可以让每个人看到以前没有人或很少有人能够体验到的世界和体验。所以我对意义持乐观态度。我担心的是经济和权力的集中。这实际上是我更担心的。我担心我们如何确保那个公平的世界惠及每个人。当事情对人类出错时，它们经常出错是因为人类虐待其他人。这也许在某些方面甚至比 AI 的自主风险或意义问题更重要。这是我最担心的事情，权力的集中，权力的滥用，像独裁统治和专制统治这样的结构，一小部分人剥削一大群人。我非常担心这一点。

Lex Fridman：AI 增加了世界上的权力总量，如果你集中这种权力并滥用这种权力，它会造成不可估量的损害。

Dario Amodei：是的，这非常可怕。这非常可怕。

Lex Fridman：好吧，我强烈建议人们阅读全文。这应该是一本书或一系列文章，因为它描绘了一个非常具体的未来。我可以看出后面的部分越来越短，因为你可能开始意识到，如果你继续下去，这将是一篇很长的文章。

Dario Amodei：第一，我意识到它会很长，第二，我非常清楚并且非常努力地避免只是成为，我不知道它的术语是什么，但其中一个过于自信并且对所有事情都有意见并且说一堆话并且不是专家的人，我非常努力地避免这种情况。但我必须承认，一旦我进入生物学部分，我就不是专家了。所以，尽管我表达了不确定性，但我可能说了一些令人尴尬或错误的事情。

Lex Fridman：好吧，我对你描绘的未来感到兴奋，非常感谢你努力构建这个未来，感谢你与我交谈，Dario。

Dario Amodei：谢谢你邀请我。我只是希望我们能做好它，让它成为现实。如果有一条信息我想传达，那就是要做好所有这些事情，让它成为现实，我们既需要构建技术，构建公司，围绕积极使用这项技术的经济，但我们也需要应对风险，因为这些风险挡在我们的路上。它们是从这里到那里的地雷，如果我们想到达那里，我们必须拆除这些地雷。

Lex Fridman：就像生活中所有的事情一样，这是一个平衡。

Dario Amodei：就像所有的事情一样。

关注《森林聊AI商业》公众号

了解 AI 如何塑造商业的未来

http://mp.weixin.qq.com/s?__biz=Mzg3MTA1MzE2Nw==&mid=2247490105&idx=1&sn=b21edf0f32defb9ef0323661c23e9786

森林聊AI商业

每日一起了解，AI如何改变科技世界