“从高中生到博士生,也许只需要三年”|Anthropic创始人Dario Amodei长谈Claude,AGI,人类与AI的未来

文摘   2025-01-11 11:39   上海  

“从高中生到博士生,也许只需要三年。”

这不是在谈教育改革,而是AI能力的跃迁。在与Lex Fridman的对话中,Anthropic CEO Dario Amodei用这个生动的比喻描述了AI的发展速度。如果说2022年的AI还在解高中数学题,2023年已经能写本科论文,那么到2026年,它是否就能进行原创科研?”

我自己作为创作者已经持续与Claude对话三个月。从我使用不同模型的体验来看,Dario兄妹俩创造的Claude,已经是当今世界最聪明的,最有创造力的大模型。我也安利了很多身边的人开始使用Claude。

下面这篇,是Lex和Dario的一次深度访谈,视频全程长达5个多小时。我使用Claude进行了翻译,因为长度问题,我会分批把这个访谈原稿发完,整体因为我判断这个视频对帮助我们理解接下来要发生的事情极有价值。

Lex Fridman:

如果你延伸目前的发展曲线,就是说,嗯,我不知道,我们开始达到博士级水平了,而去年还是本科生水平,再前一年是高中生水平。你当然可以质疑在哪些任务上、在什么程度上是这样。但这些能力正在被不断增加,比如加入了计算机使用功能,加入了图像生成功能。如果你只是单纯从这些能力增长的速度来看,会让人觉得我们将在2026年或2027年达到(AGI)。我认为仍然存在100年内都无法实现的可能性,但这种可能性正在迅速减少。我们正迅速用尽真正令人信服的阻碍因素,那些能说明为什么这不会在未来几年发生的令人信服的理由。


Dario Amodei:

扩展速度非常快,就像现在,我们制造一个模型,然后部署成千上万个实例。我认为到了某个时候,当然在两到三年内,无论我们是否拥有这些超级强大的AI,数据中心都会达到可以部署数百万个这样系统的规模。 关于经济和权力集中的问题,这实际上是我更担心的。权力的滥用,AI增加了世界上的权力总量,如果你集中了这种权力并滥用它,就会造成难以估量的损害。是的,这非常可怕,这非常可怕。 这是一段与Dario Amodei的对话,他是Anthropic公司的CEO,这家公司创造了Claude,目前在大多数LLM基准排行榜上名列前茅。除此之外,Dario和Anthropic团队一直是认真对待AI安全议题的坚定倡导者,他们继续在这个和其他主题上发表了许多引人入胜的AI研究。


Lex Fridman: 

让我们从扩展定律和扩展假说的大观念开始。它是什么,它的历史,以及我们今天在哪里?


Dario Amodei: 我只能从我自己的经历来描述它。我在AI领域已经工作了大约10年,这是我很早就注意到的事情。我第一次加入AI领域是在2014年底,当时我在百度与Andrew一起工作,现在距离那时几乎整整10年了。我们首先研究的是语音识别系统。那时深度学习是一个新事物,它取得了很大进展,但每个人都说我们没有成功所需的算法,说我们只匹配了一小部分功能,我们在算法上还有很多要发现的,我们还没有找到匹配人类大脑的方法。


Dario Amodei:

在某些方面,作为这个领域的新人可能是幸运的。我是个新手,你知道,你可能会有初学者的运气。我看着我们用于语音的神经网络,那些循环神经网络,我说,我不知道,如果让它们变得更大,增加更多层会怎样?如果我们同时扩大数据规模会怎样?我只是把这些看作是可以调节的独立参数,我注意到当你给它们更多数据,让模型更大,训练时间更长时,模型表现就会越来越好。在那些日子里我没有精确测量这些,但和同事们一起,我们非常明显地感觉到,投入越多的数据、计算资源和训练时间,模型表现就越好。

最初我的想法是,嘿,也许这只适用于语音识别系统,也许这只是一个特定领域的特殊情况。我想直到2017年,当我第一次看到GPT-1的结果时,我才意识到语言可能是我们可以做到这一点的领域。我们可以获得数万亿的语言数据来训练它们。那时我们训练的模型很小,你可以在1-8个GPU上训练它们,而现在我们用成千上万,很快就会是几十万个GPU来训练模型。

所以当我看到这两件事结合在一起时,你知道,有几个人像ilaser(你采访过他)有类似的观点。他可能是第一个,虽然我认为几个人几乎同时得出了类似的看法。你知道,还有Rich Sutton的"痛苦教训",Gur写过关于扩展假说的文章,但我认为在2014年到2017年之间的某个时候,这件事真正打动了我,我真正确信我们将能够通过简单地扩大模型规模来完成这些令人难以置信的认知任务。

在扩展的每个阶段都有争论,说实话,当我第一次听到这些争论时,我认为可能是我错了,这些领域的专家们是对的,他们比我更了解情况。比如Chomsky的论点说你可以得到句法但得不到语义,还有人说你可以让一个句子有意义但不能让一段话有意义。今天我们听到的最新论点是我们将用完数据,或者数据质量不够好,或者模型无法推理。每一次,我们要么找到解决方案,要么扩展本身就是解决方案。有时是前者,有时是后者。

所以现在到了这个时候,我认为这仍然很不确定,我们只能通过归纳推理来判断未来几年是否会像过去10年一样,但我已经看到这个故事发生了足够多次,真的相信扩展会继续下去,其中有一些我们在理论基础上还没有真正解释的魔力。


Lex Fridman:

当然,这里说的扩展是指更大的网络、更大的数据、更大的计算能力?


Dario Amodei:

是的,特别是更大网络、更长训练时间和更多数据的线性扩展。所有这些几乎就像化学反应,你知道,化学反应中有三种成分,你需要线性地增加三种成分。如果你只增加其中一种而不增加其他的,你就会用完其他试剂,反应就会停止。但如果你按顺序增加所有东西,反应就能继续进行。

现在你有了这种经验科学/艺术,你可以把它应用到其他更微妙的事情上,比如应用到可解释性的扩展定律上,或者应用到后训练的扩展定律上,或者只是看这东西是如何扩展的。但最大的扩展定律,我猜基本的扩展假说与大型网络、大数据导致智能有关。


Lex Fridman:

我们已经在语言以外的许多领域记录了扩展定律,对吗?


Dario Amodei:

是的,最初展示这一点的论文是在2020年初,我们第一次为语言展示了这一点。然后在2020年底有一些工作表明,其他模态如图像、视频、文本到图像、图像到文本、数学都有相同的模式。现在有其他阶段,比如后训练或者有新类型的推理模型,在我们测量过的所有这些情况中,我们都看到了类似的扩展定律。


Lex Fridman:

这是一个有点哲学性的问题,但你对为什么更大会更好有什么直觉?就网络规模和数据规模而言,为什么它会导致更智能的模型?


Dario Amodei:

在我之前的职业生涯中,我是一名生物物理学家,我本科学的是物理学,然后在研究生阶段学习生物物理学。所以我回想起我作为物理学家所知道的东西,实际上比我在Anthropic的一些同事在物理学方面的专业知识要少得多。有一个概念叫做1/f噪声和1/x分布,在那里如果你把一堆自然过程加起来,你会得到高斯分布。如果你把一堆不同分布的自然过程加起来,如果你像把探针连接到电阻器上,电阻器中的热噪声分布会随频率的倒数变化,这是某种自然的收敛分布。

我认为这相当于,如果你看很多由某种自然过程产生的东西,这个过程有很多不同的尺度,不是高斯分布那种窄分布,而是如果我看大小波动都会导致电噪声,它们有这种衰减的1/x分布。

现在我想到物理世界中的模式,如果我...或者在语言中,如果我思考语言中的模式,有一些非常简单的模式,有些词比其他词常见得多,比如"the",然后是基本的名词动词结构,然后是名词和动词必须一致、必须协调的事实,还有更高层次的句子结构,然后是段落的主题结构。


Dario Amodei:

所以由于存在这种递归结构,你可以想象,当你让网络变得更大时,它们首先捕获最简单的相关性,最简单的模式,然后是其他模式的长尾。如果这个长尾很平滑,就像物理过程中的1/f噪声一样,那么你可以想象随着网络变大,它会捕获到更多的分布,这种平滑性反映在模型预测和语言表现的好坏上。

语言是一个进化的过程,对吧?我们发展出了语言,我们有常用词和不常用词,我们有常见表达和不常见表达,我们有经常表达的想法和陈词滥调,我们也有新颖的想法。这个过程随着人类发展了数百万年,所以猜测 - 这纯粹是推测 - 这些想法的分布存在某种长尾。


Lex Fridman:

所以不仅有长尾,还有你正在构建的概念层次结构,所以网络越大,你presumably有更高的能力来...


Dario Amodei:

没错,如果你有一个小网络,它只能理解常见的东西,对吧?如果我用一个很小的神经网络,它很擅长理解句子必须有动词、形容词、名词,对吧?但它在决定这些动词、形容词和名词应该是什么,以及它们是否有意义方面表现很差。如果让它稍微大一点,它就能做好这一点,然后突然它擅长处理句子了,但不擅长处理段落。所以这些罕见和更复杂的模式会在我添加更多网络容量时被捕获。


Lex Fridman:

那自然的问题就是,这个天花板在哪里?真实世界有多复杂?有多少东西需要学习?


Dario Amodei:

我认为我们都不知道这个问题的答案。我的强烈直觉是,在人类水平之下没有上限。我们人类能够理解这些各种模式,这让我认为,如果我们继续扩大这些模型的规模,继续开发新的训练方法并扩大规模,我们至少会达到人类所达到的水平。

然后有一个问题是,比人类更聪明、更有洞察力有多大的空间。我猜答案肯定是因领域而异。如果我看生物学领域,你知道,我写过这篇文章《爱的机器的恩典》,在我看来,人类正在努力理解生物学的复杂性。如果你去斯坦福、哈佛或伯克利,你会看到整个部门的人在研究免疫系统或代谢通路,每个人只理解其中一小部分,专门研究它,他们努力将自己的知识与其他人的知识结合起来。

所以我有一种直觉,在顶端还有很大的空间让AI变得更聪明。如果我考虑物质世界中的材料,或者,比如说,解决人类之间的冲突之类的事情,我的意思是,你知道,可能有些问题不是无法解决,而是要困难得多。就像语音识别一样,我能听清你的讲话也只能到一定程度。所以在某些领域可能存在非常接近人类已经做到的上限,而在其他领域,这些上限可能还很遥远。我认为只有当我们建造这些系统时才能知道。事先很难知道,我们可以推测,但不能确定。


Lex Fridman: 在某些领域,上限可能与人类的官僚机构和这类事情有关,就像你说的,人类必须参与其中,这是上限的原因,而不是可能智能的限制。


Lex Fridman:

那计算方面的限制呢?比如建造越来越大的数据中心的昂贵特性?


Dario Amodei:

现在我认为,嗯,你知道,大多数前沿模型公司我猜正在运营,你知道,大致在10亿美元规模,上下浮动三倍左右。这些是现在存在的或正在训练的模型。我认为明年我们将达到几十亿,然后2026年可能会达到,超过100亿,到2027年可能会有建造千亿美元集群的野心。我认为这一切实际上都会发生,有很大的决心在这个国家建立计算能力来做到这一点。我猜测这实际上会发生。

现在,如果我们达到1000亿,这仍然不够计算,这仍然不够规模,那么要么我们需要更多规模,要么我们需要开发某种更有效的方法来做到这一点,转移曲线。我认为在所有这些之间,我对强大的AI发生得如此之快的一个原因是,如果你推断曲线上的下几个点,我们很快就会朝着人类水平的能力发展。

一些新模型,一些来自其他公司的推理模型,它们开始达到我称之为博士或专业水平。如果你看看他们的编码能力,我们最新发布的Sonnet 3.5的更新版本在sbench上得到了大约50%的分数,而sbench是一堆专业的真实世界软件工程任务的例子。在今年年初,我认为最先进的水平是3%或4%。所以在10个月内,我们从3%上升到了50%,在这项任务上。我认为再过一年我们可能会达到90%。我的意思是我不知道,甚至可能会更少。我们在来自OpenAI 01等模型的研究生水平数学、物理和生物学方面看到了类似的情况。

所以如果我们只是继续推断这一点,就技能而言,如果我们推断直线曲线,在几年内,我们将达到这些模型在人类最高专业水平之上的地步。现在,这条曲线会继续吗?你提到了,我也提到了很多原因,你知道,可能的原因为什么这可能不会发生,但如果外推曲线继续,这就是我们的轨迹。


Lex Fridman:

Anthropic有几个竞争对手,能否谈谈你对整个领域的看法 - OpenAI、Google、xAI、Meta - 在这个领域取胜需要什么?从广义上说赢是什么意思?


Dario Amodei:

但我们发现,当我们打开它们,当我们往里看时,我们发现了一些出人意料的有趣的东西。作为副作用,你也可以看到这些模型的美,你可以通过这种某种方式探索大型神经网络的美丽本质。我对它有多整洁感到惊讶。我对诱导头(induction heads)这样的东西感到惊讶,我对我们可以使用稀疏自编码器来找到网络内部的这些方向感到惊讶,而这些方向对应着这些非常清晰的概念。

我们用金门大桥克劳德(Golden Gate Bridge Claude)展示了这一点。这是一个实验,我们在神经网络层之一中找到了一个对应于金门大桥的方向,然后我们把它大大增强。所以我们把这个模型作为演示发布了几天,这有点像个玩笑。但它很好地说明了我们开发的方法,你可以把金门大桥,你可以把模型拿来问任何事情,你知道,它就像,你可以问它今天过得怎么样,无论你问什么,因为这个特征被激活了,都会连接到金门大桥。所以它会说,你知道,我感觉放松和开阔,就像金门大桥的拱门一样,或者你知道,它会巧妙地把话题转到金门大桥上。它也整合了对金门大桥关注的一种悲伤。我认为人们很快就爱上了它。


Lex Fridman:

我觉得是这样的,人们已经想念它了,因为它在一天后就被下线了。不知何故,这些对模型的干预,你知道,你调整它的行为,在情感上让它似乎比其他版本的模型更像人类。


Dario Amodei:

强烈的个性,强烈的特征,强烈的个性。它有这种类似于痴迷的兴趣,你知道,我们都能想到某个对某事痴迷的人,所以它确实让人感觉某种程度上更像人类。让我们谈谈现在,让我们谈谈Claude。今年发生了很多事情,3月份发布了Claude 3 Opus、Sonnet和Haiku,然后7月份发布了Claude 3.5 Sonnet,现在又发布了更新版本,然后还发布了Claude 3.5 Haiku。


(未完待续)



我的创作者故事:

如何三个月通过媒体杠杆实现睡后收入?|一个巴厘岛数字游民的完整心路历程(共8769字)

我的社群产品:

1%创作者(目前53人,699/年,满100人将涨价到999)。社群聚焦从“内容创作”到“一人公司”的被动收入模型打造,聚焦“海外顶级创作者案例内容库+AI辅助赋能+1对1生命跃迁咨询+社群场域”四大模块,为想要创作的你深度赋能。

我的咨询产品:

1% Coaching:助力你通向最高版本 v1.0

点击下方图片任意位置下单:



克里斯的信
熵减|觉醒|创造|自由
 最新文章