【AI访谈】2万字解读ChatGPT 是否真的聪明?

文摘   2024-11-10 11:01   广东  

2024.11.9

这次访谈内容很丰富,包含了François Chollet对于AGI(通用人工智能)、智能的本质、机器意识的深刻见解。在他的观点中,智能并非简单地意味着技能的积累或算力的堆砌,而是强调如何以高效的方式学习新技能并适应新环境。他提到,“智能不是技能本身,而是学习新技能的元技能。” 这意味着智能是一种自我增长、自我优化的过程。

Chollet对现有大型语言模型(LLM)的批评也很有代表性,指出它们尽管能够记忆并重组大量数据,却缺乏真正的抽象能力和灵活的推理能力。他主张,真正的智能需要能快速适应新任务,而不是依赖死记硬背和算力扩展。

还探讨了智能的“元学习先验”能力,即智能能否像人类一样在不断变化的环境中形成经验并构建抽象模型。Chollet强调具身性的重要性,即智能系统需要在环境中不断互动、学习和试错。

François Chollet是谁

François Chollet是法国的计算机科学家和人工智能研究员。他以创建了深度学习库 Keras 而闻名,Keras 是一个使用 Python 编写的开源深度学习库,旨在让深度学习模型的构建变得简单、快速和用户友好。他目前在 Google 工作,主要关注计算机视觉、机器学习在形式推理中的应用、抽象思维以及如何实现人工智能的更高通用性。


访谈目录:

ChatGPT 真的聪明吗?(讨论 LLM 的智能局限性)

AI 智商测试有多难?(介绍 ARC 挑战赛)

如何让 AI 真正理解世界?(Chollet 的智能定义和万花筒假说)

孩子是如何学习的?对 AI 有什么启发?(建构主义学习理论)

AI 也会“顿悟”吗?(程序合成和抽象生成)

AI 学霸也可能是个“书呆子”?(知识与智能的平衡)

最强大脑挑战 AI,谁会赢?(ARC 挑战赛的最新进展和不同方法)

AI 作弊怎么办?(如何防止 AI 在测试中耍小聪明)

AI 可以帮我写代码吗?靠谱吗?(LLM 的实际应用和风险)

意识是什么?AI 会有意识吗?(机器意识的可能性和条件)

AI 会统治世界吗?(奇点论和末日论的批判)

AI 犯法了,谁来管?(AI 监管的挑战和方向)


以下是完整访谈内容:

François Chollet: 智能的关键在于处理新事物、适应陌生环境,并快速构建合适的模型。现在的大型语言模型(LLM)在这方面还有欠缺,如果问题和它们的训练数据差别太大,它们就束手无策了。

我提出的抽象推理通用人工智能(AR-AGI),就像一个给机器做的智商测试。对人类和真正的AGI来说,这很简单。因为我们遇到的每个任务都是全新的,跟以往的经验都不同。AR-AGI 的目标是防止机器单纯靠记忆作弊,不像其他基准测试那样容易被死记硬背攻克。

主持: 我和一些AI研究人员一起做过ARC挑战赛的题目。他们会尝试用内省的方式思考,比如“这个问题跟颜色和计数有关”,然后在脑子里运行程序,一步步验证,直到找到正确答案。

François Chollet: 内省是了解我们如何进行逻辑推理(系统二思考)的好方法,但对直觉(系统一思考)作用不大,因为直觉是潜意识的、瞬间的、我们无法直接观察到的。系统二则相反,它是深思熟虑的、缓慢的、信息量小的,而且很容易内省。但是,这里没提到的是……

主持: François Chollet,很荣幸请到您做客节目!说真的,这对我意义重大。您是我的偶像,非常感谢您!

François Chollet: 是我的荣幸!您过奖了,真的。我不应该……

主持: 为什么?

François Chollet: 因为这会让人失望。

主持: 我不会失望的。

François Chollet: 希望我能达到您的期望。

主持: 肯定会的!François,您一直批评AI领域“越大越好”的观点,能解释一下吗?

François Chollet: 当然。“越大越好”源于对深度学习模型(尤其是LLM)的缩放法则的观察。缩放法则指的是模型性能与训练数据和算力之间的关系。简单来说,LLM的性能会随着算力的增加而呈对数线性增长。很多人觉得,只要不断增加算力,就能无限提升模型性能,最终获得远超人类的智能,而模型结构和训练方法都不需要改变。

但问题在于,我们如何衡量性能?目前的基准测试更像是记忆力测试,主要测量LLM记住答案的能力。所以,增加记忆容量(参数、数据和算力)自然会提高测试分数。但我认为,这种性能提升和真正的智能无关。因为测试可以靠死记硬背来作弊。要衡量智能,我们需要一种无法提前准备的测试,比如ARC。你会发现,ARC的性能并不总是随着算力的增加而提高。实际上,现在ARC挑战赛中表现最好的模型并没有用到海量算力,有些程序化方法甚至完全不需要训练。

主持: 您说语言模型就像一个解释性数据库。我和Sainbayar Sukhbaatar聊过,他把它们叫做近似检索系统。很多人跟我说:“Tim,这太荒谬了!它们显然不是数据库,它们会推理。” 但我觉得,从记忆的角度来看,它们确实像数据库。您也在substack上写过相关的文章。

François Chollet: 是的,它们的核心是记忆。人们的误解在于,以为LLM只是记住了问题的答案和内容。它们确实记住了很多知识和事实,但这并不是重点。它们主要记忆的是函数和程序,这些程序可以泛化到一些新的场景。当你向LLM提问时,就像在查询一个巨大的程序库。LLM就像一个空间,每个点代表一个程序。我们可以组合或融合这些程序,从而得到近乎无限多的新程序。LLM的训练目标是预测下一个词。如果内存无限大,它可以记住所有可能的文本序列。但实际上LLM的参数是有限的,所以它必须压缩信息,学习预测函数,也就是用向量表示的函数。

举个例子,假设LLM第一次遇到莎士比亚的作品。它已经学过英语,所以可以利用已有的英语知识来理解莎士比亚的语言。它只需要学习莎士比亚独特的写作风格,就像一个转换器,把一般的英语转换成莎士比亚风格的文本。这就是LLM能够进行风格迁移的原因——把风格和内容分开学习更节省空间。LLM会学习数百万个这样的预测函数,并通过组合它们来生成新的函数,因为它们都是向量,可以像数学公式一样进行运算。它们不像Python程序那样是一行行独立的代码,而是连续的向量函数。

主持: 因为当您说“程序”的时候,很多人会想到带有条件逻辑的程序,而LLM……

François Chollet: 它们不是那样的。

主持: 它更像一个输入敏感的映射,在模型中穿梭,把输入映射到输出。

François Chollet: 对,这个映射是连续的,用曲线来表示。

主持: 但我们可以把它描述成一个程序。

François Chollet: 当然可以,它们也是函数。

主持: 对。您说过它们是可组合的。

François Chollet: 是的,因为这些函数是向量,可以相加,也可以通过插值生成新的函数。

主持: 我很喜欢您的“万花筒假说”。能详细介绍一下吗?

François Chollet: 当然。大家都知道万花筒吧?一个筒里装着几片彩色玻璃,通过反射和重复,就能创造出无数美丽的图案。

万花筒假说认为,世界和其中的任何领域都遵循同样的结构:表面上看起来丰富复杂、变化无穷,但实际上是由少数基本元素的重复和组合构成的。智能的关键就在于,从经验中提取这些重复出现的元素,也就是抽象概念。当我们积累了足够多的抽象概念,就能用它们来理解新的情况。表面上看起来很新奇的场景,其实可以用已有的抽象概念来解释。

这就是智能的本质:一种适应新环境、理解新情况的认知机制。它会利用已有的抽象积木,快速搭建新的模型。这里有两个关键技巧:一是合成,把积木组合成程序或模型;二是抽象生成,从经验、感知和已有的模型中提取新的积木,并储存起来供以后使用。在我看来,智能就是由合成和抽象生成组成的。

主持: 您在AI领域深耕多年,是什么让您在职业生涯早期就形成了如此清晰的智能观?

François Chollet: 如果你读过我早期的博客文章或《深度学习》第一版,会发现我当时就指出,深度学习擅长处理直觉(系统一),但不擅长逻辑推理(系统二)。我大概在2016年就提出了程序合成的概念,并在2017年开始写相关文章。促使我形成这些想法的主要原因之一是,我当时在研究用深度学习进行自动定理证明。定理证明和程序合成很像,都是用领域特定语言(DSL)中的操作符进行树形搜索。当时的想法是用深度学习模型来引导搜索过程。我尝试了很多方法,但都失败了。虽然结果比随机搜索好得多,但实际上只是在进行浅层的模式识别,并没有涉及真正的逻辑推理。深度学习模型很容易走捷径,只做简单的模式匹配。我意识到,深度学习不擅长处理离散的程序,无法泛化到新的场景。这对我来说是一个重要的发现,因为在那之前,我和大多数人一样,认为深度学习模型是通用的计算引擎,可以完成任何计算任务,具有图灵完备性。当时(2015-2016年)有很多类似的想法,比如神经图灵机。人们认为深度学习最终会取代手写的软件,包括我自己也这么认为。但后来,在让神经网络做数学题的实验中,我发现它们的能力是有限的,它们只是模式识别引擎。要进行逻辑推理,我们需要其他的方法,比如程序合成。于是,我开始思考智能的本质以及如何创造智能。早在2010年,我就提出了自己的第一个AGI架构。在那之前的几年,我一直在思考这个问题。

主持: 我们来聊聊“捷径”的问题。深度学习模型会把信息投射到欧几里得空间,用欧几里得距离作为唯一的语义度量。它们学习到的很多都是虚假的相关性,甚至比真实的相关性还多。

François Chollet: 这是因为,无论观察什么数据,总能找到一些虚假的相关性来解释。深度学习模型就像高维空间中的曲线或曲面,我们用梯度下降来调整它们的参数。曲线可以表示很多东西,但不适合表示离散的处理过程。虽然可以在曲线上嵌入离散的处理过程,但这并不是一个好主意。你会发现,让深度神经网络学习排序或加法都很困难,即使是最先进的LLM也做不好。虽然它们见过数百万个加法算式,但在新的数字上仍然只有70%的准确率。它们记住了程序,但因为程序是用向量表示的,不够精确,所以在算法任务中经常出错。

主持: 您提到了神经图灵机,它虽然不是真正的图灵机,但行为很像。您觉得神经网络和图灵机之间有什么区别?

François Chollet: 我认为用梯度下降来拟合参数曲线适合我所说的“以值为中心的抽象”,也就是用连续的距离函数来比较事物。它会把事物(图片、概念或世界)嵌入到一个空间中,其中相似的点靠得更近,空间中的不同维度具有语义意义。曲线是连续的,所以适合这种比较方式。但它不适合我所说的“以程序为中心的抽象”,也就是处理图结构。我们比较图结构的时候,关注的是它们是否完全相同,或者一个图是否是另一个图的子图,而不是它们之间的距离。

比如,软件工程师在重构代码时,会把多个函数合并成一个。他们关注的是这些函数的功能是否相同,而不是它们的代码看起来有多相似。这是一个需要精确匹配的过程,不能只靠感觉。

主持: 您会怎么描述这种能力?它像是一种认知风险,而不是偶然风险,或者说是一种验证。

François Chollet: 对,基于验证的验证更贴切。它不像那种基于感知的、连续的距离比较。虽然直觉可以起到引导作用,但最终需要精确的验证。逐步比较的成本很高,需要集中注意力。所以我们不会对所有可能的函数都进行比较,而是先用直觉筛选出几个候选,再进行验证。我们可以快速比较离散的对象,但结果只是近似的,可能不准确。LLM也一样,它给出的答案感觉是对的,但实际上可能存在错误。所以使用LLM的时候,一定要进行验证。

主持: 观察您孩子成长的过程,对您理解智能和学习有什么启发?

François Chollet: 观察孩子,你会发现建构主义是正确的:孩子们是通过主动探索和尝试来学习的。他们会从经验中提取新的技能,并用于新的目标。

你会发现,学习(尤其对孩子来说)是一个反馈循环:注意到有趣的事情,形成目标,然后尝试达成目标,并从反馈中学习。比如,孩子在地板上爬,看到一个有趣的玩具,就会想要抓住它。这就是目标。然后他会尝试伸手去抓,并根据反馈调整动作,直到抓到玩具。在这个过程中,他学到了新的技能,并可以用于其他目标。孩子们设立目标总是基于已有的知识。刚出生的婴儿只有一些本能的反射,但随着他们不断探索,就会逐渐积累知识,并在已有的基础上构建新的知识,就像盖房子一样,一层一层往上建。

比如,婴儿最重要的感官运动程序之一就是嘴巴,因为他有吮吸反射。这是一种与生俱来的能力,不需要学习。它也很重要,因为它可以传递大量信息。婴儿还有抓握反射,但因为他还不能控制自己的四肢,所以无法使用。当他逐渐学会控制四肢后,就会想要抓东西,而且抓到东西后第一件事就是放进嘴里吮吸,因为他觉得这很有趣。他会把抓东西的技能添加到自己的技能库中,并在此基础上学习新的技能,比如爬行。他学习爬行是为了够到玩具,学习抓握是为了把玩具放进嘴里。他不需要学习吮吸,因为它已经是内置的技能了。所以,学习是一个逐层递进的过程。我们所知道的一切、所思考的一切,都是建立在更底层的技能之上的,最终可以追溯到婴儿的本能反射。

我相信,我们构建思维的方式(尤其对幼儿来说)是基于经验的。我们不能在真空中思考,必须从经验中提取素材。孩子越小,思维就越具体,与现实世界的联系越紧密。随着年龄增长,思维会变得越来越抽象,越来越脱离物质世界,但最终仍然是建立在物质基础之上的,就像一座高塔,虽然我们可能看不到地基,但它仍然支撑着整座塔。

主持: 所以,孩子们看到万花筒,万花筒是由宇宙中的抽象概念创造的,然后孩子们从万花筒中学习抽象概念,并进行推理。

François Chollet: 对,他们会注意到哪些经验和行为是可以重复利用的,并用它们来理解新的情况。随着年龄增长,他们会积累越来越多的抽象概念,这让他们能够更有效地理解世界。

主持: 您提到了“建构主义”。您认为孩子们构建的抽象概念是不同的,还是说它们会趋同于宇宙中已有的抽象概念?

François Chollet: 你是说不同的人会构建不同的模型吗?某种程度上是的,但因为这些模型都是从类似的经验中提取出来的,而且提取过程也类似,所以最终会很相似。虽然不同的孩子有不同的发展轨迹,但总体上是平行的,会经历类似的阶段,只是时间可能不同。

主持: 您说过,语言模型几乎没有智能。如果说它们几乎没有,那它们哪些方面有智能呢?

François Chollet: 很多人觉得这种说法很惊人,因为LLM看起来很强大、很有用、很像人类。说它们几乎没有智能,似乎有点不可思议。

但关键在于,智能和技能是不同的。你可以在没有智能的情况下拥有某种技能。智能指的是处理新情况、适应陌生环境并构建合适的模型的能力。LLM在这方面还很弱。如果问题和训练数据差别太大,它们就无法处理。如果你用AR-AGI这样的测试来衡量智能,你会发现,即使是最先进的LLM,得分也很低。

当然,它们的分数也不是零。这种适应新问题的能力,究竟是真正的智能,还是测试本身的漏洞,还很难说。也许是因为测试题和训练数据有重叠。这很难控制,因为LLM的训练数据量太大了,包含了几乎整个互联网的内容,我们不可能知道所有细节。所以,虽然LLM似乎可以组合已有的知识来解决一些新问题,但它们的泛化能力很弱。

主持: 这说到点子上了。很多人认为这种组合能力或推理能力就是模型构建。我的理解是,如果您把训练过程也看作是模型构建,那LLM确实在构建模型。

François Chollet: 对,我的意思就是这样。把曲线拟合到数据上,并检查一致性,这就是模型构建。但这种方法效率很低。为了得到一个好的模型,你需要大量的训练数据,覆盖所有可能遇到的情况。所以,它只是弱泛化,只能处理和训练数据很相似的情况。而真正的智能应该能够处理完全陌生的情况,因为现实世界不是一成不变的,每天都是新的挑战。

主持: 批评者可能会说(我理解这种观点),LLM在很多情况下都很有用,比如我经常用GitHub Copilot写代码,每个月要花不少钱呢。

它们看起来很聪明。因为它们训练数据量巨大,所以足以覆盖我们可能遇到的任何新情况。那问题出在哪里呢?

François Chollet: 我经常听到这种说法。有人觉得新颖性被高估了,只要有足够多的数据就能解决所有问题。

我不同意这种观点。想象一下,你用10年前的数据训练LLM,它肯定不知道现在的编程语言和库。世界是不断变化的。即使你每天都用最新的数据训练,仍然会遇到全新的、网上找不到答案的问题。这就是我们需要智能的地方。我相信,未来我们会创造出能够处理全新数据的系统,能够真正地创新。到那时,我们才能用AI来发展新的科学。现在的LLM最多只能重复网上已有的信息,无法带来真正的突破。

主持: 我再扮演一次魔鬼的代言人。我同意创造力和推理来自提问者,因为我们把模型拟人化了,高估了它们的作用。但即使在人类的引导下,LLM仍然可以探索已知信息的边界,即使不能创造全新的东西。

François Chollet: 确实可以,但正如你所说,这需要人类的引导,因为人类来判断结果是否有意义。这种外部验证机制限制了LLM的发挥。使用LLM的时候,要记住,它们擅长提供建议,但不要盲目相信,尤其在处理代码的时候。要把它们的输出作为起点,并进行验证。LLM擅长提供方向性的指导,但不擅长给出完全正确的答案。

主持: 这就是为什么所有成功的LLM应用都有一个人类监督者。

François Chollet: 对,或者用一个符号系统来进行外部验证。

主持: 现在我们来聊聊智能。我们的老观众知道,我和Yanick几年前就做过关于您“衡量智能”论文的节目,内容长达八个小时。我们仔细研究了那篇论文,非常精彩。您能简单介绍一下吗?

François Chollet: 好的。我对智能的定义是学习新技能的效率。所以,仅仅测试AI的某种技能是不够的,因为即使没有智能,也能在特定任务上表现出色。要衡量智能,要看系统学习新技能的速度,尤其是在数据有限的情况下。我们需要控制系统可以访问的信息,包括先验知识(训练前的信息)和经验(训练中的信息)。通过控制先验知识和经验,并测量技能的提升,我们就能评估系统学习新技能的效率。这就是AR-AGI数据集的目标。

主持: “衡量智能”的一个潜在问题是,它不可计算,因为我们无法穷举所有可能的任务。

François Chollet: 对,我在论文中提出的智能的数学定义是不可计算的。它的目的不是为了实际应用,而是为了帮助我们更清晰地思考智能的本质。它是一个思考工具,而不是一个计算工具。

主持: 当然。您在论文中有一张图,把智能系统描述成一个能够适应新环境并生成技能程序的东西。您把它叫做“元学习先验”。人类是天生就拥有这种能力,还是后天学习的?对AI来说也一样吗?

François Chollet: 这是一个好问题。智能不是技能本身,而是一种学习新技能的元技能。这种元技能是天生的还是后天习得的?我认为两者都有。我们天生就拥有学习的能力,但这种能力不是凭空产生的,它需要...它由两部分组成:合成引擎和抽象引擎。合成引擎负责把已有的积木组合成新的程序,来解决当前的任务。抽象引擎负责从经验、感知和已有的模型中提取新的积木,并储存起来供以后使用。积木库是通过经验积累的。积木库越丰富,合成新程序的效率就越高,学习新技能的速度也就越快。

所以,我认为这种学习机制是天生的。但随着不断使用,我们会不断完善它,就像打磨工具一样。我们不是从零开始学习智能,而是在不断提升它。

此外,合成引擎本身也包含学习的成分。合成新程序的能力也是一种技能,可以通过练习来提升。所以,一个15岁的孩子比10岁的孩子学习能力更强。

主持: 这很有意思。您把理性主义、先天论和经验主义结合起来了。您认为除了基本技能的组合之外,还有新的技能程序的创造。但更广泛的问题是,我们学习技能的过程,也就是您所说的“库学习”。孩子们会不断学习、精进、完善和构建抽象概念。但这肯定需要付出代价,因为我们不希望库太大。

François Chollet: 对,库太大就无法有效搜索了。

主持: 所以,会有某种修剪机制吗?或者它会收敛到某个大小?这就是为什么我们的认知发展在某个阶段会停滞不前吗?

François Chollet: 很有可能。这个问题很有深度,对构建AGI也很有 practical 意义。AGI也会有这样一个积木库。我们应该无限扩大这个库,还是限制它的大小,比如最多一百万个?

显然,我们学习新技能的效率不会无限增长,它会在某个阶段达到顶峰。我认为这里有一个权衡:我们的大脑容量是有限的,能够同时处理的信息量会随着年龄增长而下降。但我们使用的抽象概念的质量,以及组合它们的能力(也就是合成引擎的学习部分),会随着时间推移而提升。所以,一方面我们会变慢,另一方面我们会变得更聪明,这取决于经验。我认为智能的巅峰在20岁出头,那时学习新技能的效率最高。当然,这也要看情况。高级认知能力可能在20岁出头达到顶峰,但有些技能需要更早学习。我之前提到,认知是分层的,每一层都建立在前一层的基础上。底层的技能会在比较早的时候固化,通常在15岁之前。所以,如果你想掌握一些需要精细控制的技能,比如演奏乐器、唱歌或学习外语,最好在15岁之前开始。

主持: 关于抽象概念,可以说它受限于计算能力,也可以说它会趋同于宇宙中已有的抽象概念。但我更想谈谈您刚才提到的知识的重要性。我认识一位非常聪明的人,Keith Duggar,他教会了我如何思考。我感觉自己像重新编程了大脑一样,现在的我比20岁出头的时候聪明得多。

François Chollet: 你拥有了更好的抽象概念。

主持: 对,更好的抽象概念。但我也见过一些反例,有些教授过于依赖知识,而缺乏流体智力,他们的思维会比较僵化。所以,知识太多,流体智力不足,也不是好事。我们需要找到一个平衡点。

François Chollet: 对,这取决于你如何使用知识。有些人认为自己已经掌握了所有答案,所以不再学习新的东西。而有些人则不断收集和整理解决问题的方法,或者有趣的想法,即使不知道如何使用,也会把它们储存起来。当遇到新问题时,他们会尝试用已有的知识来解决,这 often 会带来新的发现。知识本身并不会让你更聪明,关键在于你如何使用它。如果你认为自己已经无所不知,就不会再去探索新的东西。相反,如果你不断收集和整理新的想法,并尝试把它们和已有的知识联系起来,就能获得新的洞见。

主持: 就像激活了新的模板一样。我可以用您的“衡量智能”论文举个例子。我之前花了几个星期研究这篇论文,读得很仔细,但仍然有很多地方不理解。现在我再看,很快就明白了。其他很多论文也一样,因为我学到了更多的抽象概念。我们一直在强调抽象概念的重要性,但这可能也有代价。因为理解变得太容易了,就像一个认知通路被点亮一样,我可能错过了一些其他的东西。

François Chollet: 当然。当你忽略细节,专注于整体时,就能更容易地理解。你不会再被细节困住,而是在更高的层次上看到新的东西。

主持: 在“衡量智能”论文的结尾,您介绍了ARC挑战赛(抽象与推理语料库)。能介绍一下吗?

François Chollet: 好的。ARC挑战赛是2019年提出的,它是一个数据集和基准测试,旨在衡量我在论文中提出的智能。它就像一个给机器做的智商测试,但对人类来说也很容易。它包含一系列的视觉推理任务。每个任务会给出几个(通常是2-4个)输入输出示例。输入是一个小型的彩色网格(通常是5x5到30x30),输出是另一个网格。你需要找出从输入到输出的转换规则,然后根据这个规则,把一个新的输入转换成输出。这对人类来说很容易。

数据集分为几个部分:公共训练集、公共验证集和私有测试集。公共训练集比较简单,旨在展示任务所基于的核心知识先验。核心知识指的是人类在4岁左右就应该掌握的一些基本概念,比如物体、几何形状、拓扑关系、因果关系等等。ARC中的所有任务都是基于这些核心知识的。公共训练集是为了演示这些核心知识。如果你不想把核心知识硬编码到系统中,而是想让系统从数据中学习,可以使用公共训练集。公共验证集的难度和私有测试集一样,用来测试你的解决方案。私有测试集用来评估比赛结果,不公开。我们找了两个人来做私有测试集的题目,他们的准确率都在97-98%之间。私有测试集包含100道题,所以他们每个人都答对了97-98道题。而且,他们答错的题目没有重叠,这说明,只要足够聪明,就能答对几乎所有题目。但事实证明,这对AI系统来说非常困难。

主持: 是的,Jack和他的团队做得很好。祝贺Mohammed、Jack和Michael!

François Chollet: 恭喜他们!顺便说一句,我知道一个没有公开的方法,可以达到至少49%的准确率,那就是把2020年比赛的所有提交结果都整合起来。

主持: 哇,为什么没人这么做呢?

François Chollet: 因为这不是公平的比较。每个提交都对蛮力程序搜索做了不同的调整。即使你把所有代码都整合起来,运行时间也太长了,超过了比赛限制。所以,这相当于用更多的算力来进行蛮力搜索。虽然结果会更好,但最终,如果有无限的算力,任何人都可以通过蛮力搜索来解决ARC。我们可以设计一种领域特定语言(DSL),用它来简洁地描述ARC中的转换规则。只需要几十个转换规则,加上几百个基本操作,就能表达所有ARC任务的解法。如果有无限的算力,就可以穷举所有可能的程序,找到正确答案。

主持: 这里有一个有趣的讨论点:即使有无限的算力,仍然存在选择的问题。比如,可以根据复杂度来选择程序。

François Chollet: ARC相对简单,因为你可以选择最简单的程序,也就是代码最短的程序。

主持: 最简单的程序就是最好的吗?

François Chollet: 经验上来看,是的。奥卡姆剃刀原理在实践中很有效。

主持: 您提到了Elizabeth Spelke的核心知识理论。您的方法似乎深受心理学的影响,也就是理解人类思维的心理学机制,并以此来构建AI。这样说对吗?

François Chollet: 我对“AI应该模仿人类认知”的说法持保留态度。我认为我们对人类思维的了解还不足以指导AI的构建。我对智能的运作方式和如何用软件来实现它有自己的想法,但这只是部分源于对人类思维的观察和内省。

主持: 您在论文中提出了一个智能的正式定义,但它不可计算,因为我们无法穷举所有可能的任务。您怎么看?

François Chollet: 对,这个定义只是为了帮助我们思考智能的本质,而不是为了实际计算。它是一个认知工具,而不是一个计算工具。

主持: 您把智能系统描述成一个能够适应新环境并生成技能程序的东西。您把它叫做“元学习先验”。人类是天生就拥有这种能力,还是后天学习的?对AI来说也一样吗?

François Chollet: 这是一个好问题。智能不是技能本身,而是一种学习新技能的元技能。这种元技能是天生的还是后天习得的?我认为两者都有。我们天生就拥有学习的机制,但这种机制不是在真空中运行的。它由两部分组成:合成引擎和抽象引擎。合成引擎负责把已有的积木组合成新的程序,来解决当前的任务;抽象引擎负责从经验、感知和已有的模型中提取新的积木,并储存起来供以后使用。积木库是通过经验积累的。积木库越丰富,合成新程序的效率就越高,学习新技能的速度也就越快。

所以,我认为这种学习机制是天生的,但我们会不断完善它,就像打磨工具一样。我们不是从零开始学习智能,而是在不断提升它。

此外,合成引擎本身也包含学习的成分。合成新程序的能力也是一种技能,可以通过练习来提升。所以,一个15岁的孩子比10岁的孩子学习能力更强。

主持: 这很有意思。您把理性主义、先天论和经验主义结合起来了。您认为除了基本技能的组合之外,还有新的技能程序的创造。但更广泛的问题是,我们学习技能的过程,也就是您所说的“库学习”。孩子们会不断学习、精进、完善和构建抽象概念。但这肯定需要付出代价,因为我们不希望库太大。

François Chollet: 对,库太大就无法有效搜索了。

主持: 所以,会有某种修剪机制吗?或者它会收敛到某个大小?这就是为什么我们的认知发展在某个阶段会停滞不前吗?

François Chollet: 很有可能。这个问题很有深度,对构建AGI也很有实际意义。AGI也会有这样一个积木库。我们应该无限扩大这个库,还是限制它的大小,比如最多一百万个?

显然,我们学习新技能的效率不会无限增长,它会在某个阶段达到顶峰。我认为这里有一个权衡:我们的大脑容量是有限的,能够同时处理的信息量会随着年龄增长而下降。但我们使用的抽象概念的质量,以及组合它们的能力(也就是合成引擎的学习部分),会随着时间推移而提升。所以,一方面我们会变慢,另一方面我们会变得更聪明,这取决于经验。我认为智能的巅峰在20岁出头,那时学习新技能的效率最高。当然,这也要看情况。高级认知能力可能在20岁出头达到顶峰,但有些技能需要更早学习。我之前提到,认知是分层的,每一层都建立在前一层的基础上。底层的技能会在比较早的时候固化,通常在15岁之前。所以,如果你想掌握一些需要精细控制的技能,比如演奏乐器、唱歌或学习外语,最好在15岁之前开始。

主持: 关于抽象概念,可以说它受限于计算能力,也可以说它会趋同于宇宙中已有的抽象概念。但我更想谈谈您刚才提到的知识的重要性。我认识一位非常聪明的人,Keith Duggar,他教会了我如何思考。我感觉自己像重新编程了大脑一样,现在的我比20岁出头的时候聪明得多。

François Chollet: 你拥有了更好的抽象概念。

主持: 对,更好的抽象概念。但我也见过一些反例,有些教授过于依赖知识,而缺乏流体智力,他们的思维会比较僵化。所以,知识太多,流体智力不足,也不是好事。我们需要找到一个平衡点。

François Chollet: 对,这取决于你如何使用知识。有些人认为自己已经掌握了所有答案,所以不再学习新的东西。而有些人则不断收集和整理解决问题的方法,或者有趣的想法,即使不知道如何使用,也会把它们储存起来。当遇到新问题时,他们会尝试用已有的知识来解决,这通常会带来新的发现。知识本身并不会让你更聪明,关键在于你如何使用它。如果你认为自己已经无所不知,就不会再去探索新的东西。相反,如果你不断收集和整理新的想法,并尝试把它们和已有的知识联系起来,就能获得新的洞见。

主持: 就像激活了新的模板一样。我可以用您的“衡量智能”论文举个例子。我之前花了几个星期研究这篇论文,读得很仔细,但仍然有很多地方不理解。现在我再看,很快就明白了。其他很多论文也一样,因为我学到了更多的抽象概念。我们一直在强调抽象概念的重要性,但这可能也有代价。因为理解变得太容易了,就像一个认知通路被点亮一样,我可能错过了一些其他的东西。

François Chollet: 当然。当你忽略细节,专注于整体时,就能更容易地理解。你不会再被细节困住,而是在更高的层次上看到新的东西。

主持: 在“衡量智能”论文的结尾,您介绍了ARC挑战赛(抽象与推理语料库)。能介绍一下吗?

François Chollet: 好的。ARC挑战赛是2019年提出的,它是一个数据集和基准测试,旨在衡量我在论文中提出的智能。它就像一个给机器做的智商测试,但对人类来说也很容易。它包含一系列的视觉推理任务。每个任务会给出几个(通常是2-4个)输入输出示例。输入是一个小型的彩色网格(通常是5x5到30x30),输出是另一个网格。你需要找出从输入到输出的转换规则,然后根据这个规则,把一个新的输入转换成输出。这对人类来说很容易。

François Chollet: 数据集分为几个部分:公共训练集、公共验证集和私有测试集。公共训练集比较简单,旨在展示任务所基于的核心知识先验。核心知识指的是人类在4岁左右就应该掌握的一些基本概念,比如物体、几何形状、拓扑关系、因果关系等等。ARC中的所有任务都是基于这些核心知识的。公共训练集是为了演示这些核心知识。如果你不想把核心知识硬编码到系统中,而是想让系统从数据中学习,可以使用公共训练集。公共验证集的难度和私有测试集一样,用来测试你的解决方案。私有测试集用来评估比赛结果,不公开。我们找了两个人来做私有测试集的题目,他们的准确率都在97-98%之间。私有测试集包含100道题,所以他们每个人都答对了97-98道题。而且,他们答错的题目没有重叠,这说明,只要足够聪明,就能答对几乎所有题目。但事实证明,这对AI系统来说非常困难。我在2019年发布了ARC,截至今天早上,最佳成绩是46%。

主持: 是的,Jack和他的团队做得很好。祝贺Mohammed、Jack和Michael!

François Chollet: 恭喜他们。我知道一个未公开的方法,可以达到至少49%的准确率,那就是把2020年以来所有参赛者的结果整合起来。

主持: 哇,为什么没有人这么做?

François Chollet: 因为这不公平。每个参赛者都对程序搜索做了不同的优化,即使你把所有代码整合起来,运行时间也太长了,超过了比赛限制。这相当于用更多的算力进行暴力搜索。虽然结果可能会更好,但最终,如果有无限的算力,任何人都可以暴力破解ARC。我们可以设计一种领域特定语言(DSL),简洁地描述ARC中的转换规则。只需要几十个转换规则,加上几百个基本操作符,就能表达所有ARC任务的解法。如果有无限的算力,就可以穷举所有可能的程序,找到正确答案。

主持: 有趣的是,即使有无限的算力,仍然存在选择的问题,比如可以根据程序的复杂度来选择。

François Chollet: ARC挑战赛相对简单,因为你可以选择最简单的,也就是代码最短的程序。

主持: 最简单的程序就是最好的吗?

François Chollet: 根据经验,是的。奥卡姆剃刀原理通常很有效。

主持: 您提到了Elizabeth Spelke的核心知识理论。您的方法似乎深受心理学的影响,也就是试图理解人类的认知机制,并以此来构建AI。

François Chollet: 我对“AI应该模仿人类认知”的说法持保留态度。我认为我们对人类思维的理解还不足以指导AI的构建。我对于智能的运作方式以及如何用软件实现智能有自己的想法,但这只是部分源于对人类思维的观察和内省。

主持: 您在论文中提出了一个智能的正式定义,但它不可计算,因为我们无法穷举所有可能的任务。

François Chollet: 是的,这个定义是为了帮助我们理解智能的本质,而不是为了实际计算。它是一个认知工具,而不是一个计算工具。

主持: 您把智能系统描述成一个能够适应新环境并生成技能程序的东西。您把它叫做“元学习先验”。人类是天生就拥有这种能力,还是后天学习的?对AI来说也一样吗?

François Chollet: 这是一个好问题。智能不是技能本身,而是一种学习新技能的元技能。这种元技能是天生的还是后天习得的?我认为两者都有。我们天生就拥有学习的机制,但这种机制不是在真空中运行的,它由两部分组成:合成引擎和抽象引擎。合成引擎负责把已有的积木组合成新的程序,以解决当前的任务;抽象引擎负责从经验、感知和已有的模型中提取新的积木,并储存起来供以后使用。积木库是通过经验积累的。积木库越丰富,合成新程序的效率就越高,学习新技能的速度也就越快。

所以,我认为这种学习机制是天生的,但我们会不断完善它,就像打磨工具一样。我们不是从零开始学习智能,而是在不断提升它。

此外,合成引擎本身也包含学习的成分。合成新程序的能力也是一种技能,可以通过练习来提升。所以,一个15岁的孩子比10岁的孩子学习能力更强。

主持: 您提到了核心知识理论。您的方法似乎深受心理学的影响,即理解人类思维的心理学机制,并以此构建AI。

François Chollet: 我对“AI应该模仿人类认知”的观点持保留态度。我们对人类思维的了解还不足以指导AI的构建。我对于智能的运作方式以及如何用软件实现智能有自己的想法,但这只是部分源于对人类思维的观察和内省。

主持: 您在论文中提出了一个智能的正式定义,但它是不可计算的。

François Chollet: 是的,这个定义是为了帮助我们理解智能的本质,而不是为了实际计算。它是一个认知工具。

主持: 您把智能系统描述为一个适应新环境并生成技能程序的东西,并称之为“元学习先验”。人类是天生拥有它,还是后天学习的?对AI也一样吗?

François Chollet: 好问题。智能不是技能,而是学习技能的元技能。这种元技能是天生的还是后天习得的?我认为两者兼而有之。我们天生就拥有学习机制,但它不是在真空中运行的。它由合成引擎和抽象引擎组成。合成引擎将现有积木组合成新程序来解决任务;抽象引擎从经验、感知和现有模型中提取新积木并存储。积木库越丰富,合成效率越高,学习速度越快。

所以,学习机制是天生的,但我们会不断完善它。我们不是从零学习智能,而是在不断提升它。合成引擎本身也包含学习的成分。合成新程序的能力也是一种技能,可以通过练习提升。因此,15岁孩子的学习能力比10岁孩子强。

主持: 您在“衡量智能”论文结尾介绍了ARC挑战赛。能介绍一下吗?

François Chollet: ARC挑战赛发布于2019年,是一个数据集和基准测试,用于衡量我提出的智能定义。它就像机器的智商测试,对人类也很容易。它包含一系列视觉推理任务。每个任务提供几个(通常2-4个)输入输出示例。输入是一个彩色网格(通常5x5到30x30),输出是另一个网格。你需要找出输入到输出的转换规则,并应用到新输入上生成输出。这很容易。

数据集分为几部分:公开训练集、公开验证集和私有测试集。公开训练集比较简单,用于演示任务所基于的核心知识先验——人类4岁左右应掌握的基本概念,如物体、几何、拓扑、因果关系等。ARC所有任务都基于这些核心知识。公开训练集用于演示这些知识。如果你不想硬编码核心知识,而希望系统从数据中学习,可以使用公开训练集。公开验证集的难度与私有测试集相同,用于测试解决方案。私有测试集用于评估比赛,不公开。我们找了两个人做私有测试集,准确率97-98%。私有测试集有100题,他们答对了97-98题。他们错的题目不一样,说明只要足够聪明,就能答对几乎所有题。但这对AI很难。2019年发布ARC,目前最高准确率46%。

主持: 祝贺Jack和他的团队!

François Chollet: 恭喜!我知道一个未公开的方法,准确率至少49%:整合2020年以来所有参赛者的结果。

主持: 为什么没人这么做?

François Chollet: 因为不公平。每个参赛者都对程序搜索做了不同优化,即使整合所有代码,运行时间也太长。这相当于用更多算力暴力搜索。虽然结果更好,但如果有无限算力,谁都能暴力破解ARC。我们可以设计DSL来简洁描述ARC的转换规则。只需几十个规则和几百个基本操作符就能表达所有解法。无限算力下,可以穷举所有程序,找到正确答案。

主持: 即使有无限算力,仍然存在选择问题,比如根据复杂度选择。

François Chollet: ARC相对简单,可以选择最简单的程序,也就是代码最短的。

主持: 最简单的就是最好的吗?

François Chollet: 经验上,是的。奥卡姆剃刀原理通常有效。

主持: 您提到了Elizabeth Spelke的核心知识。您似乎深受心理学影响,即理解人类认知并以此构建AI。

François Chollet: 我对“AI应模仿人类认知”持保留态度。我们对人类思维的理解不足以指导AI构建。我对智能和如何用软件实现它有自己的想法,但这部分源于观察和内省。

主持: 您的智能定义不可计算。

François Chollet: 是的,它用于理解智能的本质,而非实际计算。它是认知工具。

主持: 您将智能系统描述为适应新环境并生成技能程序的东西,称之为“元学习先验”。人类天生拥有它还是后天学习?对AI一样吗?

François Chollet: 好问题。智能不是技能,而是学习技能的元技能。它是天生的还是后天学习的?两者都有。我们天生有学习机制,但它不是凭空运行的。它包含合成引擎和抽象引擎。合成引擎将现有积木组合成新程序解决任务;抽象引擎从经验、感知和模型中提取新积木并存储。积木库越丰富,合成效率越高,学习越快。

学习机制是天生的,但我们会不断完善它。我们不是从零学习智能,而是不断提升。合成引擎本身也包含学习。合成新程序的能力也是技能,可以练习提升。15岁孩子比10岁孩子学习能力强。

主持: ARC挑战赛是什么?

François Chollet: 它用于衡量我提出的智能定义,像机器的智商测试,对人类也很容易。它包含一系列视觉推理任务。每个任务提供一些输入输出示例。输入是一个彩色网格,输出是另一个网格。你需要找出转换规则,并应用到新输入生成输出。

数据集分为公开训练集、公开验证集和私有测试集。公开训练集演示核心知识先验——人类4岁左右应掌握的概念,如物体、几何、拓扑、因果关系等。ARC所有任务基于这些。公开训练集用于演示这些知识。如果你不想硬编码知识,而希望系统学习,可以使用它。公开验证集难度与私有测试集相同,用于测试方案。私有测试集用于评估比赛,不公开。我们找人做私有测试集,准确率97-98%。私有测试集有100题,他们答对了97-98题。他们错的题目不同,说明只要足够聪明,就能答对几乎所有题。但这对AI很难。ARC发布于2019年,目前最高准确率46%。

主持: 祝贺 Jack 和他的团队!

François Chollet: 恭喜!我知道一个未公开的方法,准确率至少 49%:整合 2020 年以来所有参赛者的结果。

主持: 为什么没人这么做?

François Chollet: 因为这不公平。每个参赛者都用了不同的程序搜索优化策略。即使整合所有代码,运行时间也太长,相当于用更多算力暴力搜索。虽然结果可能更好,但如果有无限算力,任何人都可以暴力破解 ARC。我们可以设计一种领域特定语言 (DSL) 简洁地描述 ARC 的转换规则。只需几十个规则和几百个基本操作符就能表达所有解法。无限算力下,可以穷举所有程序,找到正确答案。

主持: 即使有无限算力,仍然要选择合适的程序,比如可以根据复杂度选择。

François Chollet: ARC 相对简单,可以选择最简单的程序,也就是代码最短的。

主持: 最简单的就是最好的吗?

François Chollet: 经验上来看,是的。奥卡姆剃刀原理通常有效。

主持: 您提到了 Elizabeth Spelke 的核心知识理论。您似乎深受心理学影响,即理解人类认知并以此构建 AI。

François Chollet: 我对“AI 应模仿人类认知”持保留态度。我们对人类思维的理解不足以指导 AI 构建。我对智能和如何用软件实现它有自己的想法,但这部分源于观察和内省。

主持: 您的智能定义不可计算。

François Chollet: 是的,它用于理解智能本质,而非实际计算,是认知工具。

主持: 您将智能系统描述为适应新环境并生成技能程序的东西,称之为“元学习先验”。人类天生拥有它还是后天学习?对 AI 一样吗?

François Chollet: 好问题。智能不是技能,而是学习技能的元技能。它天生还是后天学习?两者都有。我们天生有学习机制,但它不是凭空运行的。它包含合成引擎和抽象引擎。合成引擎组合现有积木创建新程序解决任务;抽象引擎从经验、感知和模型中提取新积木并存储。积木库越丰富,合成效率越高,学习越快。学习机制是天生的,但我们会不断完善它。我们不是从零学习智能,而是不断提升。合成引擎本身也包含学习。合成新程序的能力也是技能,可以练习提升。15 岁孩子比 10 岁孩子学习能力强。

主持: 您怎么看待 Sainbayar Sukhbaatar 提出的 LLM 模块化架构?它用神经符号 LLM 生成想法,再用批评家评估。

François Chollet: 我觉得这个方向是对的。不应该盲目相信 LLM 的输出,而应该把它当成一个直觉建议引擎。它能提供候选方案,但不要盲目相信它们完全正确,需要验证。这就是 LLM 模块化外部验证器的强大之处:它避免了组合爆炸问题,又不受 LLM 系统二能力弱的限制。因为最后一步验证是由真正的系统二完成的。

主持: 这个架构很有趣,它是双向的,验证器可以提供反馈,LLM 可以微调。但我感觉它比较脆弱,因为验证器是领域特定的,这和 ARC 挑战赛的解决方案不太一样。

François Chollet: 对,它通常是领域特定的。而且,并非所有领域都有外部验证器。程序合成,尤其是 ARC 挑战赛,是有外部验证器的,因为你知道预期输出,生成的程序也可以执行和验证。但很多其他程序没有这种保证。

主持: 我们来谈谈能动性。我认为能动性是指系统中具有自我因果性和意向性,能够控制未来的虚拟部分。它是智能的必要条件。我知道您不同意,但您认为能动性和智能之间有什么关系?

François Chollet: 很多人认为能动性和智能几乎是同义词。我喜欢区分它们。智能是代理用来实现目标的工具,它与感官运动空间有关,但不同。它也和设定目标的能力不同,甚至和世界模型也不同。

比如即时战略游戏,小地图就是世界模型,玩家右键点击设定目标,而智能就是寻路算法,它根据世界模型和目标,找到最佳路径。智能是导航意图、在未来情境空间中寻找路径的工具。它不是代理本身。代理包含目标设定机制(玩家)、世界模型(小地图)、感官运动空间和反馈机制。智能只是其中一部分,它将信息转化为可行动的模型,用于规划和行动。它将世界信息转化为可以预测世界变化的模型。

主持: 我同意。但我认为,能动性和智能不一定是显式的。在和卡尔·弗里斯顿交流后,我意识到,在我们所处的粒子系统中,功能、动力学和行为,以及能动性和智能,都不是显式存在的。世界模型也不是一个集合。所以,能动性和智能更像是虚拟属性,而不是物理属性。当然,我们可以构建一个所有组件都显式的 AI 系统,但这和现实世界中的智能可能不太一样。

François Chollet: 对,我们在构建第一个 AGI 时,可能会把这些组件显式地分开,因为这样更容易实现。

主持: 您之前提到了功能动力学,我很感兴趣。您对此有何看法?

François Chollet: 老实说,我还在思考这个问题,没有形成清晰的想法。但我认为这和人类思维进行程序合成的方式有关。我认为有两个层面:长期层面和短期层面。长期层面涉及抽象概念的提取、记忆的形成和神经可塑性。我们通过改变大脑中的连接来存储可重用的程序。

主持: 您的智能理论强调内部表征,也就是我们头脑中的世界模型。但您也提到过外部主义的观点,认为很多认知发生在大脑之外。如何调和这两种观点?

François Chollet: 我相信大部分认知都是外部化的。比如我们说话用的词语、思考用的概念,都不是我们自己发明的。如果所有知识都要靠自己摸索,那我们的大脑需要进化很长时间才能变得聪明。我不认为这两种观点有矛盾。我们每个人都拥有智能,可以独立思考,从经验中提取抽象概念,并用它们来理解新情况。但我们也生活在社会中,可以交流和分享知识。这些抽象概念可以通过语言、书籍、程序等形式外部化,然后被其他人学习和使用。这就是文化。我们可以把文化下载到我们的大脑中,就像在《黑客帝国》里下载技能一样。学习物理、数学等知识,就是在下载可重用的思维模板。然后我们可以在自己的头脑中组合和应用这些模板,解决新的问题。这会让我们更聪明,学习效率更高。

主持: 您说得真好。我读过几本关于这个主题的好书,比如《语言游戏》和 Max Bennett 的《智能》。它们都提到了模仿信息共享的可塑性,让我们可以站在巨人的肩膀上。

François Chollet: 这里还有一个有趣的角度。我刚才描述的是,人类个体从经验中提取抽象概念,并通过语言等方式外部化,然后其他人可以学习和使用。在这个模型中,抽象的生成和组合发生在大脑内部,而外部化的只是存储状态。我们可以把抽象概念从大脑中提取出来,存储在书籍、程序等外部载体中,然后再下载到大脑中。但要使用这些抽象概念,就必须先把它们内化到我们自己的思维中。

那么,抽象的生成和组合能否在大脑之外发生呢?这正是 AGI 要做的事情,它将合成和抽象的过程用软件实现。但我们现在是否有这样的外部化过程呢?我认为科学就是这样一种过程。科学研究是一种合成,虽然是由人类驱动的,但它不完全发生在大脑内部。我们可以对超出个人大脑容量的空间进行组合搜索。很多发明创造都是如此。

比如设计计算机,我们无法在大脑中模拟整个系统,而是将模型分布在不同的文档和工具中。我相信,人类文明正在实现这种分布式合成。智能的一部分是外部化的,分布在不同的大脑中,通过操纵外部符号和工具来实现。这就是我们文明的基础,因为我们创造的系统太复杂了,没有人能够完全理解。我们无法在单个大脑中完成发明创造,而是用大脑来驱动更大规模的外部化过程。所以,认知不仅体现在我们可以记录和阅读想法,还体现在我们可以将智能的运作过程外部化。

主持: 我完全同意。您写过关于智能的集体性、情境性和外部化。但问题是,像模仿这样的事情是否会发生在生物学之外?它在基因中存在,但您也可以说它发生在任何具有特定功能动力学的开放物理系统中。所以,真正的关键问题是,抽象概念从何而来?也许我们的大脑只是擅长从现实世界中提取抽象概念,而外部世界本身就已经存在这些抽象概念了。

François Chollet: 是的,我认为目前的外部化认知方式不如大脑内部的认知方式高效。智能是一种搜索过程,是对各种组合的搜索。目前的外部化搜索,比如技术和科学的发展,效率还不够高,更像是暴力搜索。尤其是在深度学习领域,我们基本上是在尝试所有可能性,直到找到有效的方法。我相信,如果人类有足够的大脑容量,就能更高效地找到解决方案。

主持: Ryan Greenblatt 认为,即使在一个封闭的房间里,或者作为一个缸中之脑,纯粹的智能仍然可以推理和解决任务。但另一种观点认为,物理性和具身性非常重要。我问过 Mary Shanahan,为什么我们需要实体机器人?他说,机器人通过与现实世界互动,理解事物之间的因果关系,从而更高效地构建模型。但这也许只是为了学习现实世界中已有的抽象概念。

François Chollet: 智能需要一个环境来运行,需要有目标和行动。它不能凭空存在,也不能无中生有。它需要有素材来进行组合和重组。这就是为什么具身性很重要。

对于人类来说,认知是分层的,每一层都建立在更底层的技能之上,最终可以追溯到婴儿的本能反射。比如,婴儿学习抓握是为了把东西放进嘴里,学习爬行是为了够到更多的东西。即使是抽象的数学思考,最终也是建立在这些基本的感官运动程序之上的。

所以,具身性很重要。但与此同时,身体的类型和感官运动空间的种类在很大程度上是可替换的。对于真正的 AGI 来说,你可以给它任何环境、任何感官运动空间、任何领域特定语言,它都能进行智能的思考。所以,重要的是具身性本身,而不是身体的具体形式。

另一件重要的事情是目标设定,它与具身性和智能都不同。如果只有一个大脑,没有任何目标,那就不会有智能的思考,也不会采取任何行动。目标是驱动思考的动力。尤其是对孩子来说,学习的动力来自于设定和实现目标。我们不能被动地观察世界,而没有自己的目标,那样就无法建立好的世界模型。目标设定是智能代理的关键组成部分。

主持: 我完全同意。但我认为,智能有很多种表现形式,我们可以构建一个抽象的、显式的版本,在计算机上运行,它不一定需要模仿人类的智能。

François Chollet: 是的,我认为第一个AGI的架构可能和人类智能的架构很相似,但最终可能会发展出完全不同的智能形式。

主持: 您说过,语言是思维的操作系统。这是什么意思?

François Chollet: 操作系统不是计算机本身,而是让计算机更容易使用、更有用的工具。它让用户可以更好地利用计算机的功能。语言对思维的作用也类似。语言不同于思维,也不同于智能或世界模型,但它是代理用来增强思维能力的工具。

我相信语言和思维是分开的。语言是思维的工具。它有什么用呢?它可以让我们的思想变得可内省。我们可以用语言来表达思想,然后反思、观察和比较它们。更重要的是,我们可以用语言来索引和检索记忆。如果没有语言,我们就只能依靠外部刺激来唤起记忆,就像普鲁斯特的马德琳蛋糕一样。但有了语言,我们就可以主动地搜索和提取记忆。语言让我们可以表达想要检索的内容,也可以让我们组合更复杂的思想。

这就像编程一样。你可以用汇编语言编写程序,但效率很低。有了操作系统和高级编程语言,就可以编写更复杂的软件。语言就像思维的操作系统,它增强了我们的思维能力,让我们可以处理更复杂的问题。虽然我们的可编程性没有改变,但工具变得更好了,我们也更有能力了。智能就是利用语言这样的工具来增强自身。

主持: 是的,我们用抽象概念构建了越来越复杂的思维体系。就像《语言游戏》中提到的,剪刀是物理工具,而语言是思维的工具。我们可以组合不同的工具来解决不同的问题。我们来谈谈意识。您认为意识在儿童身上是逐渐发展的。这对机器意识有什么启发?

François Chollet: 我对机器意识本身不感兴趣,我更关注智能和认知的其他方面。意识和智能有一定的联系,比如系统二思考通常伴随着意识。但它们的关系还不清楚,我对意识的理解也有限,所以我对那些对意识有很强确定性的人持怀疑态度。

我相信机器意识原则上是可能的,但我们现在还没有任何接近的东西。要让机器有意识,它需要比深度学习模型更复杂的机制。它需要有持续的状态,受外部刺激的影响,但又不完全由外部刺激决定。它需要在时间上保持一致性和连续性,能够影响自身的未来状态,而不是简单的反应式系统。它还需要能够表征自身,进行内省。我们现在还没有这样的系统。

您提到我说过婴儿并非天生有意识,这很有争议。首先,我们无法确定任何人在任何阶段是否有意识。但我认为,子宫里的婴儿不太可能有意识,因为他们几乎一直在睡觉。他们有两种睡眠状态:深度睡眠和活跃睡眠。活跃睡眠时他们会动,但仍然是睡着的。他们之所以一直睡觉,是因为子宫里的低氧环境和胎盘分泌的麻醉物质让他们保持镇静状态。虽然他们的大脑仍然在学习,但只是被动地接收信息,计算统计数据。

所以我认为子宫里的婴儿没有意识。出生后,他们的意识从零开始发展。随着他们逐渐醒来,探索世界,意识也逐渐增强。这不是一个突然的转变,而是一个渐进的过程。即使醒来后,他们也需要时间来发展意识,因为他们还没有世界模型,没有对自身的认识,也没有真正的感知流,因为他们还没有学会控制自己的感官。所以,意识是从零开始逐渐发展的。到了一定程度,他们就有了基本的意识,就像其他哺乳动物一样。但这还不是成年人的意识水平。成年人的意识水平要到2-3岁才开始发展。这并不意味着他们之前没有意识,只是意识水平很低。意识需要时间来发展。

有一些证据可以支持我的观点。比如,如果你测量儿童的注意瞬脱,会发现3岁以下儿童的注意瞬脱比成年人慢得多,他们对时间和世界的感知更粗糙。我认为这就是为什么他们的意识水平比较低。

我还认为,意识水平会在9-10岁左右达到顶峰,然后逐渐下降,但下降幅度不大。90岁老人和10岁儿童的意识水平差异很小,但仍然存在。我认为这和我们对时间的主观感受有关。意识水平越高,对时间的感知就越慢,因为你能在单位时间内注意到更多的事情。

你可以把意识想象成世界模型中的一个焦点,它连接着其他的概念和记忆。连接越多、越深,意识水平就越高。如果你意识水平高,就能在一个信号中注意到更多的东西,建立更多的联系。相反,如果你意识水平低,对现实的感知就比较粗糙,只能注意到很少的东西,对时间的感知也比较快。就像喝了酒一样,你的意识水平下降,事情似乎变快了,你也注意不到那么多东西了。

1岁幼儿的注意瞬脱很低,对时间的感知很快。虽然我们常说孩子对时间的感知比较慢,但这取决于年龄。1岁的孩子意识水平很低,所以时间过得很快。但7岁或10岁的孩子,时间就过得比较慢了。意识水平会一直提高,直到19岁左右达到顶峰,然后开始下降,因为我们对时间的感知越来越不敏感。

主持: 我记得小时候很容易感到无聊,但现在很久没有这种感觉了。我采访过 Mark Solms 教授,他的书《隐藏的泉源》认为,意识是预测误差。我们对一件事情越熟悉,就越不注意它,意识水平就越低。随着年龄增长,很多事情都变得自动化了,所以我们对时间的感知也变快了。您提到的意识水平高低很有意思,就像一个调光器。您在谈到中文房间论证时说过,理解是系统功能动力学的虚拟属性。您是否也认为意识是虚拟属性?

François Chollet: 我认为是。它与物质基质没有强关联。理论上,我们可以在硅芯片上实现意识,只是我们现在还没有做到,也离得很远。但原则上,我认为这是可能的。

主持: 我们先不讨论意识的难题(什么是意识体验)。Mark Solms 认为这个问题没有意义。

François Chollet: 但我认为这个问题很重要。有些人认为意识只是信息处理系统的一种感觉,但这并没有解释意识体验本身。我们每个人都有意识体验,无法否认它的存在。虽然我们可以描述意识的很多方面,但无法用语言表达主观体验的感受。它确实存在,只是我们不知道它是什么。

主持: 您认为动物有意识吗?

François Chollet: 是的,但不是所有动物都有。我相信意识有程度之分,动物的意识水平可能比人类低,但差别可能不大。

主持: 您认为地球有意识吗?

François Chollet: 不,我不这么认为。非生物系统缺乏意识的必要条件,比如无法维持一个受自身影响、自洽的内部状态,无法表征自身,也无法进行内省。

主持: 您认为所有美国人的集合体可以被视为一个有意识的实体吗?

François Chollet: 不,我不这么认为。它也缺乏意识的必要条件。

主持: 所以,意识需要与环境有物理连接,不能是分布式的虚拟实体?

François Chollet: 你可以想象一个分布式的意识实体,但我不认为所有美国人的集合体符合意识的定义,因为它没有一个自洽的内部状态,无法表征自身,也无法进行内省。即使一个软件系统具备了这些条件,也不一定有意识,只是有可能有意识。如果它还能表现出类似“顿悟”的行为,那就更有可能了。

那么,如何判断一个系统是否有意识呢?这很难,我不认为有确凿的证据。但我认为,如果一个系统具备了所有必要条件,并且能够表达关于自身内部状态的陈述,而且这些陈述不是简单的重复,而是源于自身的体验,那就很可能是有意识的。

比如,一个两岁的孩子说“我想哭”,这和他的行为一致,而且他之前没听过别人这么说,所以他很可能是在表达自己的感受,体验到了“想哭”这种感觉。在这种情况下,我们有理由相信他是有意识的。

主持: 您批评奇点论和末日论,您认为这些极端观点的驱动力是什么?

François Chollet: 我认为它们是好故事,关于世界末日的故事,我们正处于末世,并且可以扮演某种角色。这些故事在科幻小说和宗教中很常见,它们的历史也很悠久。它们之所以流行,是因为它们是好的模因,容易传播,而且迎合了人们对意义的渴望。就像宗教一样,它们在今天仍然有市场。

主持: 您认为这里面有弥赛亚情结吗?

François Chollet: 当然有。在旧金山,有些人沉迷于构建AGI,并把自己想象成救世主。但我认为构建AGI是一个科学问题,而不是宗教追求。它经常与永生的想法联系在一起,认为AGI可以让人类永生。这是一种宗教式的想法。有些人认为,第一个创造AGI的人将成为神。我不同意这种观点。AGI只是一个工具,可以将数据转化为模型。它很有用,但不会让你成为神。你可以用它来研究科学或延长寿命,但它不会自动让你永生。

如果你能高效地将信息转化为可行动的模型,你的瓶颈很快就会变成信息本身。比如,一个可以研究物理的AGI,可以快速合成新的物理理论。但问题是,现在的人类科学家已经非常擅长提出新的理论了,以至于我们收集实验数据的速度跟不上理论提出的速度,就像弦理论一样。这说明,如果你太聪明了,信息就会成为瓶颈。所以,不会出现智能爆炸的情况。

主持: 有什么能让您改变主意吗?我和 Greenblatt 讨论过这个问题,我们的分歧主要在于能动性。我认为系统不会有真正的能动性,所以不存在失控的风险。很多关于AI风险的讨论,比如工具性趋同和正交性,都是基于目标和能动性的。没有能动性,就没有风险。您同意吗?如果AI有了能动性,您会认为有风险吗?

François Chollet: 我同意。智能与能动性和目标设定是分开的。单独的智能只是将信息转化为可行动模型的工具,它没有方向,也不能设定自己的目标。目标设定是外部的,需要我们来指定。

当然,你可以把AGI和一个自主的目标设定系统结合起来,创建一个可以自己设定目标的代理,然后给它控制核武器的权限。这当然很危险,但这危险是我们自己设计的。一旦我们有了AGI,我们有足够的时间来预测和防范这些风险。AGI本身并不危险,危险在于我们如何使用它。我们才是控制者,因为AGI不能自己设定目标,除非我们给它设计了目标设定机制。为什么要这么做呢?所以,困难和危险的部分不是智能本身,而是目标设定和行动空间。如果你想创造一个危险的东西,让它自己设定目标并在现实世界中行动,你不需要很高的智能,现在就已经可以做到了。

主持: 存在风险是一个值得研究的问题,比如核风险。我知道很多人不仅关注AI风险,也关注其他风险。但您如何看待这些担忧背后的动机?有些人认为,有效利他主义和开放慈善只是为了获取权力和控制。

François Chollet: 当然有这种可能。但我认为,很多真正相信这些风险的人,只是因为他们想要相信,这和宗教信仰很类似,并不理性。一旦我们有了AGI,我们就可以开始认真考虑这些风险了。我不认为AGI会突然觉醒并控制世界。智能只是将数据转化为模型的软件,如何使用它取决于我们。

主持: 我们可以把这个问题抽象成安全和治理的问题。如果不谈极端的风险,只谈虚假信息、深度伪造、版权侵犯等问题,您认为我们应该加强监管吗?这样做会不会损害创新?

François Chollet: 我认为当前的AI技术确实存在一些风险,需要某种形式的监管来保护公众。但我认为目前的监管提案并不理想,它们更多地限制了创新,而不是保护公众。它们可能会加剧AI领域的权力集中,而不是真正解决问题。监管AI很困难,也许更好的办法是利用现有的法律法规来保护人们,而不是制定新的AI specific 的法规,因为这很困难,而且我根据目前的情况来看,我不认为我们会做得很好。

主持: François Chollet,非常荣幸和您交流,谢谢您!

François Chollet: 不客气,谢谢邀请!


森林聊AI商业
每日一起了解,AI如何改变科技世界
 最新文章