DeepMind提出了一个框架,用于对通用人工智能(AGI)模型及其前身的能力和行为进行分类。该框架引入了 AGI 性能、通用性和自治性的级别。框架能够以类似于自动驾驶水平的方式发挥作用,提供一种通用语言来比较模型、评估风险和衡量通用人工智能道路上的进展。同时分析了 AGI 的现有定义,并提炼出有用的 AGI 本体应满足的六个原则。这些原则包括关注能力而非机制;分别评估通用性和性能;定义通向 AGI 的道路上的阶段,而不是关注终点。考虑到这些原则,DeepMind根据能力的深度(性能)和广度(通用性)提出“AGI 级别”,并反思当前系统如何适应这一本体。讨论了未来基准的挑战性要求,这些基准根据这些级别量化 AGI 模型的行为和功能。最后,我们讨论这些级别的 AGI 如何与自主性和风险等部署考虑因素相互作用,并强调仔细选择人机交互范例以负责任和安全地部署高性能人工智能系统的重要性。
定义 AGI:案例研究
案例研究 1:图灵测试
图灵测试(Turing,1950)也许是最著名的类似 AGI 概念的尝试。图灵的“模仿游戏”被认为是一种操作机器是否能够思考的问题的方法,并要求人类以交互方式区分文本是由另一个人还是由机器产生。最初设计的测试是一个思想实验,并且是许多批评的主题;在实践中,测试常常强调愚弄人们的容易程度,而不是机器的“智能”。鉴于现代法学硕士通过了图灵测试的一些框架,显然这一标准不足以实现 AGI 的操作或基准测试。我们同意图灵的观点,即机器是否可以“思考”,虽然是一个有趣的哲学和科学问题,但似乎与机器可以做什么的问题正交;后者更容易衡量,对于评估影响也更重要。因此,我们建议 AGI 应根据能力而不是流程来定义。
案例研究 2:强人工智能——拥有意识的系统
哲学家约翰·塞尔沉思道:“根据强人工智能,计算机不仅仅是研究心智的工具;相反,经过适当编程的计算机确实是一个心智,从某种意义上说,给予正确程序的计算机可以字面上说 理解并具有其他认知状态”。虽然强人工智能可能是实现通用人工智能的途径之一,但对于确定机器是否具有意识等强人工智能属性的方法尚未达成科学共识,这使得该框架以过程为导向的焦点不切实际。
案例研究 3:与人脑的类比
“通用人工智能”一词最初出现在马克·古布鲁德 1997 年发表的一篇有关军事技术的文章中,其中将 AGI 定义为“在复杂性和速度上与人脑相媲美或超越的人工智能系统,能够获取、操纵和推理 一般知识,并且基本上可用于需要人类情报的工业或军事行动的任何阶段。” 这个早期的定义除了能力之外还强调过程(在复杂性上与人脑相媲美);虽然现代 ML 系统底层的神经网络架构松散地受到人脑的启发,但基于 Transformer 的架构(其性能不依赖于类人学习)的成功表明,严格的基于大脑的流程和基准对于 AGI 来说并不是本质上必要的。
案例研究 4:人类水平的认知任务表现
Legg 于 2001 年在计算机科学家中普及了 AGI 一词,将 AGI 描述为能够完成人类通常可以完成的认知任务的机器。该定义特别关注非物理任务(即不需要机器人作为 AGI 的先驱)。与 AGI 的许多其他定义一样,这个框架在诸如“什么任务?”之类的选择上存在模糊性。和“哪些人?”。
案例研究 5:学习任务的能力
沙纳汉在《技术奇点》中提出,AGI 是“人工智能,不是专门执行特定任务,而是可以学习执行与人类一样广泛的任务。” 该框架的一个重要特性是它强调将元认知任务(学习)纳入实现 AGI 的要求中的价值。
案例研究 6:具有经济价值的工作
OpenAI 的章程将 AGI 定义为“在最具经济价值的工作中超越人类的高度自治系统”。该定义根据“能力,而不是流程”标准具有优势,因为它侧重于与底层机制无关的性能;此外,这个定义还提供了一个潜在的衡量标准,即经济价值。这个定义的缺点是它没有涵盖可能属于“一般情报”一部分的所有标准。有许多与智力相关的任务可能没有明确的经济价值(例如艺术创造力或情商)。这些属性可能会在经济指标中间接得到体现(例如,艺术创造力可能会产生书籍或电影,情商可能与成为成功首席执行官的能力有关),尽管经济价值是否涵盖了“智力”的全部范围仍不清楚。从经济价值角度构建 AGI 的另一个挑战是,这意味着需要部署 AGI 来实现该价值,而对能力的关注可能只需要 AGI 执行任务的潜力。我们很可能拥有技术上能够执行经济上重要任务的系统,但由于各种原因(法律、道德、社会等)而没有意识到经济价值。
案例研究 7:灵活且通用——“咖啡测试”和相关挑战。
马库斯认为,AGI 是“任何灵活且通用的智能(可能有很多)的简写,其足智多谋和可靠性可与(或超越)人类智能相媲美”。该定义同时体现了通用性和性能(通过包含可靠性);“灵活性”的提及值得注意,因为与沙纳汉的表述一样,这表明元认知任务(例如学习新技能的能力)必须包含在 AGI 的能力集中,以便实现足够的通用性。此外,马库斯通过提出五个具体任务(理解电影、理解小说、在任意厨房做饭、编写无错误的 10,000 行程序以及将自然语言数学证明转换为符号形式)来实施他的定义。定义与基准相结合是很有价值的;然而,还需要做更多的工作来建立一个足够全面的基准。虽然我们同意,失败其中一些任务表明系统不是 AGI,但尚不清楚通过这些任务是否足以获得 AGI 地位。在 AGI 测试部分,我们进一步讨论了开发一组对于捕获 AGI 通用性来说既必要又充分的任务所面临的挑战。我们还注意到,马库斯提出的任务之一“在任意厨房中担任称职的厨师”(史蒂夫·沃兹尼亚克的“咖啡测试”的变体)需要机器人体现;这与关注非体力任务的其他定义不同3。
案例研究 8:人工智能
在《未来浪潮》中,苏莱曼提出了“人工智能(ACI)”的概念,指的是具有足够性能和通用性的人工智能系统,能够在开放世界中完成复杂、多步骤的任务。更具体地说,苏莱曼提出了一个基于经济的 ACI 技能定义,他称之为“现代图灵测试”,其中人工智能将获得 10 万美元的资本,并负责在几个月内将其转化为 100 万美元。这一框架比 OpenAI 对具有经济价值的工作的定义更为狭窄,并且还有一个额外的缺点,即仅以财政利润为目标,可能会带来调整风险。然而,苏莱曼概念的优势在于专注于执行人类重视的复杂、多步骤任务。从更广泛的角度来看,ACI 对复杂的现实世界任务的重视值得注意,因为此类任务可能比许多当前的人工智能基准具有更高的生态有效性;马库斯前面提到的五项灵活性和通用性测试似乎也符合 ACI 的精神。
案例研究 9:SOTA LLMs作为通才
Agüera y Arcas 和 Norvig 认为最先进的 LLM(例如 2023 年中期部署的 GPT-4、Bard、Llama 2 和 Claude)已经是 AGI,他们认为通用性是 AGI 的关键属性,并且 由于语言模型可以讨论广泛的主题,执行广泛的任务,处理多模式输入和输出,以多种语言进行操作,并从零样本或少样本示例中“学习”,因此它们已经实现了足够的通用性。虽然我们同意通用性是 AGI 的一个关键特征,但我们认为它还必须与性能衡量标准相结合(即,如果法学硕士可以编写代码或执行数学,但不能可靠地正确,那么它的通用性还不够) 性能足够)。
定义 AGI:六项原则
1. 关注能力,而不是流程。
实现AGI并不意味着系统以类似人类的方式思考或理解(因为这关注的是流程,而不是能力)
实现AGI并不意味着系统拥有诸如意识(主观意识)或感知能力(有感情的能力)等品质(因为这些品质不仅具有过程焦点,而且目前还无法通过商定的科学方法来测量)
2. 注重通用性和性能
所有上述定义都不同程度地强调了一般性,但有些定义排除了性能标准。我们认为通用性和性能都是 AGI 的关键组成部分。
3. 关注认知和元认知任务。
是否需要机器人化身作为通用人工智能的标准是一个有争议的问题。大多数定义侧重于认知任务,即非身体任务。尽管机器人技术最近取得了进展,但人工智能系统的物理能力似乎落后于非物理能力。物理世界中的体现可能对于构建世界知识以在某些认知任务上取得成功是必要的,或者至少可能是在某些类别的认知任务上取得成功的一种途径;如果事实证明这是真的,那么具体化可能对于某些通向 AGI 的道路至关重要。我们认为执行物理任务的能力可以增加系统的通用性,但不应被视为实现 AGI 的必要先决条件。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类寻求澄清或帮助的能力)是系统实现通用性的关键先决条件。
4. 关注潜力,而不是部署
证明一个系统可以在给定的性能水平上执行一组必要的任务就足以声明该系统是 AGI;在开放世界中部署这样的系统不应该是 AGI 定义中固有的。例如,根据达到一定水平的劳动力替代来定义 AGI 将需要在现实世界中部署,而根据能够替代劳动力的能力来定义 AGI 将侧重于潜力。要求部署作为衡量 AGI 的条件会带来非技术障碍,例如法律和社会考虑,以及潜在的道德和安全问题。
5.注重生态有效性。
可用于衡量 AGI 进展的任务对于实施任何提议的定义至关重要。虽然我们在“AGI 测试”部分进一步讨论这一点,但我们在此强调选择与人们重视的现实世界(即生态有效)任务相一致的任务的重要性(广泛地解释“价值”,而不仅仅是经济价值) 还有社会价值、艺术价值等)。这可能意味着要避开传统的人工智能指标,这些指标易于自动化或量化,但可能无法捕捉人们在通用人工智能中所看重的技能。
6. 关注通用人工智能之路,而不是单一端点。
正如采用一套标准的驾驶自动化级别可以清晰地讨论与自动驾驶汽车相关的政策和进展一样,我们认为定义“AGI 级别”是有价值的。正如我们在后续部分中讨论的那样,我们打算将 AGI 的每个级别与一组明确的指标/基准相关联,以及在每个级别引入的已识别风险以及由此产生的人机交互范式的变化。这种基于层次的 AGI 定义方法支持许多著名表述的共存——例如,Aguera y Arcas & Norvig 的定义将属于我们本体的“新兴 AGI”类别,而 OpenAI 的劳动力替代门槛更符合“Virtuoso AGI”。” 我们的“主管 AGI”级别可能是对许多现有 AGI 定义(例如 Legg、Shanahan 和 Suleyman 表述)的最佳概括。
定义 AGI:六个层级
本文翻译自DeepMind论文,原文地址
https://arxiv.org/pdf/2311.02462.pdf