“只有一小部分人专注于通用智能的研究。没有人试图制造一台能思考的机器……
最重要的是,我们在真正智能的机器方面还没有取得太大进展。我们在小领域拥有一群愚蠢的专家;通用智能的真正威严仍在等待我们发起攻击。...
我们必须重新思考人工智能和通用智能的最深层问题......”
——马文·明斯基(as interviewed in Hal’s Legacy, edited by David Stork, 2000.)
尽管人们对人工智能未来的预测莫衷一是,但几乎所有专家都认为达到和超过人类水平的人工智能将在本世纪末梦想成真,尤其是随着生成式大模型的出现,人工智能从整体上超越人类智能的奇点显得更为迫近。2024年初一项有关AGI何时到来的调研结果公开发布,Grace等人2023 年 10 月对 2,778 名人工智能研究人员进行了一项大规模的调查表明,受访者估计,到2047 年“无人辅助的机器在所有可能的任务中胜过人类”的可能性为 50% ,这一乐观的预见较一年前类似的调研提早了13年。
但问题是,从顶级专家到普通公众对究竟什么是人工智能都远未达成共识,对所谓通用人工智能AGI更是陷入堪称当代科技最大“脑雾”的认知迷雾之中。
AGI 的概念定义与技术路线图
AGI 一词诞生于 2007 年。在由Ben Goertzel 和 Cassio Pennachin共同主编的一本名为《通用人工智能》主题论文集中,他们给出了一个定义:“广义上讲,AGI 是指具有一定程度的自我理解和自主控制能力的人工智能系统,能够在各种情况下解决各种复杂问题,并学会解决在创建时不知道的新问题。” 他们之所以将其命名为 AGI,是为了将其与“平常的(run-of-the-mill )AI研究区分开来,因为 AGI“明确专注于在短期内设计通用智能”。
在他们看来,为了大致模拟人类通用智能的本质,通用人工智能系统应该具备以下特点:
• 能够像人类一样,以不受领域限制的方式解决一般问题;
• 最有可能的是,能够以特定的效率解决特定领域和特定环境中的问题;
• 能够以统一的方式一起使用其更通用和更专业的智能能力;
• 从其环境、其他智能系统和老师那里学习的能力;
• 随着对新类型问题积累经验,解决它们的能力也会增强。
根据当时的情况,他们指出, AGI 的宏伟目标大部分仍未实现,这种情况需要多长时间才能得到解决仍不确定。在相信强人工智能基本可能性的科学家中,我们听到的最乐观的严肃估计是在 5-10 年的范围内,最悲观的估计是在几个世纪的范围内。
他们认为,就算法和模型架构而言,AGI 系统至少有三种基本技术路径:在软件中模拟人类大脑;一种新颖的模型架构,既不同于大脑,也不同于狭义(专用)人工智能架构;一种综合方法,对狭义或专用人工智能算法的综合运用。
模拟大脑的技术路线是,鉴于人脑是我们所知的唯一具有通用智能的系统,近乎完美的模拟在理论上可以产生类似的智能。但问题是怎么模拟,是功能模拟还是结构模拟,以什么作为最小的模拟单位——原子、分子还是神经元?就目前来看,虽然人工神经网络表面上复制了大脑的基本机制,但大脑的实际运作方式比当前的深度学习模型更加多样化和复杂。因此,除了真正模拟大脑的技术挑战之外,这种方法还需要我们对大脑机制有比目前更多的了解。
超越大脑和专用人工智能的模型架构意味着AGI 需要探索不同于现有模型架构的新型的人工智能。就目前来看,李飞飞开启对空间智能的探索就属于这一类。语言大模型的批评者LeCun 也希望另辟蹊径,他建议放弃自回归和其他生成概率人工智能模型架构,转而采用“目标驱动的人工智能系统”,其“世界模型”的学习方式更像动物和儿童。
综合与复合方法则是在大模型狂飙突进之后当前大多数实现 AGI 的重要策略,其思路是力图将现有的人工智能工具(如 LLM、图像模型和强化学习代理)上取得的孤立进展结合起来。当前的多模态模型可以看作是这条道路上的中间步骤。这些综合方法通常使用中央“代理”模型(通常是 LLM)来引导决策过程并自动将子任务委托给专业模型。而最近Gartner在解读2024年中国AI技术趋势时也指出,复合式AI将引领未来,强调未来两到五年,复合式AI将成为主流,结合数据驱动和符号AI,实现更加务实的应用。这虽然是一条折中的路径,但更多复合性的应用也是走向AGI必不可少的过程之一。
AGI的可操作性定义与能力分级
2023年,在生成式大模型的热潮的推动下,虽然存在争议,但乐观主义者还是比以往跟肯定地认为,透过大模型已经看到了通用人工智能的火花。在最初发表于2023年11月的预印本论文《AGI分级:通往AGI之路上可操作的进阶》(Levels of AGI for Operationalizing Progress on the Path to AGI)一文中,来自Google DeepMind的莫里斯(Meredith Ringel Morris)等人提出了一个评价框架,用于对通用人工智能 (AGI) 模型及其前身的能力和行为进行分类。该框架引入了 AGI 性能、通用性和自主性的级别,提供了一种通用语言来比较模型、评估风险和衡量 AGI 道路上的进展。
这篇论文首先列举了九种关于AGI的定义:
• 图灵测试
• 强人工智能:具有意识的系统
• 与人脑的类比
• 认知任务上达到人类水平的表现
• 学习新任务的能力
• 有经济价值的工作
• 灵活且通用的功能:“咖啡测试”及相关挑战。
• 人工能力智能(ACI):在开放世界中完成复杂、多步骤任务的 AI 系统
• 最佳的大模型被视为通才
通过反思这九个 AGI 定义(或与 AGI 相关的概念),他们确定了有助于明确、可操作地定义 AGI 的属性和共性,提出任何 AGI 定义都应满足的六个标准:关注能力,而非流程;关注通用性和性能;关注认知和元认知任务,而非身体任务;关注潜力,而非部署;关注生态有效性;关注 AGI 之路,而不是单一终点。
其中,“关注能力,而非流程”强调,对能力的关注意味着 AGI 系统不一定需要以类似人类的方式思考或理解(因为这关注的是流程);同样,系统拥有意识(主观意识)或感知(具有感觉的能力)等特质并不是 AGI 的必要前提,因为这些品质都以过程为中心。
“关注认知和元认知任务,而非身体任务”主张,尽管机器人技术最近取得了进展 , 人工智能系统的物理能力似乎落后于非物理能力。在物理世界中的具身化可能是构建世界知识以成功完成某些认知任务的必要条件,或者至少是某些类别的认知任务取得成功的一条途径;如果事实证明这是真的,那么具身化可能对某些通往 AGI 的途径至关重要。不过应该看到,执行物理任务的能力会增加系统的通用性,但不应被视为实现 AGI 的必要先决条件。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类寻求澄清或帮助的能力)是系统实现通用性的关键先决条件。
“关注 AGI 之路,而不是单一终点”认为,就像采用一套标准的驾驶自动化等级(可以清晰地讨论与自动驾驶汽车相关的政策和进展,定义“AGI 级别”的价值在于将 AGI 的每个级别的实现与一组明确的指标 / 基准、已识别风险以及由此带来的人机交互范式的改变联系起来。
根据这些标准,该文由基于能力的深度(性能)和广度(通用性),将通往AGI 道路上的人工智能系统的进化阶梯大致分为五类:新手、胜任者、专家、大师和超人。这很容易让人联想到哲学家德雷福斯对人类技能和专长的分类。该分类法规定了在大多数任务上达到给定评级所需的最低性能——例如,在大多数认知任务上,胜任的 AGI 的性能必须至少达到熟练成年人类的 50%,但在某些任务子集上可能具有专家、大师甚至超人的表现。
通往AGI 能力的五个等级
AGI的自主性进阶与人机交互范式转换
值得一提的是,除了通过能力级别进行分类之外,该文还强调,更强大的人工智能系统的自主性会不断提升,从而解锁了新的人机交互范式,也会引入新的风险。
这表明,随着自主性的提升,AGI系统的人机交互设计决策尤其重要。因此,该文建议用六个自主级别来描述人机交互范式,并进而探讨AGI 级别、自主性级别和风险之间的相互作用。
在他们看来,模型性能和通用性的进步解锁了更多的交互范式选择(包括完全自主性)。而这些交互范式反过来又引入了新的风险类别。与仅考虑模型能力相比,模型能力和交互设计的相互作用将实现更细致的风险评估和负责任的部署决策。
AGI之路上的自主性级别、人机交互范式与风险引入
将通往AGI之路的自主性级别、人机交互范式与风险引入放在一起考量,实际上在一定程度上承认AGI 的探索可能更多地与社会接受度而非技术成就有关,AGI的发展是一种社会建构过程——其未来情境不仅取决于人们对科技未来的社会想象,还在于每个人与AGI的交互实践,将是一个复杂、多元、相互适应的人机共创和人机共同进化的繁复而伟大历程。(待续)