圣杯战争：具身通用人工智能的困境与可能出路

学术 2024-12-21 00:01 加拿大

点击蓝字

，关注我们

当前AI界普遍认为，生成式AI（Generative AI，GAI）是最有希望实现AGI的正途，并以 “All in AI”的信念全力投入具身智能体（embodied AI agent）的研发，竞相探求跨越AGI圣杯“最后一公里”的超级赛道。由大模型引发的一系列激烈争论，以及AGI圣杯之战所呈现的三大执念与技术路线实施中的潜在冲突业已表明，只有对各类以“通用人工智能”为名的技术幻象祛魅和理性反思，才能使AI走向健康发展的轨道。据此，基于具身-生成认知观念，我们倡导一种生态场域通用的“动缘-生成式AI”作为人工智能未来可达的新目标。

一、通用人工智能的三大执念

生成式AI不仅追求与物理规律对齐，甚至着力于情感、意识和价值对齐，对齐的要求可谓越来越强。然而仅仅借助生成式AI多模态技术融合就希望能实现情感、意识和价值全面对齐人类，这种做法无异于天方夜谭，这种愿景可具象化为三大执念：

A． 全面对齐人类 早期研究者乐观地认为，AI可以达到与人类同等的思维、感知和行动能力，甚至相信通过破解人类通用语法和模式识别机制能够把握人类智能本质。这一执念的主要障碍在于，AI难以捕捉到人类语言应用的多样性和复杂性，人类思维和感知、行动的能力更是难以表征和计算。

B． 真实理解世界 一些学者认为，如果要实现AGI，我们应该首先构建一个具备广泛知识迁移能力、能进行因果推理、包含世界模型的智能体。但关键问题在于：广泛的知识迁移和复杂任务处理需要大量数据支持，而这些数据或者是稀缺的，或者无法以文本语言的方式体现。此外，即使获得了足够的数据，如何确保智能体能够理解这些数据中蕴含的深层次因果关系，而不仅仅是表面的关联性，仍然是一个巨大挑战。

C． 统一具身通用 目前学界的一大新的趋向是极力追求建造能与环境进行深度交互的具身智能体。但具身性与广泛的通用性的融合难以真正落地，这种互为矛盾的要求将会导致“具身-通用悖谬”。这不仅是对当前AI技术的挑战，更是对我们对智能本质理解的挑战。

二、电子游戏AGI

在这场AIGC的社会大实验中，AGI看似遥不可及，但多年以来研究者一直致力将电子游戏作为一种世界模拟器铸造AI的“虚拟圣杯”。首先，相对于现实世界的不可预知性，电子游戏的虚拟环境更易于模型调整和优化，并提供了无限的场景和情境供AI模型学习；其次，失败并不意味着损失无可挽回，玩家在游戏中的行动随时可以重新开始，电子游戏以这样的独特功能为AI研究带来了快速迭代的机遇；并且，电子游戏环境中，精致的多个可能世界具有特定的世界观和事件因果的发生逻辑，更有助于AI利用试错学习掌握和构建自身的内部世界模型。因此，也有学者认为，如果要实现AGI，必须首先要实现“通用电子游戏人工智能（General Video Game Artificial Intelligence, GVGAI）”。

人们期待，在电子游戏中构建一个强大稳定的AI模型，再将模型迁移到真实世界，就有可能实现某种意义上的AGI，而抢眼的电竞比赛也为研究人员提供了理想的测试平台和算法优化平台。实际上，电子游戏AGI的研究分为三大方向：广泛任务涵盖、深度复杂任务挑战和游戏控制模拟。

第一个方向是用单一模型来处理多个不同任务，展现智能体在多游戏环境中的适应性。

第二个方向是利用单一模型深入探索具有特定复杂性的游戏。如果在虚拟世界中训练智能体成功完成各种复杂任务，将会有大大有助于智能体解决现实问题。

第三个方向则更加注重于人机对齐的目标，例如训练游戏AI像人一样通过观看屏幕、通过键盘和鼠标来完成复杂游戏任务，而不依赖于内部API获取输入和输出的预定动作。

而实现电子游戏AGI，实际上就是训练AI在世界模拟器中理解和预测外部世界的机制，从而掌握世界模型，促进智能体落地物理世界。然而，由于还存在一些更大的理论和技术挑战，这一难题仍未解决，因此，AI从电子游戏虚拟环境到落地真实物理世界，进而实现AGI，也绝非易事。

三、具身-通用悖谬

实际上，戈策尔等人（2014）很早就已经提过了“具身通用人工智能（Embodied AGI）”概念，并认为对于AGI而言，具身性必不可少。目前在大模型的加持下，这个概念在学界极受追捧。然而学者们所描绘的宏伟蓝图似乎忽视了底层概念之间的一个悖谬之处：具身性和通用性似乎不可兼得。

（一）数字性通用与生态性通用

具身认知理论认为，人类认知是通过身体感知经验与环境互动的过程，而不仅仅是大脑内部的抽象符号处理过程；而通用（General）一词意味着AI系统具有高效学习和知识迁移泛化能力，可在多元场景完成各种复杂任务等近乎于全能的状态。由此可见，这两个术语的意义本身就分布于光谱的两端，如果只凭一腔热情将二者强行缝合搭建实现AGI的必经之路，将面临一个复杂的挑战：如何构建一个既具身又通用的智能体？

首先，就需要我们将目前AGI的通用性进行区分。特别是对于具身AGI，其通用性可以进一步细分为数字性通用和生态性通用两个维度，用以厘清目前关于AGI术语的语义混淆状况。

数字性通用（digital generality）指的是AGI在处理信息、解决问题和学习新技能方面的能力。这种能力不受具体任务内容、环境或领域限制，意味着AGI能够跨领域进行知识的转移和应用。

生态性通用（ecological generality）指的是AGI在特定物理环境中的适应性和灵活性。这不仅包括能够在多样化的物理环境中有效地操作，还要求AGI能够理解和预测这些环境中发生的自然和社会现象。

如果将数字通用和生态通用两种能力结合在一个AGI系统中，尽管我们可以想象出一种理论上的可能性，在具体实现中却存在着一系列不可调和的激烈矛盾。在一个有限的资源约束下，如何平衡对感知-行动循环（生态性通用性要求）和高级认知处理（数字性通用性要求）的投入是一个关键问题。然而，我们能否真正跨越目前研究中存在的局限性，开发能够整合和优化这两种通用性的方法和技术。这不仅是技术工程实践的挑战，也是对当前认知科学哲学理论深刻挑战。

（二）具身-通用何以悖谬

如果要实现具身通用人工智能智能体（embodied AGI agent），需要引入“数字性通用”和“生态性通用”的区分。如果智能体是具身的，就意味着依赖于特定身体的物理形态与世界交互，但这无疑限制了广泛的通用性。当然也会有人反驳认为，人类本身就是“通用智能体”，可以依据自己的具身能力完成各种任务；如果我们设计制造一个类人-具身智能体，也就意味着我们制造出了“具身AGI”。

然而，这种乐观立场忽略了重要的事实，即人类的生理和认知能力经过长时间演化史并受环境塑造，也只能感知物理世界的一小部分，例如无法看到紫外线听不到超声波。虽然人类具备一定的适应性，但其所谓的“通用性”受限于演化条件和生存环境因素。因此，人类拥有的也不过是一种相对的“通用性”强大的多模态大模型嵌入智能体，实际上也无法满足既有具身性又能展现完备、统一、全能意义的数字通用性。具身交互与通用智能无法兼得的先天悖谬之处，我们将其称作“具身-通用悖谬”，他意味着在设计和开发通用人工智能（AGI）系统时，在实现广泛的认知能力和具体物理环境的适应性之间存在着潜在矛盾。

果真要设想存在某种具身AGI，我们猜想应该是类似于科幻电影中的模块化微型智能体集群，或者是事实变换身体形态的智能体，可一根据具体动机和需求做出对环境的响应做出相应行动，而且有可能具备人类或超人级别的感知、理解和认知能力。动物认知基于特定的演化压力而形成，但AGI则无此生命演化的历史背景。期望AGI既具备物理界面与环境互动的能力，又不受任何物理形态的限制，这两者在本质上是冲突的。因此，避免“具身-通用悖谬”，这样才能创造出真正既有物理形态又有独特功能的专项领域通用智能体，它也许是AI未来发展的重要目标。

四、一种新方案：动缘-生成AI

在“具身图灵测试”和“具身AGI”这些概念被明确提出之前，实际上已有学者在具身认知方向上探索已久并形成了生成认知学派。生成认知主义提倡以一种生态场域（ecological niche）的视野来看待意识的产生与认知形成，而生态心理学先驱詹姆斯·吉布森（J. Gibson）提出的“动缘（affordance）”概念正是其生成主义的理论内核。

为此，我们提出一个新的理念“动缘-生成AI（affordance-enactive AI, AEAI）”。这种AI的发展目标重点在于在多样化的动缘分布特定场景中，即“生态场域（ecological niche）中的行动”。智能体可以在其中自主建构局域世界模型（local world model）和主动探寻环境适切的通用行动模式，这可以称作“场域通用性（niche generality）”。这意味着，智能体需要根据其具备的局域世界模型直接获取实时环境信息，理解这些信息如何提供行动的可能性。感知不仅基于物理感官的感知，也包括对相应数据模式、社会互动乃至文化语境的认知。

心智的预测加工理论、自由能原理和主动推理在动缘-生成AI框架中相互关联，共同构成了智能体理解和适应其生态场域的理论基础。这种综合性的理论框架不仅促进了对智能体行为和认知过程的深入理解，还为设计能够在复杂、多变环境中自主适应和行动的AI系统提供了新的路径。这种研究范式可以为AI注入更为精准和适应小生境的“身体”向度。而这里的身体，不仅仅局限于传统意义上的机器人形体，也包括AI智能体行动所依赖的开放知识系统、软件计算界面、以及与其他系统交互生成的整个行动者网络。如此看来，这样的AEAI无异于依赖小数据的大模型。

因此，未来的研究路线不应该去追求一个能够处理所有任务的超级智能，而是研发一系列能够高效适应和入世特定场域的智能体，依据特定的动缘和环境内具有因果结构信息的世界模型做出精准决策采取行动，并以此方式实现具备世界模型的生成性人工智能（enactive AI）。如果进一步探索，我们可以设想建立一系列具有不同能力和特性的动缘-生成智能体，可以在多个生态场域中协同工作，形成一个联合的、多层级的智能行动者网络系统。或许，这个群体的整体智能在某种程度上具有所谓的“通用智能”的能力。当然，从本文一以贯之倡导的对通用执念祛魅的初衷来看，我们的AEAI构想希冀AI能够最终理解物理世界，具备真正的世界模型，而这又何尝不是另一个新的圣杯呢？！

END

本文选自《自然辩证法通讯》2024年第46卷第12期

编辑 / 刘宇轩
审核 / 王惠敏

欢迎关注我们

自然辩证法通讯

哲学园

哲学是爱智慧，爱智慧乃是对心灵的驯化。这里是理念的在场、诗意的栖居地。关注哲学园，认识你自己。

最新文章

斯大林是怎样掉入“修昔底德陷阱”的

2025央视春晚出大招，每个人都能把金蛇带回家

指示词逻辑

80年代的这套丛书，标志着中国走向未来的方向

唐宋的杯子，个个都能封神！

二维指称理论及其发展

意识是科学语言中的哥德尔句子吗？

电视剧《清明上河图密码》热播，故宫文创献礼故宫博物院100年！

多世界中的睡美人问题

圣杯战争：具身通用人工智能的困境与可能出路

熵究竟是什么？它可能是物理学中最具争议的概念

给孩子读《国富论》《理想国》，就拥有了降维打击的能力！造就人生大格局！

作为一项技术哲学的技能哲学——评姚大志《身体与技术：德雷福斯技术现象学思想研究》

奎因：我的信念

必然性与本质——评《模态与本质：一个逻辑哲学的研究进路》

Tiktok之后, 美国急欲向拼多多“砍一刀”

《牛津通识读本》，让孩子在最短时间内学会独立思考，轻松饱览人类知识精华！

克里普克完备性定理：模态逻辑的语义考量

高斯到底有多“恐怖”？压制数学界半个世纪的顶级天才！19岁的他便破解困扰数学家2000年的难题

改革开放40年，中国做对了4件事

反精英者如何发动了革命，革命又如何吞噬了自己的儿女？

奎因：整齐的节俭性

红军早期如何筹款？这份真实的史料告诉你，总共分9步

李雪峰：我所知道的“文革”发动内幕

100年前中国大地上的古建、古迹，原来这么美！

【新书新译】意识：死胡同中的视角

【新书新译】心灵的曙光：物质如何变得有意识并获得生命（引言）

我不信中医，但这三本书可以让我去理解中医！

从统计物理到社会科学：如何从微观推导出宏观？

一个94岁高寿的史学大师，凭什么在1949年就预见了知识分子的悲惨命运？

列奥·施特劳斯和封闭社会

NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

高观点物理 | 怎么由势能函数分析粒子的运动？ | David Tong 《Dynamics and Relativity》

哥德尔：康托的连续统问题是什么？（重磅长文）

51岁董卿逛街被偶遇，路人合照气质绝了：这才是女人的高级美

高观点物理 | 第1章牛顿力学 | David Tong《Dynamics and Relativity》

什么鬼！“夜间科学” 才是科学发现的惊人一跃！

绝版：台北故宫博物院典藏大系•绘画卷

纪念克里普克：涂纪亮｜《命名与必然性》中译本序

高岗自杀后，彭德怀林彪的表现令人感叹

终于不是删减版了！全程高能！外国人都痴迷的中国神作

与查尔莫斯对话：关于心灵与意识

某官媒对2025年的神预测，让人背脊发凉…

维特根斯坦直到去世前两天还在写的奇书，全新中文译本！

读维特根斯坦有一种十分美妙的体验，他其实是个很好玩的人

于江霞：芝诺思想渊源三题议

可能是蒙田最难读的文章：蒙田的申辩（《雷蒙·塞邦赞》）

鼻炎有救了！美国线下药店同款鼻通膏，一抹就舒服

破碎之地：十字路口上的叙利亚

影响中国人的两种“生意观”, 着实耐人寻味

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉