基于多模态大模型的多智能体,将如何改变人类在城市的生存方式

文摘   科技   2023-10-26 21:45   中国香港  

最近这段时间,偶尔会不经意思考下,100年后的人类是否会面临智械危机,人工智能剥夺了大量人类的工作,使得劳动者团结起来反抗并推翻AI的统治。

也许会有朋友说,今天这番思考是杞人忧天,当前大模型的能力存在诸多不足,连辅助人类工作都还不成熟,从眼下出发,确实如此。

然而,AI领域的发展速度,是远远超越大众市场的体感的。尤其是智能体方向,今天向你讲述智能体领域最前沿的思考,以及非常酷的事情。


Part.1


我认为有两个关键概念,有助于我们理解未来多智能体发展的抽象逻辑,往后一定会被反复提起,一个是“感温层”,一个是“光谱”

感温层

受苏轼的一句诗词启发——“春江水暖鸭先知”,大众对科技发展的感知,是存在多个圈层的,而这些圈层之间如湖面涟漪,层层扩散。其次,在水里游的,河岸上看的,又是天差地别的认知,水面看似风平浪静,而水底却是暗流涌动。

正如智能体领域,当前大众市场开始对这一概念有些普世认知,我们可以看到部分chatbot通过定义不同角色进行轮回对话,从表层上体现了多个智能化的虚拟角色,进行不同任务式对话。但这依旧是基于LLM的对话形式,而不是构建多个独立的智能执行单元建立协作关系。

在学术前沿领域,基于多模态的多智能体是当前的关注重点,尤其是多模态大模型的推出,极大概率将改变当前智能体的系统架构,例如向量数据库会是一个最优的多模态数据存储方案吗?我看未必。其次,基于COT思路所衍生的系列推理方案,能够更加有效地适用于多模态推理吗?通过识别图生成文本再进行推理,是否真正发挥多模态大模型的能力?我认为该路线肯定是不足以的。

有大量的学术资源正在涌入这一方向,每一个技术路线的突破,都会加速智能体发展速度,而当前智能体领域的暗流,是处于一个连续加速的阶段,这个加速背后的动因,来自智能体与大模型在产学研的动作连续性以至于后面将形成巨大的市场资源的虹吸效应。 

光谱

眼下多模态大模型的测试案例大多是基于静态页面的,进行图形内容的涵义解析,然而我们必须意识到,多模态大模型的技术本质,是能够将物理世界抽象成为一种数据状态,严格上来说,是多维数据结构的连续状态集。

我们需要理解一切物理状态的波动性与复杂性,都会在一个体现连续变化的光谱中呈现,这意味着我们将物理世界抽象的数据集,也将通过光谱的形式而体现。多模态大模型可以通过切片形式理解视频数据集,并将对视频情境的涵义解析,投射在一个光谱之中,这个光谱或许以共时性的方式,体现了多模态大模型所深描的物理世界的可感知情境。

基于多模态大模型的多智能体,绝非体现了智能体对语言语义的阐释,对需求任务的指令解析与执行,更多是要体现智能体对物理情境的理解,将情境的涵义解析并投射到一个可被人类感知与交互的光谱之中,这些光谱的局部特征构成了一些显性特征的逻辑,思维惯性上使得我们误认为这些显性特征的表达逻辑,就是智能体的智能呈现。

基于多模态大模型的多智能体,与物理世界的所发生系列交互,并非仅仅是为了识别物品与动作的交互指令,我相信海量多模态数据,将会让智能体一个构建可感知情境的光谱,或许突破性的智能将在光谱中涌现。

当智能体实现了智能涌现,进一步理解了人类的喜怒哀乐,理解了社会深层的人情冷暖,在智能体的核心议题中,在人机共生的发展关系中,人类的生命、生活与生存都将因此发生巨大的转变。


Part.2



未来已来,多智能体未来城 

为了探寻人类未来的命运将会如何,以及探索多智能体将与人类形成什么样的人机共生关系,因此我在Agents42推动了一个多模态大模型多智能体未来城的项目,这是一个将多智能体纳入人类城市生活空间的创新实践,既为学术领域提供了难度的研究资源,也会智能体在商业领域的探索,提供了实证的场域。

我们将在全球100座城市发起100场黑客松,探索不同城市与多智能体的可能形态,以下为该项目的介绍PPT,欢迎阅读,交流以及合作。


多模态多智能体未来城·全球黑客松计划

中文版

英文版

合作方式,请见PPT的联系方式


Part.3


如果你是企业负责人、创始人,有兴趣参与一同围绕该项目建立可持续发展利益关系的战略合作,请联系VION WILLIAMS

扫码备注:战略合作


VION WILLIAMS
推动人类文明的进步与发展
 最新文章