基于多模态大模型的多智能体,将如何改变人类在城市的生存方式
文摘
科技
2023-10-26 21:45
中国香港
最近这段时间,偶尔会不经意思考下,100年后的人类是否会面临智械危机,人工智能剥夺了大量人类的工作,使得劳动者团结起来反抗并推翻AI的统治。也许会有朋友说,今天这番思考是杞人忧天,当前大模型的能力存在诸多不足,连辅助人类工作都还不成熟,从眼下出发,确实如此。然而,AI领域的发展速度,是远远超越大众市场的体感的。尤其是智能体方向,今天向你讲述智能体领域最前沿的思考,以及非常酷的事情。我认为有两个关键概念,有助于我们理解未来多智能体发展的抽象逻辑,往后一定会被反复提起,一个是“感温层”,一个是“光谱”。受苏轼的一句诗词启发——“春江水暖鸭先知”,大众对科技发展的感知,是存在多个圈层的,而这些圈层之间如湖面涟漪,层层扩散。其次,在水里游的,河岸上看的,又是天差地别的认知,水面看似风平浪静,而水底却是暗流涌动。
正如智能体领域,当前大众市场开始对这一概念有些普世认知,我们可以看到部分chatbot通过定义不同角色进行轮回对话,从表层上体现了多个智能化的虚拟角色,进行不同任务式对话。但这依旧是基于LLM的对话形式,而不是构建多个独立的智能执行单元建立协作关系。在学术前沿领域,基于多模态的多智能体是当前的关注重点,尤其是多模态大模型的推出,极大概率将改变当前智能体的系统架构,例如向量数据库会是一个最优的多模态数据存储方案吗?我看未必。其次,基于COT思路所衍生的系列推理方案,能够更加有效地适用于多模态推理吗?通过识别图生成文本再进行推理,是否真正发挥多模态大模型的能力?我认为该路线肯定是不足以的。有大量的学术资源正在涌入这一方向,每一个技术路线的突破,都会加速智能体发展速度,而当前智能体领域的暗流,是处于一个连续加速的阶段,这个加速背后的动因,来自智能体与大模型在产学研的动作连续性,以至于后面将形成巨大的市场资源的虹吸效应。 眼下多模态大模型的测试案例大多是基于静态页面的,进行图形内容的涵义解析,然而我们必须意识到,多模态大模型的技术本质,是能够将物理世界抽象成为一种数据状态,严格上来说,是多维数据结构的连续状态集。
我们需要理解一切物理状态的波动性与复杂性,都会在一个体现连续变化的光谱中呈现,这意味着我们将物理世界抽象的数据集,也将通过光谱的形式而体现。多模态大模型可以通过切片形式理解视频数据集,并将对视频情境的涵义解析,投射在一个光谱之中,这个光谱或许以共时性的方式,体现了多模态大模型所深描的物理世界的可感知情境。基于多模态大模型的多智能体,绝非体现了智能体对语言语义的阐释,对需求任务的指令解析与执行,更多是要体现智能体对物理情境的理解,将情境的涵义解析并投射到一个可被人类感知与交互的光谱之中,这些光谱的局部特征构成了一些显性特征的逻辑,思维惯性上使得我们误认为这些显性特征的表达逻辑,就是智能体的智能呈现。基于多模态大模型的多智能体,与物理世界的所发生系列交互,并非仅仅是为了识别物品与动作的交互指令,我相信海量多模态数据,将会让智能体一个构建可感知情境的光谱,或许突破性的智能将在光谱中涌现。当智能体实现了智能涌现,进一步理解了人类的喜怒哀乐,理解了社会深层的人情冷暖,在智能体的核心议题中,在人机共生的发展关系中,人类的生命、生活与生存都将因此发生巨大的转变。为了探寻人类未来的命运将会如何,以及探索多智能体将与人类形成什么样的人机共生关系,因此我在Agents42推动了一个多模态大模型多智能体未来城的项目,这是一个将多智能体纳入人类城市生活空间的创新实践,既为学术领域提供了难度的研究资源,也会智能体在商业领域的探索,提供了实证的场域。我们将在全球100座城市发起100场黑客松,探索不同城市与多智能体的可能形态,以下为该项目的介绍PPT,欢迎阅读,交流以及合作。如果你是企业负责人、创始人,有兴趣参与一同围绕该项目建立可持续发展利益关系的战略合作,请联系VION WILLIAMS