我们似乎从未停止过去试图制造一类可自主完成预设目标的实体,用以协助人类完成各种繁琐任务,这就是智体(或智能体,Agent)。当大语言模型(LLMs)支持下的AI应用,已经越来越多地影响和改变着人类的生活,这个时代,你应该知道下面这些关于智体的ABCs。
从虚拟赛博世界中的数字孪生,链接到现实世界的一个个实体,如何把人工智能判断决策落实到具体单元,构成智体时代的网络化智能,具有感知、协同、判断和智能能力的智体,或许就是一座座最重要的桥梁。
从系统论的体系看,链接现实世界与数字孪生世界,至少需要通过感知层、传输层、决策层、控制层、执行层五个部分。其中,感知层从遍布终端的多元化感知方式,采集数据通过传输层将信息全面地给到或集中或分布式的决策体系,在算力保障下,决策信息再通过传输层,来到控制层进行解构,并继续传输至终端执行层。
在上述过程中,智体的感知能力、执行能力以及部分决策能力可保障该系统体系对数字孪生和现实世界的高效联通,重要性不言而喻。
丨智体的概念
智体(或智能体,Agent)即具有智能的实体,是以云为基础,以AI为核心,构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。体现为能自主活动的软件或者硬件实体。
马文·明斯基(Marvin Minsky)——“人工智能之父”、框架理论的创立者、美国工程院和美国科学院院士、MIT人工智能实验室创始人之一——提出了关于思维如何萌发并形成的一些基本理论,并建造名为Snare的世界上第一个神经网络模拟器,其组成中包括40个“Agent”,正因此,他被认为是最早提出Agent概念的学者之一。此外,他还是世界上最早能够模拟人类活动的机器人 Robot C的创建者。明斯基坚信,人的思维过程可以用机器去模拟,机器也可以有智能。他提到:“大脑无非是肉做的机器而已。The brain happens to be a meat machine.”明斯基在其著作《心智社会》(The Society of Mind)中将社会与社会行为概念引入计算系统,将计算社会中个体的有机组合构成计算社会,即多智体系统。他提到,所谓智能的“心智社会”,是由非智能的、不具备思维的微小部件组成的。在此过程中,每片思维都是由被称为“Agent”的更小的程序组成的,其本身只能做一些完全不需要思维或思考的低级智慧的事情,但人类会以一些非常特别的方式把这些智能体汇聚到社群中而产生真正的智能。丨智体的特点
如果按照理想化的方式提出对智体的发展要求,其特点,可以用“自学习、自生成、自组织、自进化”来描述。在当前阶段,这些特性还在持续完善的进程中。- 自学习:智体的自学习特征类似于人类的学习过程,通用智体首先通过模仿,开始学习最基础的知识和技能。在机器学习和深度学习技术的加持下,形成自学习特性。
- 自生成:智体自生成特点,将大语言模型与记忆、规划和反射机制相结合,使智能体能够根据过去的经验做出反应,并与其他智能体进行交互。
- 自组织:自组织涉及多个智体之间的配合与协同,按照需求形成有机的联系,形成自我组织的特性。
- 自进化:由于智体实际所处的环境是动态而不确定的,很难提前预测变化,所以,智体在未知环境中,通过自学习、自适应,实现自进化,并更好形成决策,这也体现了智能化程度的进展。
基础通用智能体实现“自我进化”的示意图
上图体现了智体首先在人类监督下进行行为克隆,随后在不同的外部环境和任务中进行探索和学习,从弱到强实现自进化的过程。
丨通用人工智能让智体迈向“生成知识”阶段
相较于简单特定场景的感知与反馈,通用人工智能(Artificial General Intelligence)是具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念。通用人工智能让智体迈向“生成知识”的阶段,它可泛化数千个甚至是数百万个任务,可以解决更多不同尺度的复杂问题,如医药研发、新材料研发等需要跨越并整合多个学科领域;可实现跨领域、跨任务、跨模态,大幅提升研发效率,降低研发成本;体现了智体在各种环境中实现目标的能力。总的来看,通用人工智能意图寻求统一的理论框架来解释各种智能现象。
DeepMind的公司愿景中强调“通用人工智能有可能推动的是历史上最伟大变革之一”其联合创始人 Demis Hassabis 将 AGI 定义为“应该能够完成人类可以完成的几乎所有认知任务”的系统,而 OpenAI 将其描述为“在大多数有经济价值的工作中超越人类的、高度自治的系统”。得益于LLM 强大能力,越来越多地用作创建智体的核心协调者,并先后出现花样繁多的 AI 智体。这些智体通过模仿类人的决策过程,为更复杂和适应性更强的 AI 系统提供了一条可行性路径。LLM 的自主智体包括工具智能体、模拟智能体、通用智能体和领域智能体。在现阶段,对已经出现的基于 LLM 的自主智能体进行整体分析非常重要,并对全面了解该领域的发展现状以及启发未来的研究具有重要意义。数据来源:中国人民大学高领人工智能学院,参考文献4受自动驾驶分级启发,结合AI对智体的加持能力,通过效用和强度,可以将智体分为三大阶段6个等级:以感知、反馈和动作为基础特征的“弱”智体阶段:L0——无AI,有工具(有感知)加动作;L1——使用基于规则的人工智能;以检索、推测为特征,应用于专用场景的“中”智体阶段:L2——基于规则的人工智能被基于IL/RL的人工智能取代,并进行额外的推理和决策;L3—基于L2,应用基于LLM的AI而不是基于IL/RL的AI,另外拥有记忆和反思能力;通用人工智能加持下,以自学习、自生成为特点,跨场景应用的“强”智体阶段:L4——基于L3,促进自主学习和泛化;L5——在L4的基础上,附加个性因素和多智体协作行为。智体时代正向我们飞奔而来,那么智体究竟会怎样融入人类的生活?智体更带给我们什么。
智体时代,产业发展的要素中,添加了相应的算法、算力和数据的影响,更多体现了海量数据、庞大模型和高效训练的作用。从驱动新场景方面看,不断积累和沉淀的行业数据,可以有效为智体提供赋能该场景的可能性,在垂直领域不断精进,实现“中智体阶段”为专用场景的产业促进。从赋能新应用方面看,以应用为导向的需求发掘和流程设计,将借助智体的参与极大提升发展效率,从而扩充产业发展应用,实现产业变革。
从实现新价值方面看,更多维的数据、更完善的训练和更实用的模型,将推动智体为产业发展找到并拓展新的价值,从根本上对产业发展实现价值提升。以智能驾驶应用为例,作为人工智能和智体的应用端,其的发展是跟随人工智能发展而落地的,所以看智能驾驶的发展必须紧盯AI发展。智能驾驶技术架构的发展可以分为以下阶段:
——AV1.0 - 目标物识别;
——AV1.x - BEV+Transformer+......;
——AV2.0 - E2E大模型;以及E2E大模型+LVM图像语言模型;
这一阶段采用经典的智能驾驶步骤,感知、定位、融合跟踪、预测、规划、执行。智能驾驶开发依此划定模块边界。AI人工智能主要用在目标物识别感知方面,以及少部分预测方面。
鸟瞰图(BEV)基于车辆360视觉覆盖的摄像头,提供了一个从上方俯瞰车辆周围环境的视角,它还可以合成多个传感器(如摄像头、雷达、激光雷达等)的数据来生成一个全面的视图。Transformer模型四维感知被用来处理BEV数据,以理解和预测不同物体之间的动态关系和交互。Occupancy占用网格可以直接在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模;提供直接在3D空间中感知占用关系,为系统规划提供可行驶空间。传统的自动驾驶系统可能会将感知、预测和规划作为分离的模块来处理。然而,"Joint Prediction & Planning Network" 采用集成方法,将预测和规划结合于统一框架,能更流畅处理从感知到行动的转换,并提高系统的整体效率和性能。
随着生成式人工智能GPT的横空出世,E2E大模型(端到端模型)上车,基本就是融合所有的AI model形成一个输入驾驶环境,输出车控的转向、刹车、加速等信号。本身相当于一个黑箱,通过足够多的数据学会应对所有场景的驾驶。当然大模型上车智能驾驶,对于数据存储以及算力要求是非常明显的。
视觉语言模型VLM(Vison Language Model) 结合图像和文本处理能力的机器学习模型,可以理解和解释图像与文本之间的关联,并根据图像生成准确、生动的自然语言描述。通过识别场景、解读环境、优化决策,实现更接近人类的视觉理解能力和判断决策行为。
除了强终端的自动驾驶解决方案,我们不妨从“车路云一体化”的角度再审视这一智体应用的前景。通过基础设施等多元化升级,系统化分担单车在算力和数据方面的需求。结合网联云控基础设施建设,实现基于车、路、网、云、图等高效协同的自动驾驶技术多场景应用。可以减轻车端单独决策的若干局限,实现“聪明车”+“智慧路”+“强大云”的架构体系,通过新一代信息与通信技术,将人、车、路、云的物理空间和信息空间融合为一体,实现智能网联汽车交通系统的安全、节能、舒适及高效运行的信息物理系统。
华夏幸福产业研究院对智体时代的产业变革和都市圈发展将持续跟踪研究,结合前期在人工智能发展、AI教育、AI支持政策等方面也进行了相关研究,欢迎点击下方往期推荐导航查看。
1、鲁为民. 大语言模型时代的智能体.
https://new.qq.com/rain/a/20231013A03U0A00
2、复旦大学自然语言处理实验室. AgentGym: Evolving Large Language Model-based Agents across Diverse Environments.
https://arxiv.org/abs/2406.04151
3、Debates on the nature of artificial general intelligence.
https://www.science.org/doi/full/10.1126/science.ado7069
4、中国人民大学高领人工智能学院. A Survey on Large Language Model based Autonomous Agents.
https://arxiv.org/pdf/2308.11432.pdf
5、AI智体的分级:从基于规则到基于LLM.
https://blog.csdn.net/yorkhunter/article/details/138468060
6、智能驾驶技术演进与未来挑战:从目标物识别到大模型上车.
https://new.qq.com/rain/a/20240414A06XAA00
| 往期推荐: