本期感谢“新智元”平台的内容分享,与新智元编辑人员(alan好困)。TechArt小编也在“新智元”内容的基础上根据项目作者的公开信息再做了细节补充。对于V-IRL项目的论文全文及其中的参考文献,可在文后扫码获取资料。
怎样能构建更强大的AI Agent?
答案是给他们一个完整而真实的世界
AI Agent作为近期的热门词汇,我们先来介绍一下它的基本背景,什么是AI Agent?在计算机、人工智能专业技术领域,Agent一词常被翻译为“智能体”,其定义是在一定的环境中体现出具有自治性、反应性、社会性、预动性、思辨性、认知性等一种或多种智能特征的软件或硬件实体。OpenAI将AI Agent定义为,以大语言模型(LLM-Large language model)为大脑驱动,具有自主理解、感知、规划、记忆和使用工具的能力、能自动化执行复杂任务的系统;概括来说,AI Agent也可以理解为具有独立理解和执行能力的AI软件程序。
左: 基于大语言模型驱动的Agent基本框架;右: 人类与AI协同的三种方式(图源: 腾讯研究院)
V-IRL
Grounding Virtual Intelligence in Real Life
by Jihan Yang, Runyu Ding, Ellis Brown, Xiaojuan Qi, Saining Xie
论文地址:https://arxiv.org/abs/2402.03310
代码地址:https://github.com/VIRL-Platform/VIRL
项目地址:https://virl-platform.github.io/
V-IRL项目论文的部分页面(文后可获取下载)
近期,来自香港大学和纽约大学的学者发表了最新的研究成果。当前AI Agent以文本为中心的数字环境与我们人类居住的感官世界之间存在巨大差距;再者,该问题一直围绕着机器人技术展开研究,Agent以物理方式体现在世界中;然而实际硬件的物理限制和成本阻碍了Agent的扩展,并无法在实验室以外的环境中对其进行测试。
为了开发能够在现实环境中灵活运行的Agent,项目V-IRL作为一个开源框架,引入了一个可扩展的平台,利用地图、地理空间和街景图像等API,将AI Agent嵌入真实的城市环境中进行交互,为Agent提供了更真实且完整的生活体验。团队使用V-IRL实例化了一系列智能体,它们可以在城市中执行各种复杂任务,如城市导航、地点推荐、探索目标和互动等真实情况;以丰富的感知和描述性数据为基础,协作解决问题。此外,也通过Agent评估改进模型在处理现实世界数据和执行复杂任务方面的能力,为全球范围内的Agent和开放世界计算机视觉研究提供实践场所。
真实城市环境中实例化的8个示例Agent
为了展示V-IRL平台的多功能性,团队使用了全球真实城市中实例化的8个示例Agent。为了便于说明,还为这8个Agent提供了角色数据,包括代入个人简介以及他们试图在城市中实现的任务。此外,所执行的任务也对应4类功能,可查看以下图片中对每个Agent的标签说明。
Earthbound Agents
基于V-IRL平台的Agent居住在全球真实城市的虚拟“代表”中,“代表”即地球表面上的点相对应的地理坐标,作为虚拟和现实之间的纽带。Agent则使用地图API、真实街景图像、附近目的地信息等将自己融入到现实世界中。
Language-Driven Agents
[LLM➜Reasoning] 推理和语言模型
为了处理更复杂的任务,也加入了由语言驱动Agent的模式。LLM大型语言模型使Agent能够推理、计划和使用外部工具和API。
Visually Grounded Agents
[Vision➜Perception] 感知与计算机视觉
尽管语言驱动的Agent可以使用外部工具解决一些现实世界的任务,但它们对基于文本的信息依赖限制了它们对需要视觉基础的任务的适用性。相比之下,真实的视觉感官输入是许多人日常活动中不可或缺的一部分,可以与我们周围的现实世界建立深入的联系和理解。所以基于计算机视觉功能,Agent可以通过V-IRL平台利用街景图像,在视觉上将自己置于现实世界中,从而开启各种感知驱动的任务。
Collaborative Agents
[Colab➜Collaboration] Agent+人的协作机制
参考人们一同工作来解决复杂任务,此类协作将复杂的任务分解为更简单的子任务来提高效率和有效性,允许每个任务由其领域的专家来处理;Agent可以与Agent互动,也可以与人互动。
8个Agent角色对应展示的功能说明
"Peng"
Peng设定:Route Optimizer, 学校访问生, 纽约
Earthbound Agents [Map➜Action]
V-IRL可用真实的地理空间信息实例化Agent,并实现路线优化等有用的任务。例如“Peng”的背景设定为从内地到纽约的访问生,并不了解当地情况,但需要前往纽约的几个分散地点来签署文件以正式注册为访问生。利用地理定位和地图功能,Peng 沿着最短路径步行,而不是按平铺顺序访问路径点,从而节省了7分钟。
以Peng为例,Earthbound Agents 的路径优化
"Aria"&"Vivek"
Aria设定:Place Recommender, 地点推荐人, 纽约
Earthbound Agents [Map➜Action]
Language-Driven Agents [LLM➜Reasoning]
Vivek设定:Place Recommender, 房产经纪人, 纽约
Earthbound Agents [Map➜Action]
Language-Driven Agents [LLM➜Reasoning]
为了解决更复杂的任务,大型语言模型能使Agent更灵活地推理、计划、使用外部工具和API。例如“Aria”设定为上一位“Peng”的同学,“Vivek”是推荐“Peng”新住处的房产经纪人。“Aria”搜索了附近的餐厅,综合了公众评论、通过GPT-4提出最终的用餐选点并推荐了“Peng”;“Vivek”使用房地产API在Peng所在地区、设施要求、和适合价格范围内寻找潜在的公寓,同样使用GPT-4提供整体评级并伴随推理,得到了最佳的住处推荐。以这两者为例,V-IRL向Language-Driven Agents公开丰富的现实世界信息,可便于实现特定的现实任务。
Aria和Vivek智能推荐系统设定
"RX-399", "Imani", &"Hiro"
RX-399设定:Urban Assistance Robot, 城市辅助机器人, 纽约/香港
Earthbound Agents [Map➜Action]
Visually Grounded Agents [Vision➜Perception]
Imani设定:Urban Planner, 城市规划师, 纽约
Earthbound Agents [Map➜Action]
Visually Grounded Agents [Vision➜Perception]
Hiro设定:Intentional Explorer, 旅行者, 香港
Earthbound Agents [Map➜Action]
Language-Driven Agents [LLM➜Reasoning]
Visually Grounded Agents [Vision➜Perception]
“RX-399”这款城市机器人拥有物体检测、定位和导航遥测系统,使其能够在繁忙的城市街道上执行感知任务,并且可以和香港/纽约市的环卫部门开展合作试点,以评估城市垃圾收集情况。机器人沿着预先设定的城市路线导航,使用开放世界探测器和地理定位模块标记所有垃圾箱,并获得它们的视觉状态数据和分析结果。“RX-399”也可以主动调整其相机姿势,以达到每个潜在物体的最佳视图,再通过使用特征匹配来检查先前检测中的重复项,从而避免双重计数。
“Imani”的设定是一位城市规划师,她为“RX-399”设置移动路线,并获得机器人为她检测和收集的第一人称数据,如对纽约市的垃圾箱、消防栓、公园长椅等,以此展开城市分析,并与纽约市公园和休闲部门合作开展项目。通过检索“RX-399”标记的视觉数据,“Imani”还可以检查物体的检测结果,以帮助她验证“RX-399”检测结果的可靠性。
Agent也可以利用视觉检测器、VLM (Vision-Language Models)和LLM在环境中迭代地感知、决策和交互。“Hiro”设定是城市旅行者,在“RX-399”和“Imani”的基础上加入了VQA (Visual Question Answering)来选择合适的旅游路线、使用地点评论和LLM来决定一个地点是否适合自己。
RX-399, Imani, 与Hiro相应的视角情况
"Ling"&"Diego"
Ling设定:Tourist, 旅行者, 纽约/旧金山/香港
Agent-Agent Collaboration
Earthbound Agents [Map➜Action]
Language-Driven Agents [LLM➜Reasoning]
Visually Grounded Agents [Vision➜Perception]
Collaborative Agents [Colab➜Collaboration]
Diego设定:Interactive Concierge, 酒店礼宾员, 纽约
Human-Agent Collaboration
Earthbound Agents [Map➜Action]
Language-Driven Agents [LLM➜Reasoning]
Visually Grounded Agents [Vision➜Perception]
Collaborative Agents [Colab➜Collaboration]
相近于人类可以通过协作来解决复杂的现实世界任务,当Agent自身无法完成任务时,也可以将复杂任务拆解为简单的子任务,与其他Agent协作完成任务。“Ling”的设定虽然也是游客,但在同样为游客的“Hiro”的基础上,“Ling”加入了类似于人们向当地人询问的特性,向附近的本地Agent询问前往特定位置的路线。在V-IRL平台中,本地Agent将在地图和街景中预览路线,然后以自然语言提供步行路线,并提及主要十字路口和地标。“Ling”可以按照街景中的这些指示进行操作,如果迷路,可再向其他本地代理寻求帮助。同时,识别街道上的视觉地标也有助于GPT-4就转向方向、前进和停止的位置给出正确的决定。
Ling与旅游所在地的本地Agent协作的过程示意
Agent也可以与真实的人类用户协作并提供针对用户个人情况的服务。最后一位“Diego”是酒店的礼宾专家,相比于仅基于LLM 的Agent,“Diego”还将基于用户需求定制行程、考虑用户的身心状态、预测每项活动时的状态变化和预算,也将结合V-IRL平台中的真实旅行时间,并通过与其他Agent合作来选择合适的目的地。用户也可以提供反馈,来促使“Diego”及时修改原有计划并重新估计修改后的状态变化。利用V-IRL的街景和地图,“Diego”可以遍历感兴趣的区域,寻找潜在的风景点供用户参观,也可以使用VQA对捕获的每个视图进行评分,并将评分高点推荐至用户的行程中。
Diego对用户的行程计划,加入了对身心健康和预算变化的关注
如下图所示,“Diego”使用迭代计划流程。首先使用GPT-4为第一项活动创建一个初步计划草案,并将用户个人背景、要求和以往活动纳入工作记忆。然后通过分层协调(真实的地理空间/地点信息)、感知估算(活动成本和对人类状态的影响)和监督(预算和潜在干预)对草案进行细致完善。
Diego交互式礼宾Agent的工作流程概述
系统基本原理
V-IRL的分层设计把全球各个真实城市总结成了一个庞大的虚拟空间,在其中的智能体可以被构建出来解决实际任务。平台是整个系统的基础,为智能体提供了必要的组件和基础架构。在这之上,智能体能够展现出感知、思考、行动和合作等更高级的能力。最后,智能体通过这些能力和用户自定义的信息,在针对特定任务设计的运行程序中找到解决问题的方法。
V-IRL架构层级
V-IRL基准
V- IRL基本属性包括其访问源自现实世界感官输入的不同地理位置数据的能力,并且提供了一个便捷的API与谷歌地图平台GMP进行交互。研发团队开发了三个V-IRL基准,以评估现有愿景模型在此类开放世界数据分发中的能力:V-IRL地点(Place)、V-IRL视觉语言导航(Vision Language Navigation)和地理多样性(Geographic Diversity)。
Place: Localization 定位
动机:
设置:
研究人员对RX-399 Agent进行了微调,使其能够在定位和识别20种地点类型的同时,穿越多边形区域。测试共包含三种开放世界检测模型:GroundingDINO、GLIP和Owl-ViT,研究人员同时设置了一个简单的基准模型—CLIP(结合GLIP提案),即使用CLIP对GLIP提出的分类进行重新分类。模型的评估依据是定位召回率,即正确定位的地点数与总定位尝试中的地点数之比。
结果:
由下表所示,开放世界检测器如GroundingDINO、Owl-ViT和GLIP对某些特定地点类型(例如学校、咖啡馆和便利店)是有明显偏好的。与之相比,CLIP(w/GLIP proposal)能识别更多种类的地点。这主要是因为对象检测数据集中存在的类别偏差,这些数据集通常只包含有限的词汇。因此,即便是使用了CLIP进行初始化的检测器,如Owl-ViT,其能识别的词汇范围也会在微调之后缩小。这些发现表明,对于那些在对象检测数据集中不太常见的类别,使用不依赖于特定类别的对象提案,进而利用零样本识别技术进行开放世界定位,是一种很有潜力的方法。
Place: Recognition and VQA 识别与视觉问答
动机:
相较于在街景图像上进行复杂的V-IRL地点定位任务,人们在现实生活中可以通过近距离观察来轻松识别各种商业场所。对此,研究人员对现有的视觉模型在两种以地点为主的图像感知任务上进行了评估:
(1)识别具体的地点类型;
(2)通过视觉问答来识别人类的意图,也就是意图VQA。
设置:
在识别方面,研究人员评估了10种开放世界识别模型。测试使用的是以地点为中心的图像,而模型需要从96个选项中识别出地点类型。在意图VQA方面,研究人员还评估了8种多模态大语言模型(MM-LLM),方法是通过包含有4个选项的多选题来判断人类的可能意图。V-IRL地点VQA的过程如下图所示,其中每个问题的可能答案和正确答案都是由GPT-4自动生成的。
结果:
结合图表,在V-RL地点识别任务中,CLIP(L/14@336px)的表现超过了Eva-02-CLIP和SigLIP的最大版本,凸显了CLIP数据的质量之高。表格的底部显示,在意图VQA方面,BLIP2、InstructBLIP和LLaVA-1.5表现优异,而其他模型则表现不佳。这三个表现最好的MM-LLM在评估过程中给出了一致的答案,而其他模型因为选择不一致而常常失败。
Vision Language Navigation 视觉语言导航
动机:
Intentional Explorer和Tourist Agent想完成复杂的任务,就必须要同时利用视觉和语言模型。因此,研究人员通过引入结合了真实街景的新任务,创建出了V-IRL视觉语言导航(VLN)基准测试。
设置:
研究人员微调了Tourist智能体的实现方式,将其识别组件替换为了不同的基准测试模型,负责在导航过程中识别视觉地标。接着,GPT-4会根据识别的结果预测下一步动作。其中,导航指令由Local Agent生成。研究人员共评估了四种方法在导航时识别地标的能力:
(1)通过搜索附近地标的近似方法;
(2)零样本识别器CLIP和EVA-02-CLIP;
(3)多模态大语言模型LLaVA-1.5;
(4)使用OCR模型识别街景中的文本,然后通过GPT解析答案。
结果:
如下表所示,当使用oracle地标信息时,强大的LLM能够精准地理解导航指令并做出正确的决策,表现令人印象深刻。但是,当依赖视觉模型从街景获取地标信息时,成功率大幅下降,这说明视觉模型的感知存在误导,影响了LLM的决策。在这些识别器中,CLIP和EVA-02-CLIP的大规模版本表现更为出色,凸显了模型scaling的优势。LLaVA-1.5作为视觉编码器使用CLIP(L/14@336px)时表现不佳,可能是因为在指令微调过程中存在对齐问题。另外,PP-OCR(+ GPT-3.5)的成功率为28%,体现出OCR对于视觉地标识别至关重要。
Geographic Diversity 地理多样性及挑战
V-IRL基准测试涵盖了全球12个不同的城市,进而提供了一个独特的视角,来观察视觉模型在不同地区可能存在的偏差。如下图,视觉模型在尼日利亚拉各斯、日本东京、中国香港和阿根廷布宜诺斯艾利斯的表现都不尽如人意。其中,东京、香港和布宜诺斯艾利斯等城市普遍使用了非英语文字。而拉各斯的街景更是与发达城市相比大相径庭,难倒了不少视觉模型。这一现象揭示了一个重要的问题:目前的视觉模型在处理包含多种语言的图像数据时面临挑战。
结论
开源平台V-IRL的设计初衷是为了缩小数字世界与真实世界之间的感知差异,让AI Agent能够在一个既虚拟又真实的环境中与现实世界进行交互。借助V-IRL,智能体可以基于真实的地理信息和街景图片,培养出丰富的感知能力和对环境的理解。为提高AI在理解环境、做出决策和处理现实世界信息方面的能力开启了新的可能。
随着空间计算技术和机器人系统的日益普及,AI Agent的需求和应用场景将不断扩大。从个人助手到城市规划,再到为视力受限者打造的生活辅助工具,我们期待着一个能够深刻理解周围世界的智能体时代的到来。
V-IRL项目作者介绍
Jihan Yang*
Ph.D. student
Department of Electrical and Electronic Engineering
The University of Hong Kong, advised by Dr. Xiaojuan Qi
Runyu Ding
Ph.D. student
Department of Electrical and Electronic Engineering
The University of Hong Kong, advised by Dr. Xiaojuan Qi
Ellis Brown
Ph.D. student
Courant Institute of Mathematical Sciences
New York University, advised by Saining Xie and Rob Fergus
Xiaojuan Qi
Assistant Professor
Department of Electrical and Electronic Engineering
The University of Hong Kong
Saining Xie
Assistant Professor
Courant Institute of Mathematical Sciences
New York University
对本篇项目的论文全文、以及其中的引用文献感兴趣的读者,可以扫取小助手二维码,并备注:“2024.3.14 文献资料”,可直接获取。
本期推文修改来源:新智元;以下链接可点击转跳
“给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实”
博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验
TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。
TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!