作者:Abrar Anwar, John Welsh, Joydeep Biswas, Soha Pouya, Yan Chang 单位:NVIDIA,南加州大学,德克萨斯大学奥斯汀分校 论文标题:ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation 论文链接:https://arxiv.org/abs/2409.13682 项目主页:https://nvidia-ai-iot.github.io/remembr/ 代码链接:https://github.com/NVIDIA-AI-IOT/remembr
主要贡献
论文介绍了ReMEmbR,用于构建和推理机器人导航中的长时序时空记忆,通过结合检索增强记忆和大模型(LLM)智能体,能够有效地处理机器人长时间积累的历史数据,并回答关于这些数据的自由形式问题。 为了评估ReMEmbR系统的性能,构建了NaVQA数据集,包含从长时序机器人导航视频中标注的空间、时间和描述性问题,用于测试模型在长时序记忆构建和推理方面的能力。 ReMEmbR采用结构化的方法,包括记忆构建和查询两个阶段。记忆构建阶段使用视频描述生成模型来嵌入图像帧,并将这些嵌入存储在向量数据库中。查询阶段则使用LLM智能体通过检索函数来采样数据库,以回答用户的问题。 通过实验展示了ReMEmbR在长时序任务上的优越性能,特别是在低延迟的情况下。此外,论文还展示了ReMEmbR在实际机器人上的部署情况,证明了其在现实世界中的应用潜力。
研究背景
研究问题
机器人需要能够回答关于其部署期间发生的事件的问题,例如事件发生的位置、时间以及持续时间等。
本文主要解决的问题是机器人在长时间部署过程中如何有效地构建和推理长时记忆,以便进行机器人导航。
研究难点
该问题的研究难点包括:
处理长时间视频数据的推理需求、 在有限的计算资源下进行高效的历史数据聚合、 以及在动态和复杂环境中进行多步推理。
相关工作
具身问答(EQA) :
EQA 是视频问答的一个扩展,适用于自身体验的环境,要求智能体进行导航和信息收集以回答问题。 相关工作包括 OpenEQA,它能回答机器人所看到的内容,但其记忆长度仅为30秒,无法应对更长的时间跨度。 语言和导航:
传统的导航通常使用度量地图,不关注语义目标的导航。最近的视觉语言导航工作集中在探索未知空间,而机器人在同一区域长时间部署的情况较少被考虑。 记忆形式如场景图、拓扑记忆或可查询的地图表示可以用于生成语义目标,但在回答关于动态对象的时间历史问题上可能不足。 大模型和机器人:
近年来,大模型(LLMs)和视觉-语言模型(VLMs)取得了显著进展,扩展了它们在各种任务中的能力。 检索增强生成和LLM智能体允许LLM利用外部信息提供更多上下文。在机器人中,过去的工作使用LLMs进行任务规划、生成代码或生成导航目标。 而本文则专注于开放视界的感知,并构建一个LLM智能体以实现长时序机器人历史的可扩展多步推理。
问题表述
任务定义
机器人被部署一段时间(K分钟),并在此期间从各种传感器中积累历史记录 。由于机器人的持续部署,历史记录的大小随时间单调递增。 论文目标是高效地构建长历史记录 的表示,并查询该表示以回答问题和生成导航目标,即计算条件概率 。
记忆表示
为了高效地构建记忆,本文考虑了图像 、位置 和时间戳 的历史记录。 假设机器人具有定位能力(如基于LIDAR的定位、GPS或里程计信息),以提供度量坐标。
问题类型
空间问题:例如,“最近的洗手间在哪里?”机器人需要推理出所有看到的洗手间和洗手间标志,并提供具体的(x, y)位置。 时间问题:分为点时间和持续时间问题。点时间问题(如“你什么时候看到箱子掉落的?”)回答特定时间点,持续时间问题(如“你在建筑内待了多久?”)关注活动的长度。 描述性问题:询问环境、机器人可能看到的活动或机器人的状态。
ReMEmbR系统
问题分解
由于长时间历史的计算复杂性,本文将问题分解为两个阶段:记忆构建和查询。 目标是找到一个最优的历史子集 来回答问题,但实际上只能通过采样一个子集 来近似。
记忆表示
记忆表示 被设计为一个向量数据库,用于存储时间、位置和视觉表示。 向量数据库用于存储数百万个向量嵌入,并使用量化近似最近邻方法进行高效搜索。
记忆构建
在记忆构建阶段,机器人实时聚合信息。每 秒的视频帧被用来计算一个嵌入表示。使用视频描述生成模型(如VILA)生成每个时间段的描述性文本,然后使用文本嵌入函数将其嵌入。 随着时间的推移,机器人将文本嵌入、位置和时间戳添加到向量数据库 中。
查询过程
查询阶段使用LLM智能体作为采样函数 来从向量数据库 中采样历史子集 。 LLM智能体作为一个状态机,迭代调用LLM以生成函数调用和查询,从而检索相关的记忆片段。 LLM可以调用三种函数:文本检索、位置检索和时间检索,以获取更多的上下文信息。
答案生成
一旦检索到足够的记忆片段,LLM评估是否可以回答问题。 如果问题仍然无法回答,LLM会再次执行查询阶段以获取新的记忆。 如果问题可以回答,LLM会总结相关信息并生成答案。
NaVQA数据集
NaVQA数据集是基于CODa机器人导航数据集构建的。CODa数据集是一个大型的城市导航数据集,包含在大学校园内的室内和室外环境中长时间序列的数据。 NaVQA数据集通过标注空间、时间和描述性问题来评估模型处理机器人中心长时序推理的能力。
数据选择
本文从CODa数据集中选择了7个序列,每个序列的长度从15到30分钟不等。 这些序列被进一步划分为短(少于2分钟)、中(2到7分钟)和长(超过7分钟)三类,以便研究不同轨迹长度对问题回答能力的影响。
数据标注
每个序列被细分为10个不同长度类别的片段,总共生成210个问题。 为了确保问题的多样性和复杂性,招募了5位机器人专家来设计空间、时间和描述性问题。
数据统计
NaVQA数据集包含五种类型的问题输出:二进制是/否问题(32%)、时间点问题(14%)、持续时间问题(4%)、空间位置问题(34%)和描述性文本问题(16%)。 问题集中在空间理解、物体检测、标志阅读、动态事件理解和上下文推理等方面。
实验设置
数据集使用
实验使用NaVQA数据集来评估ReMEmbR和其他LLM方法的性能。 NaVQA数据集包含了空间、时间和描述性问题,用于测试模型在长时序记忆构建和推理方面的能力。
方法比较
ReMEmbR使用检索模块来聚合长时序历史的相关部分。实验中使用了不同的LLM模型,包括闭源的GPT-4o、开源的Codestral和Command-R,以及一个较小的80亿参数的Llama3.1模型。 本文还比较了ReMEmbR与两种基线方法:一种是直接使用GPT-4o处理所有描述,另一种是使用多帧视频模型(Multi-Frame VLM)处理所有帧。
评估指标
数据集的答案类型包括空间坐标、时间点和描述性文本,因此使用了不同的评估指标。 对于空间问题,计算L2距离,并定义在一定范围内为正确。 对于时间问题和持续时间问题,定义在一定误差范围内为正确。 对于描述性问题,计算二元准确率。
实验细节
所有ReMEmbR实验在三个种子上运行,而由于成本较高,基线结果在一个种子上运行。 由于种子的不可重复性,本文对所有种子的结果进行了微平均。
结果与分析
性能对比
ReMEmbR在长时序任务上表现出色,尤其是在低延迟的情况下。 与传统的LLM方法和VLM基线相比,ReMEmbR在长视频上表现出更高的描述性问题准确性、位置误差和时序误差。 对于短视频,ReMEmbR的性能与VLM相当,但VLM无法处理长视频和中长视频。
整体正确性
ReMEmbR随着视频长度的增加,整体正确性得分更高。这表明ReMEmbR在处理更长时间范围的任务时表现更好。
低延迟
ReMEmbR在回答一个问题时的延迟较低。对于一个21.5分钟的视频,ReMEmbR大约需要25秒来回答一个问题,而VLM则需要大约90秒来回答一个较短的视频。 ReMEmbR的回答时间相对稳定,不受视频长度的影响。
开源LLM的表现
开源的LLM(如Codestral和Command-R)在处理算术推理方面表现较差,导致在时间和空间问题上的性能较低。
影响性能的因素
较长的描述长度和较低的帧率会影响性能,因为信息丢失可能导致性能下降。 使用较大的描述模型(如13b模型)比使用较小的模型(如8b和3b模型)性能更好。
迭代查询的重要性
迭代函数调用对于获得良好性能至关重要。仅使用一次迭代的ReMEmbR在整体正确性上有所下降,这表明一些问题需要多步推理。
真实世界部署
机器人部署
本文将ReMEmbR部署在一台名为Nova Carter的机器人上。实验中,记忆构建阶段在Jetson Orin 32GB上运行,使用GPT-4o作为ReMEmbR智能体的后端。 使用VILA-3b的量化版本来聚合时间上的描述性文本。机器人使用ROS2的Nav2堆栈和AMCL进行定位,运行在预先映射的度量地图上。 使用Whisper自动语音识别模型进行交互,该模型针对Jetson进行了优化。
定性结果
在一个大办公室空间中,机器人首先围绕环境行驶25分钟以构建记忆。然后,研究人员开始向机器人提出各种导航相关的问题。 机器人成功执行了诸如“带我去放薯片的地方”等任务,能够将用户带到放置薯片的自助餐厅货架。 系统还能够引导用户到更一般的区域,如食品区,如果被问及食物或饮料。 机器人还能处理更模糊的问题,例如“带我去一个有好风景的地方”,机器人会寻找高大的玻璃窗户、植物和开阔空间,并导航到一个有大玻璃窗和绿植的大堂。 然而,系统在某些情况下也会出现混淆,例如将饮水机误认为是“银色机器”(可能是由于使用量化3B描述模型未能正确描述饮水机)。
总结
文章来源:视觉语言导航