[通用人工智能] 论文分享|CognitiveDog:一种基于多模态LLM的四足机器人系统

文摘   2024-08-05 16:51   韩国  


     大型语言模型(Large Language Models, LLMs)的发展为打造一个既灵活又智能的通用人工智能机器人提供了新的可能性。LLM除了拥有令人惊叹的推理能力,还在机器人的规划、操作和交互领域展现出了前所未有的应用潜力,仍面临一些挑战,比如,由于机器人往往难以通过纯文本的方式理解外部世界,因此在环境中规划机器人行为时,LLM不仅需要考虑执行何种技能,还需要考虑如何以及何时执行。

    最近,在机器人领域的顶级会议ACM/lEEE International Conference on Human Robot Interaction HRI 2024)上发表了一项基于多模态大模型的四足机器人视觉和语言转换系统(CognitiveDog)的研究工作。CognitiveDog 是一款基于多模态大模型的四足机器人闭环反馈系统。机器人通过与环境的互动学习,不断优化自己的行为规划。通过结合视觉和语言转换技术,机器人还可以能够更好地理解和应对外部世界的变化,从而实现更灵活、更智能的行为。让我们一起来看看吧!

原文链接:https://dl.acm.org/doi/10.1145/3610978.3641080

一、研究背景

    多模态大模型(如GPT-4 [1] 和Gemini [2])的出现为机器人技术带来了新的可能性,使其能够处理图像和文本输入。利用多模态大模型,机器人可以更好地理解环境信息,从而增强其具身智能。然而,目前许多机器人仍然面临着移动和范围的限制。通用智能机器人的发展目前主要集中在生物启发的设计上,例如特斯拉的人形机器人和波士顿动力的机器狗。然而,这些机器人与环境的交互仅限于理解和移动[1]。

    视觉传感器和语言处理模块作为机器人的”眼睛“和”耳朵“接受外界输入信息,LLM作为机器人的”大脑“对接受得信息进行思考和决策。利用LLM的先验知识,Voxposer [3] 对机器人进行基于视觉的运动控制。RT-2 [4] 基于transformer和真实世界的机器人任务数据集,实现视觉、语言和机器人行为之间的端到端控制。值得注意的是,对于复杂任务的有效推理不仅仅需要语义知识,同时也需要对世界的理解。Inner Monologue [5] 提出了机器人认知,即内心独白的概念,结合环境反馈信息实现机器人与环境的交互,为机器人的智能行为提供了支持。

    本文旨在通过环境图像分析和生物设计,使机器人能够在复杂的空间中执行动作。受Autogen [6] 启发,本文提出了一个多智能体框架CognitiveDog,将内心独白(Inner Monologue)与基于大模型的机器人操作相结合,增强四足机器人与环境感知交互的能力。CognitiveDog使用了两个大模型分别进行机器人的行为规划和环境分析,两个模型之间通过自然语言实现信息共享。


二、研究方法

图1: CognitiveDog的框架

    CognitiveDog 旨在通过与环境交互的反馈来帮助机器人选择下一步的动作。机器人通过三个 RGB-D 摄像头观察周围环境,并使用一个语音处理模型接受人类的语言指令。如图1所示,作者采用两种大模型(Mistral 7B [7] 和 MiniGPT4-v2 [8])分别负责机器人的行为规划和环境图像分析,根据环境反馈,来规划机器人每一步的动作行为。

2.1

逐步规划生成

    在该研究中,机器人的行为规划是通过迭代生成的,决定了其执行任务的能力。机器人需要选择最优的行为,并分析行为的结果和历史信息。在每次迭代中,模型接收由任务、动作以及动作结果的历史信息组成的prompt,以生成下一步的动作步骤。

    模型可以生成的步骤是有限的。这些步骤代表机器人可以执行的物理动作,例如"GO_TO"、"TAKE"、"PUT_IN"等,每个步骤都对应机器人可执行的程序。当任务完成时,模型会输出"FINISH"。

    此外,模型生成的还有一些更复杂的步骤,如"DESCRIBE_VIEW"、"QUESTION_VIEW"和"SEARCH_VIEW",这些步骤需要另一个具有视觉编码器的大模型来进行环境图像的分析。

    考虑到自主性和独立外部输入对于适应人类环境的机器人的重要性,作者选择参数规模7B的模型作为行为规划器。MIT的一项研究 [9] 详细介绍了如何在规格类似于Unitree Go1的车载计算机上部署7B模型的技术框架。根据文献[10]的深入分析,Mistral 7B 在MMLU度量标准上展现出了卓越的性能,其知识掌握程度与Llama-2-13B相当,而在推理能力上则与Llama-34B不相上下。这种在上下文理解、文本分析和逻辑推理方面的高水平表现,对于构建现实世界中的机器人行为规划具有至关重要的意义。Mistral 7B的这些能力,使其在处理复杂情境、解读丰富信息和执行精确推理时,能够展现出非凡的适应性和灵活性。基于这些考虑,作者选择Mistral 7B作为行为规划器。

    在微调阶段,作者使用了一个包含各种机器人操作场景的数据集。微调过程强调教模型迭代地构建步骤。这里没有为每个步骤生成数据集示例,而是使用一种结构化数据,包括系统提示符、用户定义的任务以及场景的步骤和结果的综合列表。给定此结构,该模型将预测后续步骤和结果,并将每个新步骤及其结果添加到现有历史中。这种策略最大限度地减少了所需样本的数量,同时保持了它们的信息丰富性。

2.2

视觉信息分析

    作者使用一个专门的环境分析模型,MiniGPT4-v2,简化了环境任务模型的训练,这有助于收集不同的数据集,而不与特定的环境或对象绑定。这种方法确保了模型的有效性不受物体外观变化或环境变化的影响。这里详细讨论MiniGPT4-v2如何与环境交互,即回答基于图像的问题,并提供图像的描述和对象定位信息

    MiniGPT4-v2 是一种(Visual Question Answering,VQA)模型,旨在解决视觉问题回答任务 [8]。作为CognitiveDog的环境分析模型,MiniGPT4-v2 的目标是理解图像并输出自然语言的答案。基于图像的query由位于机器人前侧和两侧的三个摄像头的图像缝合在一起,以提供全景视图。

    具体而言,MiniGPT4-v2 在处理基于图像的query时采用不同的标签进行区分。对于“QUESTION_VIEW”,模型使用标签[vqa]进行处理,以回答问题。对于“DESCRIBE_VIEW”类型的query,模型使用补充的参数来生成简短的图像描述。而对于“SEARCH_VIEW”类型,模型使用标签[detection]标记,并输出带有对象标识符和边界框的结果。通过使用Visual-SLAM技术,模型将坐标转换为三维空间数据,并与对象标识符进行关联。对于具有相同名称的对象,模型使用唯一标识符进行区分,例如“SEARCH_VIEW(apple), RESULT(<p>apple[1]</p><p>apple[2]</p>)”。


三、实验评估

    该研究进行了三个实验来评估CognitiveDog在不同任务中构建规划的能力,其中,第一和二个实验采用了RT-2 [4] 中概述的实验方法,并对其进行了调整,以完成任务的成功率作为评价指标。

3.1 泛化能力

    为了评估系统的泛化能力,作者收集了在训练过程中未使用的指令作为测试数据,测试数据被分成了三个类别,包括对象、背景和环境。

图2: 在各种未见过测试类别的实验结果

    图2展示了五种Agent在测试数据上的任务成功率。CognitiveDog在背景类的结果与RT-2相似,并且在环境类上能够取得最优的性能表现。所有三个类别的平均结果显示,CognitiveDog的成功率比最优模型RT-2高出3%,而参数量几乎比RT-2 w/ PaLM-X-55B少4倍。

    CognitiveDog能取得如此结果,可能归因于MiniGPT4-v2对于不同图像输入的高度适应性。

3.2 涌现能力

    在第二个实验中,作者从RT-2实验基础上设计了新实验,以探索CognitiveDog的涌现能力,包括符号理解、推理和人类识别。

图3: 三类涌现能力的实验结果

    在图3中,与RT-2相比,CognitiveDog在符号理解上存在困难,这可能是由于MiniGPT4-v2模型的影响。该模型在生成图像描述时偶尔会出现幻觉,即生成不存在的视觉对象或不准确的坐标[8]。为了改进这一问题,可以通过额外的VQA模型训练来提高CognitiveDog的性能。另外,在推理任务中,Cognitive表现出最佳性能,这要归功于Mistral 7B(行为规划模块)和MiniGPT4-v2(环境分析模块)之间的“Inner Monologue”设计,此设计使得CognitiveDog能够在推理过程中进行内部对话,从而提高了其推理能力。此外,Mistral 7B在所有推理任务上取得了更好的结果,这进一步证明了其优越性。

3.3 复杂任务演示

    第三个实验旨在评估CognitiveDog从简单演示中学习并应用到复杂任务中的能力。这些复杂任务需要更高级的推理行为。在实验中,模型不进行微调,所有测试的复杂任务都是系统未曾见过的。为了完成这些任务,CognitiveDog需要从规划的中间步骤中获取信息,并根据新收集的数据采取相应的行为。实验中包含了一系列人为编写的复杂任务,例如:“观察图片,然后找到并携带适合该活动的物体”。

图4: CognitiveDog部署在Go1上逐步完成复杂任务的过程

    如图4所示,这个实验特别突出了机器人的移动性。借助于”Inner Monologue“框架,CognitiveDog能够在开放环境中运行,并结合自然语言指令实现广泛的人机交互。


四、总结

    该研究提出了一种将基于多模态大模型的四足机器人系统CognitiveDog,将内心独白(Inner Monologue)与基于Transformer的大模型的机器人操作相结合,增强四足机器人与环境感知交互的能力。这种新颖的方法使机器人能够为多样化的真实世界任务生成和执行计划。四足机器人能够根据环境反馈信息生成和执行不同的现实任务。实验评估证明了机器人对不同环境参数的高适应性。值得注意的是,机器人在人类识别和推理任务上的表现分别超过了RT-2 w/ PaLM-E-12B的12%和20%,并且接近于RT-2 w/ PaLM-X-55B,而后者的参数规模大约是CognitiveDog的四倍。在推理能力方面,CognitiveDog性能表现比RT-2高出16%,这种优越归因于基础模型的推理能力与Inner Monologue方法的有效结合。将这种先进的系统集成到一个强大的四足机器人平台中,该平台具有几乎无限的工作区域,使我们更接近实现通用机器人的目标。这样的机器人将能够提供自然而全面的人类-机器人交互,标志着机器人技术和人工智能领域的重要进步。


参考文献

REFERENCE

[1] Almazrouei E, Alobeidli H, Alshamsi A, et al. The falcon series of open language models[J]. arXiv preprint arXiv:2311.16867, 2023.

[2] Pichai S, Hassabis D. Introducing Gemini: Google’s most capable AI model yet[J]. The Keyword. Retrieved January, 2023, 29: 2024.

[3] Huang W, Wang C, Zhang R, et al. Voxposer: Composable 3d value maps for robotic manipulation with language models[J]. arXiv preprint arXiv:2307.05973, 2023.

[4] Brohan A, Brown N, Carbajal J, et al. Rt-2: Vision-language-action models transfer web knowledge to robotic control[J]. arXiv preprint arXiv:2307.15818, 2023.

[5] Huang W, Xia F, Xiao T, et al. Inner monologue: Embodied reasoning through planning with language models[J]. arXiv preprint arXiv:2207.05608, 2022.

[6] Wu Q, Bansal G, Zhang J, et al. Autogen: Enabling next-gen llm applications via multi-agent conversation framework[J]. arXiv preprint arXiv:2308.08155, 2023.

[7] Jiang A Q, Sablayrolles A, Mensch A, et al. Mistral 7B[J]. arXiv preprint arXiv:2310.06825, 2023.

[8] Chen J, Zhu D, Shen X, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning[J]. arXiv preprint arXiv:2310.09478, 2023.

[9] Wei-Ming C, Wei-Chen W, Song H, et al. Tiny-ChatEngine: On-Device LLM Inference Library[J]. 2023. https://github.com/mit-hanlab/TinyChatEngine.

[10] Jiang A Q, Sablayrolles A, Mensch A, et al. Mistral 7B[J]. arxiv preprint arxiv:2310.06825, 2023.


  初稿:唐峻烽

  复审:颜学明

  终审:金耀初


可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章