点击下方卡片,关注“自动驾驶之星”
文章链接:https://arxiv.org/pdf/2412.11974
代码链接:https://github.com/declare-lab/Emma-X
Huggingface链接:https://huggingface.co/declare-lab/Emma-X
亮点直击
提出了一个具有70亿参数的具身多模态动作模型 EMMA-X,通过在有根据的链式思维(CoT)推理数据上微调 OpenVLA 创建而成。 通过合成构建了一个层次化的具身数据集,该数据集来自现有的机器人操作数据集,包含了3D空间运动、2D夹爪位置和有根据的推理。 提出了一种新颖的轨迹分割策略,利用夹爪的开合状态和机器人手臂的运动轨迹,促进了有根据的任务推理和前瞻性空间推理。 提出的 EMMA-X 在各种实际机器人任务中,特别是在需要空间推理的任务中,相比现有的竞争基准,取得了显著的性能提升。
总结速览
解决的问题
传统的基于强化学习的机器人控制方法通常是任务特定的,无法在不同环境或未见过的物体和指令中进行有效推广。尽管视觉语言模型(VLMs)在场景理解和任务规划上表现出色,但它们缺乏生成适用于特定机器人形态的可操作策略的能力。此外,现有的视觉语言行动(VLA)模型在长时间跨度的空间推理和基于实际任务的规划中存在挑战,尤其是在处理复杂任务和模糊指令时。
提出的方案
本文提出了EMMA-X(Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning) 模型。该模型通过引入基于层次化具身数据集(BridgeV2)来增强机器人任务推理和空间引导,生成更加精准的多任务通用机器人动作。EMMA-X结合了基于视觉和任务推理的链式思维,并且引入了前瞻性空间推理能力,以确保机器人能够生成高效且适应环境的长期任务规划。
应用的技术
层次化具身数据集(BridgeV2):EMMA-X基于此数据集,包含了60,000条机器人操作轨迹,每条轨迹都附有详细的空间推理和任务推理。 前瞻性空间推理(Look-ahead Spatial Reasoning):通过预测夹爪未来位置(2D位置)和三维运动计划,优化机器人行动的长期规划。 轨迹分割策略:基于夹爪的开合状态和机器人手臂的运动轨迹,动态地将状态序列分割成独立段,从而减轻了因不充分的视觉理解所导致的任务推理中的幻觉问题。 Gemini生成任务推理:与ECoT方法不同,EMMA-X结合了视觉输入和任务推理,避免了仅依赖文本描述所产生的推理冲突。
达到的效果
减少幻觉现象:通过结合视觉图像和任务推理,EMMA-X显著减少了任务推理过程中的幻觉问题,提供了更为准确的子任务定义。 提高机器人任务执行效果:实验结果表明,EMMA-X在实际的机器人任务中,尤其是需要长时间跨度空间推理的任务中,表现优于现有的竞争基准。 增强的任务规划能力:通过长时间跨度的空间推理,EMMA-X能够生成更精确的高层次运动规划,帮助机器人在复杂和动态环境中执行任务。
方法
EMMA-X 包括三个关键设计:
基于夹爪状态和机器人手臂运动轨迹对轨迹进行分割。 生成层次化的规划,包括有根据的任务推理、2D夹爪位置和3D空间运动。 基于我们构建的数据集,基于OpenVLA 训练EMMA-X。
轨迹分割
为什么要分割轨迹? 本文的总体目标是通过有根据的链式思维(CoT)推理,增强视觉语言行动(VLA)模型。现有 VLA 模型存在两个主要的局限性:
虽然现有的 VLA 通过将任务分解为子任务并使用 CoT 解决每个子任务来改善任务分解(Zawalski et al., 2024),但它们的 CoT 推理完全依赖于文本场景描述。这限制了它们在现实场景中的推理能力。 它们缺乏强大的空间推理能力,而空间推理对有效的任务规划和执行至关重要。
为了解决这些局限性,本文提出了两个关键的解决方案:
结合视觉场景信息:除了文本提示外,将视觉输入集成到Gemini 中,使任务分解可以同时基于视觉和文本上下文生成高层次的规划。 细粒度的运动规划:训练机器人确定去哪里以及如何到达完成子任务所需的潜在未来状态。
为了实现这些解决方案,每个状态都必须标记机器人正在执行的子任务。然而,实验表明,通过Gemini 直接标注每个帧会导致标签噪声,可能是因为上下文信息不足。为了克服这个问题,将轨迹分割成连续的状态序列,其中机器人执行语义上相似的动作。通过这种分割,提供了更丰富的上下文,使Gemini 更有效地为子任务分配标签。
此外,轨迹分割有助于找到夹爪在未来状态中的位置,并规划其运动。在给定状态 时,模型预测到达下一个分段初始状态 所需的运动计划,然后再确定在 时的策略。由于,这种方法使得模型能够进行前瞻性的空间推理,预测夹爪在可能的未来状态中的位置,规划运动轨迹,并相应地生成。
分割方法
如下图 2(a) 和2(b) 所示,通过结合末端执行器的运动轨迹和夹爪状态对观察序列进行分割。为了实现这一目标,使用了基于密度的空间聚类算法(HDBSCAN),该算法能够有效处理由于人类示范中的不完美性引起的小波动所带来的噪声。HDBSCAN 的灵活性使得它能够发现数据中多样的轨迹模式。
研究者们定义了一种自定义的距离度量方法来分割末端执行器的轨迹,该方法同时捕捉空间和时间信息。设 表示数据点 的 3D 位置, 表示数据点 的 3D 定向。此外,设 表示该数据点的时间戳。两个数据点 和 之间的距离由以下公式给出:
其中, 是方向分量的权重因子, 控制时间距离的影响。这个结合的距离度量 确保空间运动和时间分离都对分割过程有所贡献。包含时间信息有助于区分空间相似但发生在不同时间的轨迹,而方向项则捕捉末端执行器旋转的变化。
通过应用 HDBSCAN 算法并使用这个距离度量,能够将轨迹分割成反映不同运动模式的有意义的簇。然而,仅有运动轨迹并不足以完全捕捉末端执行器与环境的交互动态。为了解决这个问题,引入了夹爪状态,该状态表示夹爪是处于抓取(闭合)还是松开(打开)位置。当 HDBSCAN 算法检测到新簇或夹爪状态在连续数据点之间发生变化时,就会发生分割断点,这可以形式化定义为。
这种双重分割方法有效地将基于轨迹的聚类与基于交互的分割结合起来,确保最终的分段能够同时捕捉末端执行器的运动模式和操作行为。通过整合这两种模态,实现了对策略的更丰富、更准确的分割。
通过分割过程,得到了一个由 表示的分段序列,其中 是分段的数量。每个分段表示为,包含 个状态。
数据生成
在获得分段后,为每个示范生成层次化的具身规划数据,如前图 2 所示。对于每个示范的分段,生成当前分段完成状态的 2D 末端执行器位置和 3D 运动。此外,为相应的子任务生成有根据的推理。
为什么进行前瞻空间推理?
考虑将机器人比作一名配送员,任务是将包裹送到指定目的地(目标)。配送员可以访问一张详细的城市高层地图,地图上提供了沿途到达目的地的潜在地标或检查点()。为了高效地到达目标,配送员执行两项任务:
规划高层路线:配送员识别出可能的地标和路线,引导他们朝向目标,类似于预测 和运动规划。 执行即时驾驶决策:在途中,配送员基于已规划的路线和当前位置,做出实时决策(如左转或在交通信号灯处停下)。
如果没有能力基于未来状态设立地标或检查点并根据它们规划路线,配送员只能依赖于反应性决策,这会导致低效或错误的路径选择。通过整合高层计划和即时反馈,配送员能够确保有目的且自适应地朝目标前进。
类比,计算出前瞻夹爪位置和运动计划,预测如何到达未来的状态。
前瞻夹爪位置生成
参考(Zawalski 等,2024),同样使用 OWLv2和 SAM来检测 2D 夹爪位置,如前图 2(e)所示。不同之处在于,训练模型仅输出当前输入状态的夹爪位置,而在数据构建过程中,使用当前夹爪位置作为输入,预测下一个分段第一个状态的夹爪位置。
因此,尽管两种方法都利用夹爪位置,本文的模型在训练时更侧重于预测未来状态下的夹爪位置,而不是识别当前状态下的夹爪位置。假设对于每个状态,我们得到,即下一个分段第一个状态的夹爪位置。
前瞻运动计划生成如前图 2(d)所示,通过机器人的状态策略推断出当前状态和当前分段的终态对应的 3D 空间位置。具体来说,我们计算这两个位置之间的位移,以确定机器人从当前状态到终态所需的方向和步长。借鉴 RT-H 中的运动语言思想,我们使用附录 E 中的标准化模板对我们的高层运动计划进行编码。通过整合前瞻空间推理,模型将反应性和主动决策相结合,结合当前状态 的即时上下文和预测未来状态 以及相应的运动策略 的高层计划。这种双重关注使得模型能够将即时动作与整体目标对齐,从而确保有目的和自适应的任务执行。
需要注意的是,这些数据并非直接执行为机器人的实际动作。假设对于每个状态,我们将得到,即到下一个分段第一个状态的运动计划。
基于推理的链式思维
如前图 2(f) 和 (g) 所示,利用 Gemini 3 来推导出每个分段对应的子任务,以及执行该子任务所需的场景理解和推理。具体来说,我们将分段图像序列和任务描述作为输入,指导 Gemini 生成每个分段的子任务和有根据的推理。与(Zawalski 等,2024)仅从文本信息推导子任务及其状态映射不同,本文的方法首先根据机器人运动轨迹和夹爪状态对序列进行分割。然后,基于给定的多模态信息,我们生成相应的子任务和每个子任务的推理。需要注意的是,每个子任务可以包含多个分段。对于第 条轨迹,从 Gemini 获得有根据的推理,定义为:
其中:
是第 个分段, 是分配给 的子任务标签, 是 Gemini 为给 分配子任务 提供的推理, 是轨迹中的总分段数。
最终数据集
训练数据集中第 条轨迹的最终数据集定义为:
其中,, 是轨迹中的总时间步数。
EMMA-X
本节介绍EMMA-X 的架构,这是一种基于 7B 参数的视觉语言行动(VLA)模型,经过在分层具身数据上微调OpenVLA得到。如下图 3 所示,调整了文本提示,加入了当前夹持器位置,并通过链式思维(CoT)训练来增强空间推理和场景理解能力,以预测下一步机器人的行动策略。
在实际机器人测试过程中,EMMA-X 接收以下几种输入:
任务描述:描述机器人需要执行的任务的文本。 当前观察图像:来自机器人视角的当前场景图像。 2D 夹持器位置:夹持器的当前位置信息,由OWLv2和SAM 实时检测。
EMMA-X 接下来会经历以下几个步骤:
子任务和场景描述生成:
基于任务描述和实时观察,模型首先预测要执行的子任务。 它还会生成当前场景的描述,详细描述图像中目标物体与机器人臂之间的空间关系。这包括夹持器如何移动以实现当前子任务的操作指令。
目标位置预测:
图像中的2D 位置(视觉平面中的位置)。 机器人物理环境中的3D 空间移动(所需的实际空间运动)。
EMMA-X 预测完成子任务后夹持器需要到达的目标位置,包括:
下一步机器人动作预测:
最终,模型输出7维机器人动作策略,指导机器人执行后续的操作任务。
实验
实现细节
为了创建分层推理数据集,使用了我们的数据创建管道对BridgeData-v2 进行处理,该数据集包含约60,000 条轨迹,每条轨迹都配有任务指令。这个数据集为训练 VLA 模型提供了基础。
在训练VLA 模型 时,使用了OpenVLA,这是一个基于Prismatic 视觉语言框架 的 7B 视觉语言行动模型。OpenVLA 在Open X-Embodiment 数据集 上进行了预训练,数据集包含了一系列多模态任务演示及其关联指令。
对于自回归训练,将 7 维度的动作策略标记化为离散的策略标记,符合 OpenVLA 的既定方法。训练过程遵循 OpenVLA 的标准协议,我们在我们的增强数据集上对基础模型进行了3 个周期 的微调,直到收敛。
机器人设置和评估指标
使用6自由度的WidowX机器人臂来评估我们的方法,该机器人臂在Bridge V2论文中被介绍,是评估通用机器人策略的标准基准。该策略以单个第三人称摄像头的输入图像和自然语言指令为输入,预测末端执行器的速度动作以控制机器人。
为了严格测试策略的泛化能力,开发了一套具有挑战性的评估任务,涵盖多个方面:域内场景、域外(OOD)物体、空间关系和域外指令。所有策略在相同的现实世界设置上进行评估,以确保摄像头角度、照明条件和背景的一致性。每个任务执行10次,遵循OpenVLA建立的方法。如果机器人成功完成任务,得分为1(成功),否则得分为0(失败)。根据OpenVLA的方法,我们还引入了一个“半成功”(h-succ)指标,考虑任务目标和难度,并且仅当满足半成功标准时才给出0.5分。
基准对比
为了全面评估EMMA-X的性能,在12个不同的任务上进行了广泛的实验,并与几种竞争方法进行了比较。
OpenVLA:基于大规模VLM Prismatic-7b的VLA模型,且在Open-X-Embodiment数据集上进行了预训练。
OpenVLA w/ FT:为了进行公平比较,在BridgeV2数据集上对OpenVLA模型进行了微调,并遵循本文方法中相同的训练设置,训练了相同的轮次。ECoT:基于BridgeV2数据集微调的OpenVLA VLA模型,使用他们生成的链式思维(CoT)推理数据进行训练。
EMMA-X提升策略的泛化能力
本节将EMMA-X与几种基准方法进行了比较,评估了其在12个真实世界机器人任务中的表现。如下表1所示,EMMA-X在任务成功率上比强基准OpenVLA提高了24.17%,在半成功率上提高了26.25%。这证明了我们构建的分层具身数据集的有效性。
此外,与ECoT相比,EMMA-X表现出显著的提升,可能由以下原因造成:
ECoT在训练数据上存在噪声,这在面对域外指令或不熟悉的物体时会引发幻觉,导致任务失败。有趣的是,即使在域内任务中,它也比其他模型表现较差,突显了其有限的推理能力。基于任务推理的方法通过结合分段的视觉图像来解决这一问题,从而确保任务理解更加准确。 EMMA-X通过预测当前段落的结束状态的2D夹持器位置和3D空间运动,再预测下一步机器人动作策略,增强了空间推理能力。
如下图4所示,对各种类别的机器人任务进行了平均表现比较。值得注意的是,在空间关系任务中,方法取得了最显著的性能提升,成功率相比OpenVLA提高了35%,相比ECoT提高了29%。这些结果有力地验证了本文预测的3D空间运动的有效性。此外,本文的方法在域外指令任务中也表现出了显著的性能提升,突出显示了基于任务推理的有效性。
分析
训练了多个EMMA-X的变体,以评估分段、提前空间推理和基于任务的思维链(CoT)推理的作用,它们共同构成了EMMA-X的核心。为了进行评估,从空间关系(SPATIAL RELATION)、域外物体(OOD OBJECT)和域外指令(OOD INSTRUCTION)中选择了6个提示(提示在C节中以品红色标出)。对于每个提示,我们在与主要实验相同的实验设置下进行了10次实验。
分段对策略的巨大帮助
为了评估本文的分段技术的有效性,进行了一项实验,其中序列仅根据夹持器(末端效应器)的开合位置进行分段。结果,如下表2所示,在“w/o HDBSCAN”条件下,一般性能下降了10%到50%。特别是空间推理性能下降最为显著,下降幅度为50%。这些发现表明,公式1中引入的距离度量对分段过程至关重要。
提前空间推理的影响
为了评估提前空间推理的重要性,进行了两个实验:
EMMA-X在没有显式预测下一个段落夹持器位置的情况下进行训练,仅依赖预测的运动计划来达到该段落的未来夹持器位置(在上表2中表示为“w/o gt”)。这假设EMMA-X隐式推断未来的夹持器位置。 训练了EMMA-X来预测未来末端效应器的位置,但没有进行运动计划的滚动来达到该位置(在表2中表示为“w/o mt”)。结果显示,这两种情况下的性能都有显著下降(“w/o mt”下降了25%-40%,而“w/o gt”下降了30%到45%),空间推理任务的下降尤为显著(“w/o mt”下降了35%,而“w/o gt”下降了45%)。
此外,结果表明,预测未来末端效应器的位置更为关键,因为在没有3D空间运动到下一个段落的情况下,性能下降较轻。推测这可能是由于OpenVLA固有的空间推理能力,使其更容易在位置之间过渡。
基于任务的思维链(CoT)推理的重要性
基于任务的思维链(CoT)推理是EMMA-X的基础元素。为了评估其影响,训练了一个没有基于任务的推理的EMMA-X变体,同时保留了数据中的提前空间推理。结果显示,性能下降了43%-55%,突显了仅靠空间推理不足以完成任务。有趣的是,缺乏基于任务的CoT推理导致空间推理性能下降更为严重,相比于那些明确去除空间推理能力的模型。这凸显了基于任务的CoT在处理复杂推理任务中的关键作用,包括空间推理。因此推测,为了增强视觉-语言-动作(VLA)模型的泛化策略,改善其广泛的推理能力是必要的,涵盖物体识别、颜色理解、抽象、常识知识等。
微调不会改善OpenVLA
本文试图找出是否可以通过在BridgeV2上微调OpenVLA来与EMMA-X的表现相匹配。结果(见上表2)显示,OpenVLA经过微调后,性能下降了5%-30%,最差的表现出现在域外指令任务上。推测这一下降是由于过拟合,因为BridgeV2本身已经是OpenVLA预训练数据集的一部分。
真实世界机器人任务的定性分析
为了定性地评估本文的空间和任务推理在引导机器人动作中的有效性,展示了两个成功的轨迹和一个失败的轨迹(见下图5)。从左侧的案例中,发现预测的夹持器位置对应于子任务“抓取蓝色立方体”的结束状态。3D运动提供了详细的路径,清晰地指向“蓝色立方体”。还包括了一个失败的轨迹,其中“热狗”错误地被识别为“菠萝”。这一错误传播开来,影响了夹持器未来位置的预测,导致它无法准确抓取“热狗”。
结论
EMMA-X,一个7B参数的具身多模态动作模型,旨在增强空间推理和任务规划,以生成机器人策略。构建了一个包含基于任务推理的层次化具身数据集,包括2D夹持器位置和3D空间运动。此外,提出的轨迹分段策略通过将推理与视觉图像结合,减少了任务推理中的幻觉现象。实验结果证明了EMMA-X的有效性,在需要长时间跨度空间推理的任务中,相比现有基线模型表现出显著的改进。
局限性
尽管EMMA-X表现出有前景的性能,但与OpenVLA相比,其延迟仍然较高。这种推理时间增加主要来源于推理过程中新生成的额外tokens。具体来说,EMMA-X生成的tokens数量大约是OpenVLA的10倍。为了解决这个问题,一种潜在的策略是预测一个段落内的所有策略,并仅在预测的策略与预期的运动计划有显著偏差时重新生成策略。
另一个局限性是EMMA-X的泛化能力。通过将训练过程扩展到包含更大子集的OXE数据集,可能会增强模型处理更广泛任务和机器人系统的能力。最后,使用SAM检测夹持器位置可能会导致不准确的情况。当夹持器部分被物体遮挡或位于图像框架外时,可能会发生这些错误。使用更强大的模型来检测和分割机器人手部可能会解决这些挑战并提高可靠性。
参考文献
[1] EMMA-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧