李飞飞等 ReKep「用于机器人操作的关系关键点约束的时空推理」论文

文摘   2024-11-12 21:10   北京  

(本文素材来源于论文arXiv:2409.01652v1)将机器人操作任务表示为关联机器人和环境的约束,是编码所需机器人行为的一种有前景的方法。然而,如何构建这种约束,使其具备1)适应多种任务的通用性,2)无需手动标注,3)能够通过现成的求解器优化,以实现实时机器人动作,仍然是一个挑战。在本研究中,我们提出了关系关键点约束(ReKep),一种基于视觉的机器人操作约束表示形式。具体而言,ReKep通过Python函数表示,将环境中的一组3D关键点映射为数值代价。我们证明,通过将操作任务表示为一系列关系关键点约束,可以采用分层优化过程,以感知-行动循环在实时频率下生成机器人动作(表示为SE(3)中的一系列末端执行器姿势)。此外,为了避免每个新任务都需要手动指定ReKep,我们设计了一个自动化过程,利用大规模视觉模型和视觉语言模型,从自由形式的语言指令和RGB-D观测中生成ReKep。我们展示了在轮式单臂平台和固定双臂平台上的系统实现,这些系统能够执行大量操作任务,包括多阶段、复杂环境中的双臂协作和反应式行为,且无需任务特定数据或环境模型。视频和代码可在 rekep-robot.github.io 获取。翻译而来供参考,亦可加入知识星球阅读英文原版、中文译本(见文末)。

图 1:关系关键点约束 (ReKep) 通过一系列可优化的时空约束函数作用于语义关键点,来指定多种操控行为。在倒茶任务中,一个 ReKep 首先约束抓取位置在茶壶的手柄上(蓝色)。随后一个 ReKep 将茶壶壶嘴(红色)拉向杯口上方(绿色),同时另一个 ReKep 通过关联由手柄(蓝色)和壶嘴(红色)形成的向量来约束茶壶的期望旋转角度。

1. 引言

机器人操作涉及环境中物体的复杂交互,通常可以在空间和时间域上表达为约束。例如,图1中倒茶的任务:机器人必须抓住杯柄,在移动过程中保持杯子直立,对准壶嘴与目标容器,并以正确的角度倾斜杯子来倒茶。在这里,约束不仅编码了中间的子目标(例如,对准壶嘴),还包含过渡行为(例如,在运输过程中保持杯子直立),这些约束共同决定了机器人行为在空间、时间和其他组合方面的需求,以便其在环境中执行任务。

然而,有效地为大量实际任务制定这些约束存在显著的挑战。尽管使用机器人和物体之间的相对姿势表示约束是一种直接且广泛应用的方法[1],但刚体变换无法描绘几何细节,且需要事先获取物体模型,并且无法处理可变形物体。另一方面,数据驱动的方法能够直接在视觉空间中学习约束[2, 3]。尽管这种方法更具灵活性,但如何在物体和任务数量的约束组合指数级增长的情况下,进行有效的数据收集仍然不明确。因此,我们提出的问题是:如何构建操作中的约束,使其具有1)广泛适用性:能够适应需要多阶段、复杂环境、双臂及反应性行为的任务,2)可扩展性:能够通过基础模型的进展实现全自动化,3)实时优化性:可由现成的求解器高效解决,以生成复杂的操作行为?

在本研究中,我们提出了关系关键点约束(ReKep)。具体而言,ReKep将约束表示为Python函数,将一组关键点映射为数值代价,每个关键点是在场景中的任务特定且语义明确的3D点。每个函数由关键点上的(可能为非线性)算术运算组成,并编码关键点之间的预期“关系”,这些关键点可能属于环境中的不同实体,如机器人的手臂、物体部件和其他代理。虽然每个关键点仅包括在世界坐标系中的3D笛卡尔坐标,但如果在关键点之间施加刚性,则多个关键点可以共同指定直线、表面和/或3D旋转。我们在顺序操作问题的上下文中研究ReKep,其中每个任务包含具有时空依赖的多个阶段(例如,上述例子中的“抓取”、“对齐”和“倒茶”)。

尽管约束通常是针对每个任务手动定义的[4],我们展示了ReKep的特定形式具有一个独特的优势,即可以通过预训练的大型视觉模型(LVM)[5]和视觉-语言模型(VLM)[6]自动生成,进而从RGB-D观测和自由形式的语言指令中获取ReKep的细粒度信息。具体而言,我们利用LVM在场景中提出细粒度且语义明确的关键点,并使用VLM将这些约束以Python函数形式从视觉输入中写出,关键点作为叠加的信息。这一过程可以被理解为利用视觉参照表达将细粒度的空间关系通过VLM(代码)支持的输出模式进行定位。使用生成的约束,可以通过跟踪关键点并重新评估约束来利用现成的求解器生成机器人动作。受到[7]的启发,我们采用了一种分层优化过程,首先解决一组作为子目标的路径点(表示为SE(3)中的末端执行器姿势),然后解决递归视野控制问题,以获得实现每个子目标的连续动作序列。在问题的适当实例化下,我们展示了该方法在本研究所考虑的任务中能够以大约10 Hz的频率可靠地解决。

我们的贡献总结如下:1)我们将操作任务表述为基于关系关键点约束的分层优化问题;2)我们设计了一条管道,使用大型视觉模型和视觉-语言模型自动指定关键点和约束;3)我们展示了在两种真实机器人平台上的系统实现,该系统将语言指令和RGB-D观测作为输入,生成多阶段、复杂环境中的双臂和反应性行为,并支持大量操作任务,无需任务特定数据或环境模型。

2. 相关工作

操作的结构化表示结构化表示决定了操作系统中不同模块的编排,并对系统的能力、假设、效率和有效性产生不同的影响。刚体姿态是最常用的表示方式,因其在自由空间中的刚体运动具有良好的理解性,并能高效地建模物体的远程依赖关系[1, 8–18]。然而,由于这种方法通常要求预先建模环境的几何和动态特性,许多研究探索了使用数据驱动方法的结构化表示,如学习基于物体的表示[19–34]、基于粒子的动力学[35–41]以及关键点或描述符[3, 4, 42–54]。其中,关键点在解释性、效率、对实例变化的泛化能力[4],以及建模刚体和可变形物体方面显示了很大的潜力。然而,关键点的任务依赖性需要手动标注,因此在开放世界环境中缺乏可扩展性,这是我们在本文中试图解决的问题。

操作中的约束优化约束常被用于在机器人上实现预期的行为。运动规划算法使用几何约束来计算避免障碍物并实现目标的可行轨迹[55–60]。接触约束可以用于规划涉及力量或接触密集的行为[61–71]。对于顺序操作任务,任务和运动规划(TAMP)[1, 8, 13]是广泛使用的框架,通常被表述为约束满足问题[11, 72–77],其子程序为连续几何问题。逻辑几何编程[78–83]则将整个状态轨迹中的逻辑和几何约束作为非线性约束程序来处理。约束可以手动编写,也可以通过流形[84]、可行性模型[83, 85]或符号距离场[2, 86]从数据中学习。受到[7]的启发,我们将顺序操作任务表述为一个在回溯预测方式下反复求解的集成连续数学程序,其主要区别在于约束是通过基础模型合成的。

机器人领域的基础模型利用基础模型进行机器人研究是一个活跃的领域,建议读者参考[87–90]了解概览和最新应用。我们在此专注于能够整合视觉输入的视觉-语言模型(VLMs)[6, 91–95],尽管它们在开放世界的规划和目标指定中显示出潜力[96–110],但VLMs的图像字幕引导训练机制常限制图像的视觉细节保留[111–114]。另一方面,自监督视觉模型(如DINO[5, 115])提供细粒度的像素级特征,对多种视觉和机器人任务有用[31, 116–121],但缺乏对开放世界语义的有效解释能力,这是跨任务泛化的关键。在本研究中,我们结合了两者的优势,使用DINOv2[5]进行细粒度关键点提议,并利用GPT-4o[6]的视觉推理能力在支持的输出模式(代码)中生成视觉提示。类似的视觉提示技术也在并行工作中被探索[96–98, 109, 122]。本研究展示了ReKep的独特优势,即在6-12自由度任务中表现出色,集成高层次推理实现反应性重新规划,具备高频闭环执行能力,并通过视觉提示生成黑盒约束。更详细的讨论见附录A.10。

3. 方法

本文将讨论以下内容:1. 什么是关系关键点约束(第3.1节)?2. 如何使用ReKep将操作表述为约束优化问题(第3.2节)?3. 我们如何实例化算法以实现实时高效地解决优化问题(第3.3节)?4. 如何从RGB-D观测和语言指令中自动获得ReKep(第3.4节)?

3.1 关系关键点约束(ReKep)

图 2:ReKep 概述。在给定 RGB-D 观测和自由形式的语言指令的情况下,使用 DINOv2 [5] 在场景中提出细粒度的关键点候选。带有关键点叠加的图像和指令输入 GPT-4o [6],生成一系列作为 Python 程序的 ReKep 约束,用于在任务的不同阶段指定关键点之间的预期关系(C_sub-goal(i))以及转换行为的任何要求(C_path(i))。最后,使用约束优化求解器在 SE(3) 中获得满足生成约束的末端执行器动作的密集序列。

例如,图2中的倒茶任务包含三个阶段:抓取、对齐和倒茶。阶段1的子目标约束将末端执行器引向茶壶把手。接着,阶段2的子目标约束指定茶壶壶嘴需要位于杯口上方。此外,阶段2的路径约束确保在搬运时茶壶保持直立,避免洒出。最后,阶段3的子目标约束指定了倒茶的理想角度。

3.2 利用ReKep进行约束优化的操作任务

3.3 分解与算法实现

为实现实时求解公式(Eq. 1),我们采用了全问题的分解,仅优化当前的下一个子目标及其对应的路径以到达子目标(算法 1 的伪代码展示了具体步骤)。所有优化问题均使用 SciPy [125] 实现并求解,决策变量标准化为 [0, 1]。初始求解采用双退火算法 [126] 并结合 SLSQP [127] 作为局部优化器(约 1 秒),随后基于前一解使用局部优化器求解,实现约 10 Hz 的频率1。

3.4 关键点建议与ReKep生成

为了使系统在给定自由形式任务指令的情况下能够在实际环境中执行任务,我们设计了一个使用大型视觉模型和视觉语言模型的流程,用于关键点建议和ReKep生成,分别讨论如下:

关键点建议

ReKep生成

在获取关键点候选后,我们将其覆盖在原始RGB图像上并用数字标记。结合任务的语言指令,我们利用视觉提示技术来查询GPT-4o [6],生成所需的阶段数以及每个阶段  的相应子目标约束  和路径约束 (提示见附录A.6)。值得注意的是,这些函数并不直接操作关键点位置的数值,而是利用视觉语言模型(VLM)的强大功能,通过算术运算(例如关键点间的L2距离或点积)来指定空间关系,只有在由专用3D追踪器追踪的实际关键点位置被调用时,这些运算才被实例化。

此外,利用关键点位置集合上的算术运算的一个重要优势在于,当提供足够的点且相关点之间的刚性被强制时,这种方法可以在完整的SO(3)空间内指定3D旋转,但仅在任务语义需要时才执行。这使得VLM能够在3D笛卡尔空间中通过算术运算来推理3D旋转,避免了处理替代3D旋转表示以及执行数值计算的需要。

4. 实验

我们旨在回答以下研究问题:(1) 我们的框架在自动生成和合成操控行为方面表现如何 (见 4.1节)?(2) 我们的系统能否推广到新物体和新的操控策略上 (见 4.2节)?(3) 各组件对系统失效情况的影响如何 (见 4.3节)?我们在两个实际机器人平台上验证了ReKep的效果:一个带轮的单臂平台和一个固定的双臂平台(如图3)。更多的实现细节见附录,包括关键点提议 (A.5)、VLM查询 (A.6)、点追踪器 (A.7)、子目标求解器 (A.8) 和路径求解器 (A.9)。

图 3:实验任务和优化结果的可视化。设计了七个任务来验证系统的不同方面,包括使用常识知识进行的开放环境指定、具有时空依赖性的多阶段任务、具有几何感知的双臂协调,以及在人类协作和干扰下的反应能力。

4.1 自然环境与双臂操控中的 ReKep 任务

任务:我们特意选择了一组任务(如图3所示),旨在测试系统的多阶段(m)、自然环境(w)、双臂(b)和反应(r)行为。任务及其特征包括:倒茶(m, w, r)、存放书本(w)、回收罐子(w)、封装盒子(w, r)、折叠衣物(b)、打包鞋子(b)和协作折叠(b, r)。我们还在外部干扰下对其中三个任务进行了评估(标记为“Dist.”),通过在执行过程中改变任务对象的位置来模拟干扰。

表1:轮式单臂平台和固定双臂平台的成功率

指标与基线每个设置下进行了10次实验,随机调整了物体的位置。表1中给出了任务成功率。我们以VoxPoser [103]作为基线进行比较。我们评估了系统的两个变体:“Auto”使用基础模型自动生成ReKep,“Annotated (Annot.)”使用人类标注的ReKep。

表2:两种机器人平台在外部干扰下的成功率

结果总体而言,即使在没有任务特定数据或环境模型的情况下,该系统在无结构环境中表现出了较好的约束构建和执行能力。尤其值得注意的是,ReKep 能有效应对每个任务的核心挑战。例如,它可以在多阶段任务中正确地构建时间依赖关系(例如,在倒茶之前需要先将壶嘴对准杯口),利用常识知识(如可乐罐应被回收),并在双臂设置中构建协调行为(例如,同时折叠左右袖子)以及在人机协作环境中构建协调行为(例如,通过对齐四个角来与人类一起折叠大毯子)。结合优化框架,该系统还可以在空间有限的环境中生成运动学上具有挑战性的行为,例如在“存放书本”任务中,以及在“打包鞋子”任务中找到适合小空间的可行方案来密集放置两只鞋子。由于关键点跟踪频率较高,系统还能够应对外部干扰,并在阶段内和跨阶段进行重新规划。

图 4:ReKep 在折叠不同类别衣物时的新颖双臂策略及其成功率。在此任务中,ReKep 始终一次关联两个关键点,若需对齐则通过箭头连接两个关键点。关键点的颜色表示顺序。在毛衣任务中,首先使用双臂同时折叠两个袖子,然后双臂抓住领口,将其对齐到底部。

尽管结果令人鼓舞,但我们也观察到生成的约束并非总是完全正确,不过,随着这些预训练模型的快速进步,预计性能将进一步提升。

4.2 操作策略的泛化能力

任务:我们系统地评估了新颖的操作策略如何被构建,重点聚焦于单一任务,即折叠衣物,但包含8种不同类别的衣物。每种类别的衣物都需要独特的折叠方式,并要求几何和常识性推理。评估在双臂平台上进行,进一步增加了双臂协调的挑战。

评价指标:我们使用 GPT-4o,仅包含通用指令的提示而不包含具体示例。“策略成功率” 测量生成的 ReKep 是否可行,测试关键点提议模块和视觉语言模型(VLM)。“执行成功率” 则在策略可行的情况下,测量系统针对每种衣物的实际成功率。每项指标均通过10次实验进行测量。

结果:我们发现,不同类别的衣物展现出截然不同的折叠策略,其中许多策略与人类折叠方式相似。例如,系统能够识别到两只袖子通常需要先被折叠在一起,随后再完成整体折叠。在不需要使用双臂的情况下,系统会像人类一样仅使用一只手臂完成折叠。然而,我们也观察到VLM在部分情况下可能会遗漏一些步骤,导致未按操作员预期完成折叠,但我们认为这种情况在一定程度上属于开放性问题,往往基于个人偏好。

4.3 系统错误分析

该框架的模块化设计在系统错误分析中具有优势,因为它的可解释性较强。在本节中,我们通过手动检查实验中失败的情况(见表1),进行实证研究,以计算各模块在管线中的时间依赖性下引发错误的可能性。结果如图5所示。

图 5:系统模块的错误分解

在各个模块中,点追踪模块产生的错误占比最大,这是由于频繁且间歇的遮挡对精确追踪构成了重大挑战。关键点提议模块和视觉语言模型(VLM)也产生了相当一部分错误,常见情况包括提议模块遗漏某些关键点,VLM引用错误的关键点。而优化模块尽管有时间限制,但其对故障的贡献较小,因为每个问题通常存在多种可能的解决方案。其他模块,如分割、3D重建和低级控制器也对部分失败情况有一定贡献,但相较其他模块影响较小。

5. 结论与局限性

在本研究中,我们提出了关系关键点约束(ReKep),一种利用语义关键点之间的约束来表达任务的结构化表示,用于指定机器人手臂、物体(及其部件)与环境中其他主体之间的期望关系。结合点追踪器,我们展示了ReKep约束在分层优化框架中可以反复、高效地求解,并在闭环控制策略中实现实时运行。我们还展示了ReKep的独特优势,即可以通过大型视觉模型和视觉语言模型自动生成。实验结果在两个机器人平台和各种任务上进行了展示,这些任务包括多阶段、开放场景、双臂操作和响应式行为,且不需要特定任务数据、额外训练或环境模型。

尽管ReKep表现出良好前景,但仍存在若干局限性。首先,优化框架依赖于基于刚性假设的关键点前向模型,尽管高频反馈循环降低了该模型的精度要求。其次,ReKep依赖于精确的点追踪来正确地闭环优化动作,而这本身是一个在频繁间歇遮挡情况下具有挑战性的3D视觉任务。最后,当前的任务表达形式假设了每个任务的固定阶段序列(即任务骨架)。如果需要在不同骨架间重新规划,则需要高频率运行关键点提议和视觉语言模型,这带来了相当大的计算挑战。详见附录A.11的扩展讨论。

致谢

本研究得到了斯坦福人本人工智能研究院、美国海军研究办公室多学科研究计划(ONR MURI N00014-21-1-2801)以及施密特科学项目的部分支持。Ruohan Zhang部分获得了吴彩人类表现联盟奖学金的资助。双臂硬件部分由斯坦福TML支持。我们感谢匿名评审人、Albert Wu、Yifan Hou、Adrien Gaidon、Adam Harley、Christopher Agia、Edward Schmerling、Marco Pavone、Yunfan Jiang、Yixuan Wang、Sirui Chen、Chengshu Li、Josiah Wong、Wensi Ai、Weiyu Liu、Mengdi Xu、Yihe Tang、Chelsea Ye、Mijiu Mili,以及斯坦福视觉与学习实验室的成员们在讨论、实验帮助和支持上的贡献。

参考文献

1. L. P. Kaelbling 和 T. Lozano-Perez. “实时分层规划”。在第二十四届 AAAI 人工智能会议工作坊,2010年。
2. D. Driess, J.-S. Ha, M. Toussaint 和 R. Tedrake. “基于有符号距离场的函数学习模型用于操作规划”。在机器人学习会议,页码 245–255,PMLR,2022年。
3. A. Simeonov, Y. Du, A. Tagliasacchi, J. B. Tenenbaum, A. Rodriguez, P. Agrawal 和 V. Sitzmann. “神经描述字段:用于操作的 SE(3) 等变物体表示”。在 2022 年国际机器人与自动化会议 (ICRA),页码 6394–6400,IEEE,2022年。
4. L. Manuelli, W. Gao, P. Florence 和 R. Tedrake. “KPAM:基于类别的关键点用于机器人操作”。在机器人研究国际研讨会,页码 132–157,Springer,2019年。
5. M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby 等人. “Dinov2:无监督学习鲁棒视觉特征”。arXiv 预印本 arXiv:2304.07193,2023年。
6. OpenAI. “GPT-4 技术报告”。arXiv,2023年。
7. M. Toussaint, J. Harris, J.-S. Ha, D. Driess 和 W. Honig. “约束序列 MPC:顺序操作的实时优化控制”。在 2022 年 IEEE/RSJ 智能机器人与系统国际会议 (IROS),页码 13753–13760,IEEE,2022年。
8. L. P. Kaelbling 和 T. Lozano-Perez. “在信念空间中的集成任务与运动规划”。国际机器人研究杂志,32(9-10):1194–1227,2013年。
9. S. Srivastava, E. Fang, L. Riano, R. Chitnis, S. Russell 和 P. Abbeel. “通过扩展的独立规划接口层实现任务与运动规划的结合”。在 2014 年 IEEE 国际机器人与自动化会议 (ICRA),2014年。
10. A. Byravan 和 D. Fox. “SE3-nets:使用深度神经网络学习刚体运动”。在 2017 年 IEEE 国际机器人与自动化会议 (ICRA),页码 173–180,IEEE,2017年。
11. N. T. Dantam, Z. K. Kingston, S. Chaudhuri 和 L. E. Kavraki. “基于增量约束的任务与运动规划框架”。国际机器人研究杂志,37(10):1134–1151,2018年。
12. T. Migimatsu 和 J. Bohg. “动态环境中的以物体为中心的任务与运动规划”。IEEE 机器人与自动化通讯,5(2):844–851,2020年。
13. C. R. Garrett, R. Chitnis, R. Holladay, B. Kim, T. Silver, L. P. Kaelbling 和 T. Lozano-Perez. “集成任务与运动规划”。控制、机器人与自主系统年度综述,4:265–293,2021年。
14. A. Curtis, X. Fang, L. P. Kaelbling, T. Lozano-Perez 和 C. R. Garrett. “通过任务与运动规划对未知物体进行长视距操作”。在 2022 年国际机器人与自动化会议 (ICRA),页码 1940–1946,IEEE,2022年。
15. Y. Labbe, L. Manuelli, A. Mousavian, S. Tyree, S. Birchfield, J. Tremblay, J. Carpentier, M. Aubry, D. Fox 和 J. Sivic. “Megapose:通过渲染和比较进行新物体的6D姿态估计”。在第六届机器人学习会议 (CoRL),2022年。
16. S. Tyree, J. Tremblay, T. To, J. Cheng, T. Mosier, J. Smith 和 S. Birchfield. “家用物体的6自由度姿态估计数据集和基准”。在 2022 年 IEEE/RSJ 智能机器人与系统国际会议 (IROS),页码 13081–13088,IEEE,2022年。
17. C. Pan, B. Okorn, H. Zhang, B. Eisner 和 D. Held. “Tax-pose:用于机器人操作的任务特定跨姿态估计”。在机器人学习会议,页码 1783–1792,PMLR,2023年。
18. B. Wen, W. Yang, J. Kautz 和 S. Birchfield. “Foundationpose:统一的6自由度新物体姿态估计和跟踪”。arXiv 预印本 arXiv:2312.08344,2023年。
19. I. Lenz, R. A. Knepper 和 A. Saxena. “Deepmpc:学习深层潜在特征用于模型预测控制”。在机器人科学与系统会议,卷 10,罗马,意大利,2015年。
20. M. B. Chang, T. Ullman, A. Torralba 和 J. B. Tenenbaum. “基于组合物体的物理动态学习方法”。arXiv 预印本 arXiv:1612.00341,2016年。
21. P. Battaglia, R. Pascanu, M. Lai, D. Jimenez Rezende 等. “用于对象、关系和物理学习的交互网络”。神经信息处理系统进展,29,2016年。
22. A. Sanchez-Gonzalez, N. Heess, J. T. Springenberg, J. Merel, M. Riedmiller, R. Hadsell 和 P. Battaglia. “图网络作为用于推理和控制的可学习物理引擎”。在国际机器学习会议,页码 4470–4479,PMLR,2018年。
23. E. Jang, C. Devin, V. Vanhoucke 和 S. Levine. “Grasp2vec:通过自监督抓取学习物体表示”。arXiv 预印本 arXiv:1811.06964,2018年。
24. J. Tremblay, T. To, B. Sundaralingam, Y. Xiang, D. Fox 和 S. Birchfield. “用于家庭物体语义抓取的深度物体姿态估计”。arXiv 预印本 arXiv:1809.10790,2018年。
25. Z. Xu, J. Wu, A. Zeng, J. B. Tenenbaum 和 S. Song. “Densephysnet:通过多步动态交互学习密集的物体物理表示”。arXiv 预印本 arXiv:1906.03853,2019年。
26. J. Mao, C. Gan, P. Kohli, J. B. Tenenbaum 和 J. Wu. “神经符号概念学习器:从自然监督中解释场景、单词和句子”。arXiv 预印本 arXiv:1904.12584,2019年。
27. C. P. Burgess, L. Matthey, N. Watters, R. Kabra, I. Higgins, M. Botvinick 和 A. Lerchner. “Monet:无监督的场景分解与表示”。arXiv 预印本 arXiv:1901.11390,2019年。
28. L. Hewing, K. P. Wabersich, M. Menner 和 M. N. Zeilinger. “基于学习的模型预测控制:朝向安全的控制学习”。控制、机器人与自主系统年度综述,3:269–296,2020年。
29. F. Locatello, D. Weissenborn, T. Unterthiner, A. Mahendran, G. Heigold, J. Uszkoreit, A. Dosovitskiy 和 T. Kipf. “基于插槽注意力的物体中心学习”。神经信息处理系统进展,33:11525–11538,2020年。
30. N. Heravi, A. Wahid, C. Lynch, P. Florence, T. Armstrong, J. Tompson, P. Sermanet, J. Bohg 和 D. Dwibedi. “在多物体场景中使用物体感知表示进行视觉运动控制”。在 2023 年 IEEE 国际机器人与自动化会议 (ICRA),页码 9515–9522,IEEE,2023年。
31. Y. Zhu, Z. Jiang, P. Stone 和 Y. Zhu. “使用物体中心3D表示学习可泛化的操作策略”。arXiv 预印本 arXiv:2310.14386,2023年。
32. W. Yuan, C. Paxton, K. Desingh 和 D. Fox. “Sornet:用于顺序操作的空间物体中心表示”。在机器人学习会议,页码 148–157,PMLR,2022年。
33. S. Cheng, C. Garrett, A. Mandlekar 和 D. Xu. “Nod-tamp:多步骤操作规划与神经物体描述符”。arXiv 预印本 arXiv:2311.01530,2023年。
34. J. Hsu, J. Mao, J. Tenenbaum 和 J. Wu. “What’s left? 使用逻辑增强基础模型的概念基础”。神经信息处理系统进展,36,2024年。
35. Y. Li, J. Wu, R. Tedrake, J. B. Tenenbaum 和 A. Torralba. “学习粒子动力学用于操作刚体、可变形物体和流体”。arXiv 预印本 arXiv:1810.01566,2018年。
36. X. Lin, C. Qi, Y. Zhang, Z. Huang, K. Fragkiadaki, Y. Li, C. Gan 和 D. Held. “基于点云的空间-时间抽象的可变形物体操作规划”。arXiv 预印本 arXiv:2210.15751,2022年。
37. Y. Wang, Y. Li, K. Driggs-Campbell, L. Fei-Fei 和 J. Wu. “用于物体堆操作的动态分辨率模型学习”。arXiv 预印本 arXiv:2306.16700,2023年。
38. H. Shi, H. Xu, S. Clarke, Y. Li 和 J. Wu. “Robocook:具有多样化工具的长时间弹性塑性物体操作”。arXiv 预印本 arXiv:2306.14447,2023年。
39. X. Lin, Y. Wang, Z. Huang 和 D. Held. “学习布料平滑的可见连通动态”。在机器人学习会议,页码 256–266,PMLR,2022年。
40. J. Abou-Chakra, K. Rana, F. Dayoub 和 N. Sunderhauf. “物理化的高斯点涂:用于机器人实时修正的世界模型”。arXiv 预印本 arXiv:2406.10788,2024年。
41. D. Bauer, Z. Xu 和 S. Song. “Doughnet:用于可变形物体拓扑操作的视觉预测模型”。arXiv 预印本 arXiv:2404.12524,2024年。
42. T. Schmidt, R. Newcombe 和 D. Fox. “用于密集对应的自监督视觉描述学习”。IEEE 机器人与自动化通讯,2(2):420–427,2016年。
43. P. R. Florence, L. Manuelli 和 R. Tedrake. “Dense object nets:通过机器人操作学习密集视觉对象描述符”。arXiv 预印本 arXiv:1806.08756,2018年。
44. T. D. Kulkarni, A. Gupta, C. Ionescu, S. Borgeaud, M. Reynolds, A. Zisserman 和 V. Mnih. “用于感知和控制的对象关键点无监督学习”。神经信息处理系统进展,32,2019年。
45. Z. Qin, K. Fang, Y. Zhu, L. Fei-Fei 和 S. Savarese. “Keto:学习工具操作的关键点表示”。在 2020 年 IEEE 国际机器人与自动化会议 (ICRA),页码 7278–7285,IEEE,2020年。
46. P. Sundaresan, J. Grannen, B. Thananjeyan, A. Balakrishna, M. Laskey, K. Stone, J. E. Gonzalez 和 K. Goldberg. “使用密集对象描述符学习绳索操作策略”。在 2020 年 IEEE 国际机器人与自动化会议 (ICRA),页码 9411–9418,IEEE,2020年。
47. L. Manuelli, Y. Li, P. Florence 和 R. Tedrake. “Keypoints into the future:基于模型的强化学习中的自监督对应”。arXiv 预印本 arXiv:2009.05085,2020年。
48. B. Chen, P. Abbeel 和 D. Pathak. “用于控制的视觉3D关键点无监督学习”。在国际机器学习会议,页码 1539–1549,PMLR,2021年。
49. A. Simeonov, Y. Du, Y.-C. Lin, A. R. Garcia, L. P. Kaelbling, T. Lozano-Perez 和 P. Agrawal. “具有神经描述字段的 SE(3) 等变关系重排”。在机器人学习会议,页码 835–846,PMLR,2023年。
50. M. Vecerik, C. Doersch, Y. Yang, T. Davchev, Y. Aytar, G. Zhou, R. Hadsell, L. Agapito 和 J. Scholz. “Robotap:用于少量视觉模仿学习的任意点追踪”。arXiv 预印本 arXiv:2308.15975,2023年。
51. E. Chun, Y. Du, A. Simeonov, T. Lozano-Perez 和 L. Kaelbling. “局部神经描述字段:局部条件对象表示用于操作”。在 2023 年 IEEE 国际机器人与自动化会议 (ICRA),页码 1830–1836,IEEE,2023年。
52. S. Bahl, R. Mendonca, L. Chen, U. Jain 和 D. Pathak. “人类视频中的可操作性作为机器人通用表示”。在 IEEE/CVF 计算机视觉和模式识别会议上,页码 13778–13790,2023年。
53. C. Wen, X. Lin, J. So, K. Chen, Q. Dou, Y. Gao 和 P. Abbeel. “任意点轨迹建模用于策略学习”。arXiv 预印本 arXiv:2401.00025,2023年。
54. H. Bharadhwaj, R. Mottaghi, A. Gupta 和 S. Tulsiani. “Track2act:从互联网视频预测点轨迹使多样化零样本机器人操作成为可能”。2024年。
55. Z. Kingston, M. Moll 和 L. E. Kavraki. “基于采样的运动规划方法与约束”。控制、机器人与自主系统年度综述,1:159–185,2018年。
56. N. Ratliff, M. Zucker, J. A. Bagnell 和 S. Srinivasa. “CHOMP:基于梯度优化的高效运动规划”。在 2009 年 IEEE 国际机器人与自动化会议,页码 489–494,IEEE,2009年。
57. J. Schulman, Y. Duan, J. Ho, A. Lee, I. Awwal, H. Bradlow, J. Pan, S. Patil, K. Goldberg 和 P. Abbeel. “顺序凸优化和凸碰撞检测的运动规划”。国际机器人研究杂志,33(9):1251–1270,2014年。
58. B. Sundaralingam, S. K. S. Hari, A. Fishman, C. Garrett, K. Van Wyk, V. Blukis, A. Millane, H. Oleynikova, A. Handa, F. Ramos 等人. “Curobo:并行无碰撞机器人运动生成”。在 2023 年 IEEE 国际机器人与自动化会议 (ICRA),页码 8112–8119,IEEE,2023年。
59. T. Marcucci, J. Umenberger, P. Parrilo 和 R. Tedrake. “图中凸集的最短路径”。SIAM 优化杂志,34(1):507–532,2024年。
60. N. D. Ratliff, J. Issac, D. Kappler, S. Birchfield 和 D. Fox. “黎曼运动策略”。arXiv 预印本 arXiv:1801.02854,2018年。
61. M. Posa, S. Kuindersma 和 R. Tedrake. “约束动态系统轨迹的优化与稳定”。在 2016 年 IEEE 国际机器人与自动化会议 (ICRA),页码 1366–1373,IEEE,2016年。
62. I. Mordatch, E. Todorov 和 Z. Popovic. “通过接触不变优化发现复杂行为”。ACM 图形学会会刊 (ToG),31(4):1–8,2012年。
63. I. Mordatch, Z. Popovic 和 E. Todorov. “手部操作的接触不变优化”。在 ACM SIGGRAPH/Eurographics 计算机动画研讨会,页码 137–144,2012年。
64. M. Posa, C. Cantu 和 R. Tedrake. “刚体接触轨迹优化的直接方法”。国际机器人研究杂志,33(1):69–81,2014年。
65. T. Howell, N. Gileadi, S. Tunyasuvunakool, K. Zakka, T. Erez 和 Y. Tassa. “预测采样:使用 Mujoco 的实时行为合成”。arXiv 预印本 arXiv:2212.00541,2022年。
66. Z. Liu, G. Zhou, J. He, T. Marcucci, F.-F. Li, J. Wu 和 Y. Li. “带稀疏神经动态的基于模型的控制”。神经信息处理系统进展,36,2024年。
67. K. M. Lynch 和 M. T. Mason. “稳定推送:力学、可控性和规划”。国际机器人研究杂志,15(6):533–556,1996年。
68. Y. Hou, Z. Jia 和 M. T. Mason. “使用支点快速规划3D任意姿态重新定位”。在 2018 年 IEEE 国际机器人与自动化会议 (ICRA),页码 1631–1638,IEEE,2018年。
69. J.-P. Sleiman, F. Farshidian 和 M. Hutter. “腿足本地操作的多接触计划和控制”。科学机器人,8(81):eadg5014,2023年。
70. W. Yang 和 M. Posa. “通过受控滑动实现手掌上的动态操作”。arXiv 预印本 arXiv:2405.08731,2024年。
71. B. P. Graesdal, S. Y. Chia, T. Marcucci, S. Morozov, A. Amice, P. A. Parrilo 和 R. Tedrake. “实现接触丰富操作的严格凸松弛”。arXiv 预印本 arXiv:2402.10312,2024年。
72. F. Lagriffoul, D. Dimitrov, A. Saffiotti 和 L. Karlsson. “通过区间约束传递处理几何回溯”。在 2012 年 IEEE/RSJ 智能机器人与系统国际会议,页码 957–964,IEEE,2012年。
73. F. Lagriffoul, D. Dimitrov, J. Bidot, A. Saffiotti 和 L. Karlsson. “使用几何约束高效结合任务与运动规划”。国际机器人研究杂志,33(14):1726–1747,2014年。
74. T. Lozano-Perez 和 L. P. Kaelbling. “解决顺序操作规划问题的基于约束的方法”。在 2014 年 IEEE/RSJ 智能机器人与系统国际会议,页码 3684–3691,IEEE,2014年。
75. Z. Yang, J. Mao, Y. Du, J. Wu, J. B. Tenenbaum, T. Lozano-Perez 和 L. P. Kaelbling. “基于扩散的连续约束求解器”。arXiv 预印本 arXiv:2309.00966,2023年。
76. T. Silver, R. Chitnis, J. Tenenbaum, L. P. Kaelbling 和 T. Lozano-Perez. “学习符号操作用于任务与运动规划”。在 2021 年 IEEE/RSJ 智能机器人与系统国际会议 (IROS),页码 3182–3189,IEEE,2021年。
77. B. Vu, T. Migimatsu 和 J. Bohg. “Coast:用于任务与运动规划的约束与流”。arXiv 预印本 arXiv:2405.08572,2024年。
78. M. Toussaint. “逻辑几何规划:基于优化的任务与运动规划方法”。在第二十四届国际人工智能联合会议,2015年。
79. M. Toussaint 和 M. Lopes. “在合作操作领域中的多界树搜索用于逻辑几何规划”。在 2017 年 IEEE 国际机器人与自动化会议 (ICRA),页码 4044–4051,IEEE,2017年。
80. M. A. Toussaint, K. R. Allen, K. A. Smith 和 J. B. Tenenbaum. “工具使用和操作规划中的可微物理与稳定模式”。机器人科学与系统基金会,2018年。
81. J.-S. Ha, D. Driess 和 M. Toussaint. “带有不确定性约束的操作和任务与运动规划的概率框架”。在 2020 年 IEEE 国际机器人与自动化会议 (ICRA),页码 6745–6751,IEEE,2020年。
82. T. Xue, A. Razmjoo 和 S. Calinon. “D-lgp:用于反应性任务与运动规划的动态逻辑几何程序”。arXiv 预印本 arXiv:2312.02731,2023年。
83. D. Driess, O. Oguz, J.-S. Ha 和 M. Toussaint. “深度视觉启发式:学习操作规划的混合整数程序的可行性”。在 2020 年 IEEE 国际机器人与自动化会议 (ICRA),页码 9563–9569,IEEE,2020年。
84. G. Sutanto, I. R. Fernandez, P. Englert, R. K. Ramachandran 和 G. Sukhatme. “学习运动规划流形上的等式约束”。在机器人学习会议,页码 2292–2305,PMLR,2021年。
85. Z. Yang, C. R. Garrett, T. Lozano-Perez, L. Kaelbling 和 D. Fox. “基于序列的任务与运动规划可行性预测”。arXiv 预印本 arXiv:2211.01576,2022年。
86. G. S. Camps, R. Dyro, M. Pavone 和 M. Schwager. “在线学习深度SDF地图用于机器人导航与探索”。arXiv 预印本 arXiv:2207.10782,2022年。
87. Y. Hu, Q. Xie, V. Jain, J. Francis, J. Patrikar, N. Keetha, S. Kim, Y. Xie, T. Zhang, Z. Zhao 等人. “通过基础模型走向通用机器人:综述与元分析”。arXiv 预印本 arXiv:2312.08782,2023年。
88. R. Firoozi, J. Tucker, S. Tian, A. Majumdar, J. Sun, W. Liu, Y. Zhu, S. Song, A. Kapoor, K. Hausman 等人. “机器人基础模型:应用、挑战与未来”。arXiv 预印本 arXiv:2312.07843,2023年。
89. K. Kawaharazuka, T. Matsushima, A. Gambardella, J. Guo, C. Paxton 和 A. Zeng. “基础模型在真实世界机器人中的应用:综述”。arXiv 预印本 arXiv:2402.05741,2024年。
90. S. Yang, O. Nachum, Y. Du, J. Wei, P. Abbeel 和 D. Schuurmans. “决策中的基础模型:问题、方法和机会”。arXiv 预印本 arXiv:2303.04129,2023年。
91. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark 等人. “从自然语言监督中学习可迁移视觉模型”。在国际机器学习会议,页码 8748–8763,PMLR,2021年。
92. A. Ramesh, M. Pavlov, G. Goh, S. Gray, C. Voss, A. Radford, M. Chen 和 I. Sutskever. “零样本文本到图像生成”。在国际机器学习会议,页码 8821–8831,PMLR,2021年。
93. J. Li, D. Li, C. Xiong 和 S. Hoi. “BLIP:引导语言-图像预训练用于统一的视觉语言理解与生成”。在国际机器学习会议,页码 12888–12900,PMLR,2022年。
94. J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat 等人. “GPT-4 技术报告”。arXiv 预印本 arXiv:2303.08774,2023年。
95. J. Li, D. Li, S. Savarese 和 S. Hoi. “BLIP-2:通过冻结图像编码器和大型语言模型引导语言-图像预训练”。arXiv 预印本 arXiv:2301.12597,2023年。
96. H. Huang, F. Lin, Y. Hu, S. Wang 和 Y. Gao. “COPA:通过基础模型使用空间约束实现通用机器人操作”。arXiv 预印本 arXiv:2403.08248,2024年。
97. F. Liu, K. Fang, P. Abbeel 和 S. Levine. “Moka:通过标记的视觉提示实现开放词汇机器人操作”。arXiv 预印本 arXiv:2403.03174,2024年。
98. S. Nasiriany, F. Xia, W. Yu, T. Xiao, J. Liang, I. Dasgupta, A. Xie, D. Driess, A. Wahid, Z. Xu 等人. “Pivot:迭代视觉提示引发 VLM 的可操作知识”。arXiv 预印本 arXiv:2402.07872,2024年。
99. Y. Hu, F. Lin, T. Zhang, L. Yi 和 Y. Gao. “先看再跳:揭示 GPT-4v 在机器人视觉-语言规划中的力量”。arXiv 预印本 arXiv:2311.17842,2023年。
100. Y. Du, M. Yang, P. Florence, F. Xia, A. Wahid, B. Ichter, P. Sermanet, T. Yu, P. Abbeel, J. B. Tenenbaum 等人. “视频语言规划”。arXiv 预印本 arXiv:2310.10625,2023年。
101. Y. Hong, H. Zhen, P. Chen, S. Zheng, Y. Du, Z. Chen 和 C. Gan. “3D-LLM:将3D世界引入大型语言模型”。神经信息处理系统进展,36:20482–20494,2023年。
102. B. Chen, Z. Xu, S. Kirmani, B. Ichter, D. Sadigh, L. Guibas 和 F. Xia. “SpatialVLM:赋予视觉-语言模型空间推理能力”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 14455–14465,2024年。
103. W. Huang, C. Wang, R. Zhang, Y. Li, J. Wu 和 L. Fei-Fei. “VoxPoser:具有语言模型的可组合3D值映射用于机器人操作”。arXiv 预印本 arXiv:2307.05973,2023年。
104. A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, X. Chen, K. Choromanski, T. Ding, D. Driess, A. Dubey, C. Finn 等人. “RT-2:视觉-语言-动作模型将网络知识转移到机器人控制”。arXiv 预印本 arXiv:2307.15818,2023年。
105. J. Gao, B. Sarkar, F. Xia, T. Xiao, J. Wu, B. Ichter, A. Majumdar 和 D. Sadigh. “物理上有依据的视觉-语言模型用于机器人操作”。arXiv 预印本 arXiv:2309.02561,2023年。
106. Y. Wang, T.-H. Wang, J. Mao, M. Hagenow 和 J. Shah. “通过反事实扰动将语言计划锚定在示范中”。arXiv 预印本 arXiv:2403.17124,2024年。
107. J. Hsu, J. Mao 和 J. Wu. “NS3D:3D对象和关系的神经符号锚定”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 2614–2623,2023年。
108. J. Gao, B. Sarkar, F. Xia, T. Xiao, J. Wu, B. Ichter, A. Majumdar 和 D. Sadigh. “物理上有依据的视觉-语言模型用于机器人操作”。在 2024 年 IEEE 国际机器人与自动化会议 (ICRA),页码 12462–12469,IEEE,2024年。
109. W. Yuan, J. Duan, V. Blukis, W. Pumacay, R. Krishna, A. Murali, A. Mousavian 和 D. Fox. “RoboPoint:用于空间可操作性预测的视觉-语言模型”。arXiv 预印本 arXiv:2406.10721,2024年。
110. J. Duan, W. Yuan, W. Pumacay, Y. R. Wang, K. Ehsani, D. Fox 和 R. Krishna. “ManipulateAnything:使用视觉-语言模型自动化现实世界的机器人”。arXiv 预印本 arXiv:2406.18915,2024年。
111. S. Tong, Z. Liu, Y. Zhai, Y. Ma, Y. LeCun 和 S. Xie. “睁着眼睛也看不见?探究多模态LLM的视觉缺陷”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 9568–9578,2024年。
112. T. Thrush, R. Jiang, M. Bartolo, A. Singh, A. Williams, D. Kiela 和 C. Ross. “Winoground:通过 Winoground 探查视觉和语言模型的组合能力”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 5238–5248,2022年。
113. M. Yuksekgonul, F. Bianchi, P. Kalluri, D. Jurafsky 和 J. Zou. “何时以及为什么视觉-语言模型表现得像词袋模型,我们该怎么做?”。在第十一届学习表征国际会议,2023年。
114. C.-Y. Hsieh, J. Zhang, Z. Ma, A. Kembhavi 和 R. Krishna. “SugarCrepe:修复视觉-语言组合能力的易被破解的基准”。神经信息处理系统进展,36,2024年。
115. M. Caron, H. Touvron, I. Misra, H. Jegou, J. Mairal, P. Bojanowski 和 A. Joulin. “自监督视觉变换器中的新兴特性”。在国际计算机视觉会议 (ICCV),2021年。
116. S. Amir, Y. Gandelsman, S. Bagon 和 T. Dekel. “深度 ViT 特性作为密集视觉描述符”。arXiv 预印本 arXiv:2112.05814, 2(3):4,2021年。
117. L. Melas-Kyriazi, C. Rupprecht, I. Laina 和 A. Vedaldi. “深度谱方法:一种出人意料的强基线,用于无监督语义分割与定位”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 8364–8375,2022年。
118. Y. Wang, Z. Li, M. Zhang, K. Driggs-Campbell, J. Wu, L. Fei-Fei 和 Y. Li. “D3Fields:用于零样本泛化机器人操作的动态3D描述符字段”。arXiv 预印本 arXiv:2309.16118,2023年。
119. X. Lin, J. So, S. Mahalingam, F. Liu 和 P. Abbeel. “SpawnNet:从预训练网络中学习可泛化的视觉-运动技能”。arXiv 预印本 arXiv:2307.03567,2023年。
120. N. Di Palo 和 E. Johns. “关键点动作标记使机器人在上下文中学习模仿”。arXiv 预印本 arXiv:2403.19578,2024年。
121. N. Di Palo 和 E. Johns. “DinoBot:通过视觉基础模型进行检索和对齐实现机器人操作”。arXiv 预印本 arXiv:2402.13181,2024年。
122. O. Y. Lee, A. Xie, K. Fang, K. Pertsch 和 C. Finn. “通过视觉提示进行基于可操作性的强化学习”。arXiv 预印本 arXiv:2407.10341,2024年。
123. C. R. Harris, K. J. Millman, S. J. van der Walt, R. Gommers, P. Virtanen, D. Cournapeau, E. Wieser, J. Taylor, S. Berg, N. J. Smith, R. Kern, M. Picus, S. Hoyer, M. H. van Kerkwijk, M. Brett, A. Haldane, J. F. del R´ıo, M. Wiebe, P. Peterson, P. Gerard-Marchant, K. Sheppard, T. Reddy, W. Weckesser, H. Abbasi, C. Gohlke 和 T. E. Oliphant. “NumPy 数组编程”。自然,585(7825):357–362,2020年9月。doi:10.1038/s41586-020-2649-2。网址 https://doi.org/10.1038/s41586-020-2649-2。
124. R. Tedrake. “Underactuated Robotics”。2023年。网址 https://underactuated.csail.mit.edu。
125. P. Virtanen, R. Gommers, T. E. Oliphant, M. Haberland, T. Reddy, D. Cournapeau, E. Burovski, P. Peterson, W. Weckesser, J. Bright 等人. “SciPy 1.0:Python 中的科学计算基础算法”。自然方法,17(3):261–272,2020年。
126. Y. Xiang, D. Sun, W. Fan 和 X. Gong. “广义模拟退火算法及其在汤姆森模型中的应用”。物理快报 A, 233(3):216–220,1997年。
127. D. Kraft. “用于序列二次规划的软件包”。德国航空航天研究中心研究报告,1988年。
128. A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison, L. Antiga 和 A. Lerer. “在 PyTorch 中的自动微分”。2017年。
129. J. Bradbury, R. Frostig, P. Hawkins, M. J. Johnson, C. Leary, D. Maclaurin, G. Necula, A. Paszke, J. VanderPlas, S. Wanderman-Milne 和 Q. Zhang. “JAX:Python+NumPy 程序的可组合转换”,2018年。网址 http://github.com/google/jax。
130. M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viegas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu 和 X. Zheng. “TensorFlow:用于异构系统的大规模机器学习”。2015年。网址 https://www.tensorflow.org/。软件可从 tensorflow.org 获得。
131. H.-S. Fang, C. Wang, H. Fang, M. Gou, J. Liu, H. Yan, W. Liu, Y. Xie 和 C. Lu. “AnyGrasp:空间和时间域中的鲁棒高效抓取感知”。IEEE 机器人学报,2023年。
132. A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo 等人. “Segment Anything”。arXiv 预印本 arXiv:2304.02643,2023年。
133. E. Coumans 和 Y. Bai. “Pybullet,一个用于游戏、机器人和机器学习的物理模拟 Python 模块”。2016年。
134. Y. Zhu, A. Joshi, P. Stone 和 Y. Zhu. “Viola:基于视觉的操控模仿学习的对象提议先验”。第六届机器人学习年会,2022年。
135. M. Minderer, A. Gritsenko, A. Stone, M. Neumann, D. Weissenborn, A. Dosovitskiy, A. Mahendran, A. Arnab, M. Dehghani, Z. Shen 等人. “使用视觉变换器进行开放词汇对象检测”。arXiv 预印本 arXiv:2205.06230,2022年。
136. H. K. Cheng, S. W. Oh, B. Price, J.-Y. Lee 和 A. Schwing. “将对象放回视频对象分割中”。在 arXiv,2023年。
137. T. Darcet, M. Oquab, J. Mairal 和 P. Bojanowski. “视觉变换器需要寄存器”。arXiv 预印本 arXiv:2309.16588,2023年。
138. D. Comaniciu 和 P. Meer. “均值漂移:一种稳健的特征空间分析方法”。IEEE 模式分析与机器智能汇刊,24(5):603–619,2002年。
139. F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot 和 E. Duchesnay. “Scikit-learn:Python中的机器学习”。机器学习研究杂志,12:2825–2830,2011年。
140. J. Yang, H. Zhang, F. Li, X. Zou, C. Li 和 J. Gao. “集合标记提示在 GPT-4v 中释放非凡的视觉锚定”。arXiv 预印本 arXiv:2310.11441,2023年。
141. A. W. Harley, Z. Fang 和 K. Fragkiadaki. “粒子视频再访:通过点轨迹穿越遮挡进行跟踪”。在欧洲计算机视觉会议,页码 59–75,Springer,2022年。
142. Q. Wang, Y.-Y. Chang, R. Cai, Z. Li, B. Hariharan, A. Holynski 和 N. Snavely. “在所有地方同时跟踪所有内容”。在 IEEE/CVF 国际计算机视觉会议论文集,页码 19795–19806,2023年。
143. Y. Zheng, A. W. Harley, B. Shen, G. Wetzstein 和 L. J. Guibas. “PointOdyssey:用于长期点跟踪的大规模合成数据集”。在 IEEE/CVF 国际计算机视觉会议论文集,页码 19855–19865,2023年。
144. N. Karaev, I. Rocco, B. Graham, N. Neverova, A. Vedaldi 和 C. Rupprecht. “CoTracker:一起跟踪更好”。arXiv 预印本 arXiv:2307.07635,2023年。
145. C. Doersch, Y. Yang, M. Vecerik, D. Gokay, A. Gupta, Y. Aytar, J. Carreira 和 A. Zisserman. “TAPIR:使用逐帧初始化和时间精化跟踪任意点”。在 IEEE/CVF 国际计算机视觉会议论文集,页码 10061–10072,2023年。
146. C. Doersch, Y. Yang, D. Gokay, P. Luc, S. Koppula, A. Gupta, J. Heyward, R. Goroshin, J. Carreira 和 A. Zisserman. “BootstAP:用于跟踪任意点的引导训练”。arXiv 预印本 arXiv:2402.00847,2024年。
147. Y. Xiao, Q. Wang, S. Zhang, N. Xue, S. Peng, Y. Shen 和 X. Zhou. “SpatialTracker:在3D空间中跟踪任意2D像素”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 20406–20417,2024年。
148. J. Luiten, G. Kopanas, B. Leibe 和 D. Ramanan. “动态3D高斯:通过持久动态视图合成进行跟踪”。arXiv 预印本 arXiv:2308.09713,2023年。
149. A. Millane, H. Oleynikova, E. Wirbel, R. Steiner, V. Ramasamy, D. Tingdahl 和 R. Siegwart. “nvblox:GPU 加速的增量符号距离场映射”。arXiv 预印本 arXiv:2311.00626,2023年。
150. X. Li, M. Zhang, Y. Geng, H. Geng, Y. Long, Y. Shen, R. Zhang, J. Liu 和 H. Dong. “ManiPLLM:面向对象中心机器人操作的多模态大型语言模型”。在 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 18061–18070,2024年。
151. W. Xia, D. Wang, X. Pang, Z. Wang, B. Zhao 和 D. Hu. “具有运动学感知提示的广义关节物体操作大语言模型”。arXiv 预印本 arXiv:2311.02847,2023年。
152. S. Huang, H. Chang, Y. Liu, Y. Zhu, H. Dong, P. Gao, A. Boularias 和 H. Li. “A3VLM:可操作的关节感知视觉语言模型”。arXiv 预印本 arXiv:2406.07549,2024年。
153. C. Li, R. Zhang, J. Wong, C. Gokmen, S. Srivastava, R. Martín-Martín, C. Wang, G. Levine, M. Lingelbach, J. Sun 等人. “Behavior-1K:具备1,000种日常活动和现实模拟的具身AI基准”。在机器人学习会议,页码 80–93,PMLR,2023年。
154. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser 和 I. Polosukhin. “注意力就是你所需要的一切”。神经信息处理系统进展,30,2017年。
155. A. Goyal, J. Xu, Y. Guo, V. Blukis, Y.-W. Chao 和 D. Fox. “RVT:用于3D对象操作的机器人视图变换器”。在机器人学习会议,页码 694–710,PMLR,2023年。
156. A. Goyal, V. Blukis, J. Xu, Y. Guo, Y.-W. Chao 和 D. Fox. “RVT-2:从少量演示中学习精确操作”。arXiv 预印本 arXiv:2406.08545,2024年。
157. A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly 等人. “一张图片价值16x16个词:大规模图像识别中的变换器”。arXiv 预印本 arXiv:2010.11929,2020年。

附录

A.1 顺序操作的伪代码及关系关键点约束

A.2 带轮单臂平台

我们研究的平台之一是安装在带轮底座上的Franka机械臂,底座使用Vention框架搭建(如图6所示)。该底座没有电机,因此无法自主移动,但其移动性依然使我们可以在实验室环境外研究所提出的方法。

图6:轮式单臂平台

由于我们的流程生成了一系列6自由度的末端执行器位姿,我们在所有实验中使用位置控制,固定频率为20 Hz。具体来说,一旦给定机器人在世界坐标系中的目标末端执行器位姿,我们首先将其剪裁到预定义的工作空间。然后,我们以5毫米的位置步长和1度的旋转步长从当前位置线性插值到目标位姿。为了移动到每个插值位姿,我们首先根据当前关节位置计算逆运动学以获得目标关节位置(使用PyBullet的IK解算器[133])。然后我们使用Deoxys[134]的关节阻抗控制器到达目标关节位置。

两个Orbbec Femto Bolt RGB-D摄像头分别安装在机器人两侧,面向工作空间中心。摄像头以固定频率20 Hz捕获RGB图像和点云数据。

A.3 固定双臂平台

我们还在一个固定的双臂平台上验证了该方法,该平台由安装在桌面工作区前方的两个Franka机械臂组成(如图7所示)。我们与带轮单臂平台使用相同的控制器,不同之处在于两个机械臂以20 Hz的频率同时控制。具体来说,我们的流程联合求解两个6自由度的末端执行器位姿序列,这些位姿同时发送到低级控制器。控制器随后为两个机械臂计算逆运动学,并使用关节阻抗控制移动机械臂。

图7:固定式双臂平台

该平台安装了三个Orbbec Femto Bolt RGB-D摄像头。两个摄像头安装在左右两侧,另一个安装在背面。摄像头同样以固定频率20 Hz捕获RGB图像和点云数据。

A.4 评估细节

以下是第4.1节和第4.2节实验的评估细节说明。

A.4.1 实地和双臂操作细节(第4.1节)

对于每个任务,我们选择了10个不同的初始物体配置,这些配置覆盖了整个工作空间,并经过手动验证以确保机器人运动学可行。每次试验中,由人工操作员将场景恢复到相应配置并启动系统。由于开发自动成功标准以适应本文研究的多样物体和环境组合具有挑战性,成功率由操作员根据每项任务的描述标准进行衡量。对于涉及外部干扰的实验,所有试验的干扰集合是预先选择的,每个试验应用一种干扰。具体来说,干扰通过人工操作员使用手改变物体的姿态来引入。所有涉及可变形物体的任务中都禁用碰撞检测。

倒茶:环境包括放置在厨房柜台上的茶壶和杯子。任务包括三个阶段:握住把手,将茶壶对准杯子的上方,并将茶倒入杯中。成功标准要求茶壶在倒茶阶段前保持直立,最后壶嘴需对准并倾斜至杯口上方。

回收罐头:环境中有三种罐头(可乐、零度可乐、零度雪碧)、一个回收箱(开口狭窄,仅允许直立的罐头进入)、一个垃圾箱和一个堆肥箱,均位于办公楼内。任务包括两个阶段:握住罐头并将其在回收箱上方重新定位后放入。成功标准是罐头成功投入回收箱。

存放书籍:环境包括办公环境中放在边桌上的目标书籍以及一个实际尺寸的书架,书架中有一个15厘米的空位。任务包括两个阶段:握住侧边的目标书籍并将其放入书架的空位中。成功标准是目标书在机器人释放抓手后能够稳固放置,且机器人不得碰撞书架或其他已放置的书籍。

封箱:环境包括一个纸箱,一个放在箱子上的带有胶带的分配器,已粘住一侧的纸箱以及一个与机器人协作的人类用户。由于解卷通常需要的力超出机器人臂的限制,因此胶带已展开至足够用于粘合。任务包括两个阶段:当人类操作员按压箱子时,机器人需握住胶带并将其对准正确的一侧以完成封箱。成功标准是胶带最终在正确位置,与缝隙对齐。

(双臂)折叠衣物:环境包括一件平铺在工作空间中央的毛衣,其袖口、领口和底部有轻微变形。任务通常需要四个阶段:握住两个袖子,将其折到中间,握住领口并将其折到底部。成功标准不要求一致的步骤;只要毛衣折叠后占原表面积的一半或更小,就视为成功。

(双臂)装箱鞋子:环境包括放在工作空间中央的空鞋盒,两个鞋子随机姿态放置在鞋盒对面。任务包括两个阶段:同时抓住鞋子并将其放入鞋盒。成功标准不要求一致的步骤;只要鞋子放入盒中,且未堆叠在一起或引起双臂自碰撞,则视为成功。

(双臂)协作折叠:环境包括一条较大的毯子(预先折叠至适合工作空间的大小,约占70%的工作空间),由人类用户与机器人协作。任务包括两个阶段:机器人必须抓住毯子与人类用户相对的两个角,第二阶段是将两个角与人类抓住的两个角对齐。成功标准是机器人抓住了正确的角并能与人类的正确手臂(左-左,右-右)对齐。

A.4.2 基线方法细节

我们使用VoxPoser [103]作为主要的基线方法,因为它与本方法类似,不要求任务特定数据或预定义的运动原语。为确保比较公平,我们对VoxPoser进行了调整。具体来说,我们使用与本文相同的视觉语言模型(VLM)GPT-4o [6],接受相同的摄像头输入,并在原始提示的基础上增加本文所使用的提示,以确保上下文充分。我们仅使用适应性、旋转和抓手动作的价值映射,并忽略避免和速度价值映射,因为它们在我们的任务中不必要。我们还仅考虑“兴趣实体”为机器人末端执行器的场景,而不是场景中的物体,后者适用于推动任务,本文未研究此类任务。我们使用OWL-ViT [135]进行开放词汇物体检测,使用SAM [132]进行初始帧分割,并使用Cutie [136]进行遮罩跟踪。

A.4.3 操作策略的泛化细节(第4.2节)

双臂机器人被分配折叠八种不同类别的服装。我们使用两个评估指标:“策略成功”和“执行成功”,前者评估关键点是否适当提出并编写了约束,后者评估在策略成功情况下系统的执行表现。

• 为评估“策略成功”,在工作空间中心附近初始化衣物。后置的RGB-D摄像头捕捉RGB图像。随后,关键点提出模块使用捕捉的图像生成关键点候选项,并以{0,…,K-1}的数字标记覆盖在原图上。覆盖后的图像以及相同的通用提示被传递给GPT-4 [6]以生成ReKep约束。由于折叠衣物本身是开放性问题,没有标准的策略,我们手动判断提出的关键点和生成的约束是否正确。正确性衡量标准是,机器人在不引发自碰撞(如手臂交叉)的情况下是否能够执行该折叠策略,并将衣物折叠至不超过原表面积的一半。

• 为评估“执行成功”,我们执行先前评为成功的策略,每种衣物共10次试验。由于我们观察到关键点跟踪器在衣物被多次折叠时预测的轨迹不稳定,故禁用点跟踪。成功标准是衣物折叠后表面积不超过原表面积的一半。

A.5 关键点提议的实现细节

A.6 查询视觉-语言模型

在获取关键点候选项后,这些点会带有编号 {0, …, K-1} 叠加在捕获的 RGB 图像上。然后将图像和任务指令输入到视觉-语言模型中,使用下面描述的提示词。提示词仅包含通用说明,未提供任何图像-文本上下文示例,尽管有一些基于文本的示例来具体解释所提出的方法以及模型期望的输出。请注意,大多数研究的任务并未在所提供的提示词中讨论。因此,视觉-语言模型(VLM)需要利用其内部的世界知识生成 ReKep 约束。

在本工作中,我们使用了 GPT-4o [6] 作为实验时可用的最新模型之一。然而,由于该领域发展迅速,流程可以直接从具有更好视觉-语言推理的新模型中受益。相应地,我们观察到不同模型在给定相同提示词时会表现出不同的行为(观察到较新的模型通常需要较少的细粒度指令)。因此,与其为本工作的任务套件开发最佳提示词,我们更专注于展示一个全栈流程,其关键部分可以被自动化并通过未来的开发持续改进。

A.7 点跟踪器的实现细节

我们实现了一个简单的点跟踪器,基于 [118] 中描述的 DINOv2(ViT-S14)[5],利用了多个 RGB-D 摄像头的存在,并且 DINOv2 能够高效地在实时频率下运行。

在初始化之后的每个时间步,我们同样从所有摄像头获取 DINOv2 的像素级特征及其 3D 世界坐标。为了跟踪关键点,我们计算所有像素特征与参考特征的余弦相似度。对于每个关键点,选择前 100 个匹配项,相似度下限为 0.6。然后,通过计算中位数偏差(m = 2)剔除异常值。此外,由于被跟踪的关键点可能会在小区域内振荡,我们在最终应用了窗口大小为 10 的均值滤波器。整个过程以 20 Hz 的固定频率运行。

请注意,实现的点跟踪器是对 [118] 中实时跟踪方法的简化。我们建议读者参考 [118],以更全面地了解如何使用自监督视觉模型(如 DINOv2)进行点跟踪。或者,也可以使用其他更专业的点跟踪器 [141–148]。

A.8 子目标求解器的实现细节

子目标问题是使用 SciPy [125] 实现并求解的。决策变量是单臂机器人的单个末端执行器位姿(位置和欧拉角)在R6中,双臂机器人则为两个末端执行器位姿在R12中。位置的边界是预定义的工作空间边界,而旋转的边界是末端执行器朝下的半个半球(由于 Franka 机械臂的关节限制,当末端执行器朝上时往往会遇到关节极限)。决策变量根据边界归一化到 [-1, 1]。

在第一次求解迭代中,初始猜测选择当前末端执行器的位姿。我们在第一轮使用基于采样的全局优化算法 Dual Annealing [126] 快速搜索整个空间,然后使用基于梯度的局部优化器 SLSQP [127] 来精细调整解。整个过程在这一轮迭代中大约需要 1 秒。在后续迭代中,我们使用上一个阶段的解,并仅使用局部优化器,因为它可以快速适应微小的变化。优化过程有一个固定的时间预算,以限制目标函数调用次数,确保系统高频运行。

我们在下面讨论目标函数中的成本项。

约束违例:我们将约束作为优化问题中的成本项,其中 ReKep 函数返回的成本乘以较大的权重。

场景碰撞规避:我们使用 nvblox [149] 及其 PyTorch 包装器 [58] 在单独的节点上以 20 Hz 计算场景的 ESDF(欧氏距离场)。ESDF 计算从所有可用摄像头中聚合深度图,并使用 cuRobo 排除机械臂和任何被抓取的刚体物体(通过遮罩跟踪模型 Cutie [136] 跟踪)。随后使用 ESDF 计算出碰撞体素网格,该网格由系统中的其他模块使用。在子目标求解模块中,我们首先对夹持器点和抓取物体点进行最远点采样,最多保留 30 个点。然后使用 ESDF 体素网格和线性插值计算碰撞成本,阈值为 15cm。

可达性:由于决策变量是末端执行器位姿,可能并不总是机械臂可达的,尤其是在受限空间中,因此我们需要添加一个鼓励找到有效关节配置的成本项。因此,在子目标求解器的每次迭代中,我们使用 PyBullet [133] 求解 IK 问题,并将其残差用作可达性的代理。我们发现这占整个目标函数约 40% 的时间。另一种方法是直接在关节空间中求解问题,这将通过边界约束确保解在关节限制内。由于约束在任务空间中进行评估,我们发现这种方法在 Python 实现中效率较低,因为路径求解器需要计算大量的前向运动学。为了解决这一问题并确保效率,未来的研究可以考虑使用硬件加速实现来在关节空间中求解问题 [58]。

位姿正则化:我们还添加了一个小的成本项,鼓励子目标接近当前的末端执行器位姿。

一致性:由于求解器在高频下迭代求解问题,而感知管道的噪声可能会传播到求解器,因此我们发现加入一致性成本有助于使解接近之前的解。

(双臂机器人专用)自碰撞规避:为了避免两条机械臂相互碰撞,我们计算了包含夹持器点和抓取物体点的两个点集之间的成对距离。

A.9 路径求解器的实现细节

路径问题是使用 SciPy [125] 实现和求解的。决策变量的数量根据当前末端执行器位姿与目标末端执行器位姿之间的距离来计算。具体而言,我们定义了一个固定步长(20厘米和45度),并线性近似所需的“中间位姿”数量,这些中间位姿用作决策变量。与子目标问题一样,它们也用位置和欧拉角表示,并具有相同的边界。在第一次求解迭代中,初始猜测选择为起始和目标之间的线性插值。在第一轮迭代中,我们同样使用基于采样的全局优化,随后是基于梯度的局部优化器,在后续迭代中仅使用局部优化器。在获得解决方案后,将当前位姿、中间位姿和目标位姿作为节点拟合样条曲线,然后对样条曲线进行密集采样,以供机器人执行。

在目标函数中,我们首先将决策变量解除归一化,并使用分段线性插值来获取密集的离散位姿序列来表示路径(以下称为“密集采样”)。样条插值与我们后处理和执行解决方案的方式一致,但我们发现线性插值在计算上更高效。以下讨论目标函数中的各个成本项。

约束违例:与子目标问题类似,我们检查路径上每个密集采样点的 ReKep 约束违例,并进行大权重惩罚。

场景碰撞规避:计算方法与子目标问题类似,但在每个密集采样点上进行。我们忽略了起始和目标位姿附近5厘米半径内的碰撞计算,因为这有助于在高频求解时稳定解决方案,减少现实世界中的各种噪声。此外,我们添加了桌面避让成本,以惩罚路径穿透桌面(或单臂机器人工作空间底部)的情况。

路径长度:我们通过计算密集采样点之间差值之和来近似路径长度,鼓励更短的路径。

可达性:我们在目标函数中为每个中间位姿求解 IK 问题,具体细节参见子目标求解器部分。

一致性:与子目标问题一样,我们鼓励解接近前一次的解。具体而言,我们存储上一次迭代的密集采样点。为了计算解的一致性,我们将两个序列(视为两个集合)之间的成对距离用作有效的近似。也可以使用 Hausdorff 距离。

(双臂机器人专用)自碰撞规避:与子目标问题类似,我们为双臂平台计算自碰撞规避。我们也使用两个序列之间的成对距离来高效地计算此成本。

A.10 与先前视觉提示操作相关工作的比较

近来,有多个研究探讨了视觉提示在视觉语言模型 (VLM) 与机器人操作中的应用 [96–98, 109, 122]。下文总结了这些工作的不同之处,以突出本工作的贡献。

任务自由度 (DoF):本工作专注于需要 6 DoF(单臂)或 12 DoF(双臂)运动的高难度任务。然而,现有的 VLM 处理 2D 图像时无法轻松实现这一点——正如 MOKA [97] 所述,“当前的 VLM 无法可靠预测 6-DoF 运动”,PIVOT [98] 也提到,“推广到更高维度空间如旋转姿态带来额外挑战”。为解决此问题,ReKep 的关键见解在于 VLM 仅需通过 (x, y, z) 笛卡尔坐标推理关键点,以隐式指定完整的 3D 旋转。之后,实际的 3D 旋转由高精度高效数值求解器完成,从而巧妙避开了显式预测 3D 旋转的难题,因此该方法也可自然扩展至多臂控制。

高层规划:尽管许多工作也考虑了多阶段任务,并通过独立的语言任务规划器实现,本工作从任务和运动规划 (TAMP) 中汲取灵感,将高层任务规划与低层动作自然整合到一个统一的连续数学程序中。因此,该方法可以在实时频率下自然地考虑跨阶段的几何依赖关系。当发生失败时,系统会回溯到一个条件依然满足的前一阶段。例如,在“倒茶”任务中,只有当壶嘴与杯口对齐时,机器人才能开始倾斜茶壶。但如果在过程中杯子被移动,则应将茶壶放平并重新对准杯子;如果茶壶被从机械手中取走,系统则应重新抓取茶壶。

低层执行:使用 VLM 时的常见问题在于计算开销大,阻碍了许多操作任务中所需的高频感知-动作反馈回路。因此,大多数现有工作要么考虑仅在开始时使用视觉感知的开环设置,要么仅考虑可接受低速执行的任务。本工作则通过将 VLM 与点追踪器结合,支持高频感知-动作闭环回路,这使得即使使用非常大的基础模型,也能够实现反应性行为。

• 视觉提示方法:我们独特地考虑将视觉提示用于代码生成,其中代码可能包含一组关键点的任意算术操作,借助视觉引用表达实现。尽管单一关键点在捕捉复杂几何结构上有限制,但多个关键点及其关系可以进一步指定向量、表面、体积及其时间依赖性。这种方法概念上简单,却提供了更高的灵活性,可以完全指定 6 DoF 甚至 12 DoF 的运动。

A.11 关于局限性的深入讨论

本文对现有系统的其他局限性进行了补充说明:

• 提示和鲁棒性:尽管现有 VLM 能够基本指定 ReKep 约束,但在处理涉及多个阶段和依赖于时间顺序的任务时,我们观察到 VLM 的鲁棒性不足,无法始终如一地获得成功。

• 任务空间规划:为了实现高效规划,本工作仅在任务空间中以末端执行器姿态为决策变量进行规划。然而,在某些情况下,这种方法可能对机器人在运动学上构成挑战,因为求解器未明确考虑机器人的运动学。在关节空间中进行规划或许能解决该问题,但我们发现它对本任务的计算效率较低。

• 多关节物体操作:本工作未涉及多关节物体操作任务,因为此类任务需要现有 VLM 尚未具备的高级空间推理能力。然而,ReKep 公式可通过将不同类型的关节表示为“关键点关系”进行扩展。例如,ReKep 约束可限制某些关键点仅沿直线(棱柱关节)或曲线(旋转关节)运动。扩展到这些场景可能需要进行微调,如 [150–152] 所示。

• 双臂协调:尽管我们展示了 ReKep 在双臂操作中的应用,但也发现该领域存在一些重要限制。这些限制主要分为 VLM 的关键点关系语义推理和优化求解器的双臂动作求解。对于语义推理,为实现双臂折叠操作,VLM 需具备空间知识,理解哪些步骤应/可由两臂同时执行。例如,双手需抓住衬衫的两角以对齐领口。再如,在折叠毯子时,需识别左下角应与左上角对齐,右下角与右上角对齐,否则可能导致自碰撞。对于优化求解器,双臂运动规划大幅增加了可能动作的搜索空间,导致整体过程减速,并更频繁地产生次优行为。

A.12 仿真实验

我们还在 OmniGibson [153] 中实现了 Pour Tea 任务的 ReKep 方法,并与基于 transformer 架构的单体学习基线 [154] 进行了对比。该基线借鉴了 RVT [155, 156],通过模仿学习在 100 次专家演示中训练,演示基于特权仿真信息的脚本策略生成。成功率在 100 次试验中平均计算并在下方报告。尽管单体策略在获取专家演示的训练情境中表现优异,但我们观察到 ReKep 在未知情境下表现显著更强,且无需专家演示支持。

A.13 关键点提议的视觉特征提取器比较

本节提供了不同关键点提议方法的定性比较,涵盖三种代表性预训练方法的视觉特征提取器:DINOv2 [5](自监督预训练)、CLIP [91](视觉-语言对比预训练)和 ViT [157](监督预训练)。我们还比较了一种未使用 Segment Anything (SAM) [132] 提供的对象性先验的变体。在图 8 中,我们展示了三种不同场景下提取的特征图(投射到 RGB 空间)及其聚类关键点。

图8:不同关键点提议方法的比较

我们从这些比较中得出两点重要观察:1) 由 SAM 提供的对象性先验对约束关键点提议至场景中的对象(而非背景)至关重要;2) 尽管大多数视觉基础模型都能提供有用的指导,DINOv2 提供了更清晰的特征,可更好地区分对象的细粒度区域。通过将最后一列与其他候选方法进行比较,可以清楚地看到第一点。第二点可通过以下几个地方观察到:1) 在第一个场景中杯子把手的独特青色;2) 在第二个场景中箱子面板的独特颜色;3) 在第三个场景中顶部面板与侧面板的蓝/绿对比。同样,CLIP 在不同对象部位之间提供了不同的特征,但特征不如 DINOv2 清晰(颜色从一个部分逐渐过渡到另一个部分)。而 ViT 则在对象部分之间生成的特征最不具可区分性,尤其是当纹理相似时。总体而言,我们的观察与其他使用 DINOv2 以其细粒度对象理解的工作一致 [111, 118, 120]。

A.14 长期任务案例研究

为对所提出的系统进行压力测试,我们进行了一个长期双臂任务的案例研究,即准备早餐托盘。成功完成该任务需要 10 个阶段:1) 抓取桌布;2) 将桌布放入托盘内;3) 从盘子上抓取面包;4) 将面包放在桌布上;5) 双臂分别抓取杯子和茶杯;6) 对齐杯子和茶壶;7) 将茶倒入杯中;8) 将杯子放入托盘;9) 双臂同时抓住托盘的两个手柄;10) 提起托盘并递给人类操作员。

图9:准备早餐托盘任务的初始配置和成功的最终配置

此任务对系统中的许多组件提出了显著挑战。我们发现,现有的关键点提议和约束指定流程无法生成完整的正确关键点集及正确的 ReKep 约束序列。此外,由于场景中存在多个对象,我们的点跟踪器无法始终如一地跟踪所有所需的关键点。因此,我们改用手动标注的关键点和约束,并仅在每个阶段的开始进行关键点检测,而非持续跟踪。经过以上调整后,系统可以合理地执行任务。以下展示了任务的初始和最终配置。每个阶段的解决方案展示在下一页。视频结果可在 rekep-robot.github.io 查看。

图10:准备早餐托盘任务的解决方案可视化

声明:本文素材来源于https://arxiv.org/abs/2409.01652,致敬原作者。侵权可后台联系删除。

篇幅所限,以上仅摘录部分内容,

如需获取英文原版、中文译文请加入知识星球,

并搜索编号“A251”获取详细资料。


另在知识星球新增了一篇非公开资料

分布式协同无人机集群的诱导反制理论与方法研究S157


AI工业
树立大江大海大格局,练基础基层基本功。共同打造落地的、一流的工业智能产品。
 最新文章