引言:在日常生活中,有许多任务需要人类通过双臂协作来完成,例如拧开瓶盖、拉开衣服的拉链和搅拌锅中的食物等。这些看似简单的动作,实际上依赖于复杂的感知、运动控制和协调能力。人类能够通过观察和实践,灵活地运用两只手臂高效地完成各种任务,然而对于机器人来说,这是一项极具挑战性的任务。与单臂操作相比,双臂操作不仅需要处理更大的构型空间和工作空间,还需要保证双臂在空间和时间上的高度同步。此类操作的复杂性来源于多因素的交互作用,例如物体的形状、重量、位置,以及双臂之间的协调关系。针对这一问题,在机器人学领域的顶级学术会议 Robotics: Science and Systems (RSS) 上,有学者提出了一种新颖的SCREWMIMIC框架[1]。该框架通过利用螺旋运动的空间投影,使机器人能够从人类的演示视频中学习双臂操作,并通过自监督的方式进行微调。SCREWMIMIC通过将双臂动作简化为单自由度的螺旋运动,不仅减小了学习的复杂性,还提高了机器人的操作精度和效率。这一方法的核心在于提取人类演示中动作的关键特征,并将其转化为机器人能够理解和执行的运动模式。这种学习策略使得机器人能够在较少的示范数据下,实现对复杂任务的掌握。此外,SCREWMIMIC还具备自我调整能力,能够在不断的操作实践中优化自身的执行策略,从而逐步提升其对双臂协调任务的适应性。让我们一起来看看吧!
论文链接:https://robin-lab.cs.utexas.edu/ScrewMimic/[1]
研究背景
机器人在进行双臂操作时,需要同时控制两只手臂的运动轨迹,以确保两者协调工作。对于人类来说,可以经过多年的学习从而掌握这类复杂动作,但机器人面临的学习曲线却陡峭得多。直接模仿人类动作对机器人来说非常困难,因为人类和机器人的形态差异很大,无法直接将人类动作映射到机器人身上。此外,由于双臂操作任务的复杂性和动态环境中的不确定性,随机探索工作空间会导致巨大的计算和训练成本,特别是在真实机器人硬件上进行训练时,代价更为高昂。为了解决这些问题,研究者们提出了使用螺旋空间这一新的运动表示方法,将双臂操作简化为基于螺旋运动的协调任务。 心理学和生物力学的研究表明 [2] 人类的双手运动轨迹可以建模为“一个串联的运动链”。受这项工作的启发,作者提出了一种用于机器人双手操作的运动轨迹参数化方法,称之为螺旋运动。螺旋运动通过引入一个虚拟的约束,即旋转轴,将机器人运动轨迹简化为绕空间某一旋转轴的旋转运动和沿着该直线的线性运动的组合。虚拟的旋转轴以一种与环境中真实物理世界的约束相匹配的方式约束机器人的运动轨迹,例如,用双手拧开瓶盖时,双手的相对运动可以视为沿着瓶盖中心的旋转轴的螺旋运动。螺旋运动定义为 。和分别为左手和右手的抓取的位置。是一个单自由度的螺旋轴,描述左手和右手之间相对运动。最后,是交互过程中(例如,在搅拌时将锅移动到炉子上)的左手的位姿变化,如果左手只是固定交互对象,则将其视作静止。SCREWMIMIC 的核心思想是,通过学习这些螺旋运动来简化机器人的运动轨迹规划,并通过自监督的方式在实际操作中进行细化调整。 图1 机器人搅拌锅中食物 研究方法
为了实现双臂操作的高效学习和执行,SCREWMIMIC 框架由三个关键模块组成:一个感知模块,用于从人类演示视频中提取双手运动轨迹并求出双手运动时的旋转轴。一个预测模型,用于根据物体的点云预测螺旋运动,以及一个自监督迭代微调算法,用于搜索螺旋运动空间以找到双手运动轨迹的最佳参数。 1. 感知模块
该模块的主要任务是从人类演示的视频中提取双臂的运动信息。SCREWMIMIC 通过输入 RGB-D 视频,捕捉人类演示时的手部动作,包括手的位置、姿态和抓握的位置等。通过现有的手部追踪技术(FrankMocap [3]),能够检测出双手的轨迹,并将这些轨迹映射到三维空间中。但是,原始轨迹包含来自视觉跟踪器的噪声,双手运动不受同步的约束,并且人手和机器人末端执行器之间存在差异,使其更难模仿和微调; SCREWMIMIC通过将双手运动轨迹解释为螺旋运动来克服这些限制。 SCREWMIMIC首先从视频中提取双手的运动轨迹, 然后用平面拟合右手手腕的运动轨迹, 令平面的法线为转轴的方向向量。然后将右手手腕的运动轨迹投影到该平面上,并用圆拟合运动轨迹的投影, 令圆心为转轴上的一点 。根据以上参数, 我们可以从视频中的信息确定虚拟转轴。最后根据所得到的结果评估运动轨迹是纯平移、纯旋转还是空间螺旋运动。 图2 从人类演示视频中提取旋转轴的位置 2. 预测模型
SCREWMIMIC 使用了基于 PointNet[4] 的深度学习模型来预测机器人双臂操作物体时的螺旋运动。给定一个 RGB-D 观测,模型会对物体进行分割,并提取其部分点云。点云是物体的三维表示,它为模型提供了物体的几何信息。作者使用 PointNet作为主干,构建了两个网络:一个用 MSE 损失训练的回归网络来预测旋转,一个用负对数似然损失训练的分割网络来识别接触点。 为了提高模型的泛化能力,SCREWMIMIC 通过几何增强的方法对训练数据进行扩充,包括对点云进行平移、旋转和缩放,这使得模型能够从有限的数据中学到更多样的任务表现。通过这种方法,SCREWMIMIC 可以在面对新物体时,基于其几何特征预测出合适的运动轨迹。 3. 自监督微调
尽管感知模块和预测模型能够生成初步的螺旋运动,但由于手部追踪和点云处理中的噪声,直接执行这些动作可能失败。为了进一步提高机器人操作的准确性,SCREWMIMIC 设计了一种自监督的微调机制。 该算法使用交叉熵方法(CEM)优化螺旋运动参数,并基于机器人操作过程中获得的奖励信号进行自我调整。当机器人在失败之前运动时间越长,这个运动轨迹就越好。当发生以下三种情况时,认为机器人操作失败。当机器人没有施加足够的力时(力传感器信号的低于阈值),表明它可能在自由空间中移动而不是操作物体,当机器人施加的力过大时(力传感器信号的高于阈值),表明它试图以错误的方式操纵物体以及当机器人没有夹持物体时(通过触觉传感器测量)。首先从初始的螺旋轴周围采样, 组成一个样本集。然后按照每一个样本生成相应的运动轨迹交由机器人执行。根据机器人失败之前运行的时间长度,选取较长的T个样本对取其平均值,作为下一个Episode的旋转轴。该过程重复N次,直到机器人操作成功。 通过这种自我调整,机器人能够在每次操作中不断优化动作,直到成功完成任务。成功执行的螺旋运动被添加到训练数据集中,以增强动作预测模型。重复执行这个迭代过程,可以促进机器人策略和预测模型的持续改进,从而创建一个自监督的反馈循环。 图3 机器人策略优化过程 研究实验
实验设计
为了验证 SCREWMIMIC 的有效性,研究团队设计了六项具有挑战性的双臂操作任务,这些任务分别代表了不同的螺旋运动模式:
拧开瓶盖:机器人需要用双手拧开一个瓶盖。这是一项经典的螺旋运动任务,瓶盖的旋转运动可以用螺旋轴来描述。 拉开衣服拉链:机器人需要沿着拉链的轨道移动,这涉及到平行运动和抓握的协调。 插入卷筒:该任务要求机器人将一个卷筒插入到盒子中,涉及精确的抓握和推拉动作。 合上笔记本电脑:机器人需要用双手关闭一台笔记本电脑,其运动也可以用一个旋转螺旋轴来描述。 搅拌容器:机器人使用一个勺子在容器中进行搅拌,任务中双手的运动需要保持同步。 切割物体:机器人使用一把刀切割物体,这需要机器人控制双手的稳定性和力度。 在实验过程中,研究团队使用了一台双臂机器人进行测试,并通过摄像头和力传感器对机器人的操作进行监控和调整。每个任务都从一次人类演示开始,机器人通过观察视频生成初步的螺旋运动,并在随后的自监督过程中进行微调。
实验结果
实验结果表明,SCREWMIMIC 能够有效地完成六项双臂操作任务,总体成功率达到90%。SCREWMIMIC 在这些任务中表现出较强的泛化能力,能够从单一的人类演示中学习双臂操作,并在面对新的物体或任务配置时进行微调。此外,螺旋空间的约束大大简化了机器人在工作空间中的探索,减少了训练时间和资源消耗。 为了更深入地评估 SCREWMIMIC 的有效性,研究团队还进行了额外的对比实验,比较了螺旋空间表示和传统的6自由度动作表示之间的差异。结果表明,使用螺旋空间表示可以显著提高任务的完成率,因为螺旋空间提供了更为简洁且有效的动作表示方式,使机器人能够在一个受约束的空间内进行更高效的探索。在微调过程中,SCREWMIMIC 采用的奖励信号也发挥了重要作用。研究显示,基于力传感器反馈的奖励机制能够帮助机器人识别任务中的失败情况(如抓握失败或施力过大),从而避免了不必要的探索。 图4 螺旋运动微调和预测模型再训练结果 总结与展望
本文提出的SCREWMIMIC 框架为机器人双臂操作任务的学习和执行提供了一种创新解决方案。该框架使机器人能够从人类演示视频中学习双臂协作的运动轨迹,并通过将复杂的双臂操作任务简化为螺旋运动,提高了机器人在多种双臂操作任务中的表现。此外,自监督的微调机制使得机器人能够在现实环境中不断优化动作策略,增强了系统的适应性和灵活性。尽管如此,SCREWMIMIC 仍然存在一些局限性。例如,由于引入了虚拟的螺旋轴约束,从而缩小了机器人的工作空间, 这将限制机器人处理复杂任务的能力。此外,SCREWMIMIC 框架目前需要为不同物体类别分别训练模型,这限制了其在更广泛任务中的泛化能力。未来的研究可以通过引入多任务学习和更先进的传感技术,进一步提升 SCREWMIMIC 的性能。SCREWMIMIC 可以让机器人从人类的演示视频中学习复杂的操作任务,为双臂协作机器人在制造、医疗和家政等领域的应用拓展了新的可能。
参考文献:
[1] A. Bahety, P. Mandikal, B. Abbatematteo, and R. Martín-Martín, “ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection,” in Robotics: Science and Systems (RSS), 2024, arXiv, May 2024. Accessed: Oct. 12, 2024. [Online]. Available: http://arxiv.org/abs/2405.03666
[2] Y. Guiard, “Asymmetric Division of Labor in Human Skilled Bimanual Action: The Kinematic Chain as a Model,” Journal of Motor Behavior, vol. 19, no. 4, pp. 486–517, Dec. 1987, doi: 10.1080/00222895.1987.10735426.
[3] Y. Rong, T. Shiratori, and H. Joo, “FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via Regression and Integration,” in 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, BC, Canada: IEEE, Oct. 2021, pp. 1749–1759. doi: 10.1109/ICCVW54120.2021.00201.
[4] R. Q. Charles, H. Su, M. Kaichun, and L. J. Guibas, “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI: IEEE, Jul. 2017, pp. 77–85. doi: 10.1109/CVPR.2017.16.
初稿|郁章敬 陈魏
复审|颜学明
终审|金耀初