作者 | 宋子乔
1、在仿真环境对机器人进行预训练 在预训练阶段,研究团队将真人运动视频作为数据来源,在仿真环境中训练动作跟踪策略。先将这些运动数据重定向到人形机器人上,然后训练一个基于相位条件的运动跟踪策略,让机器人模仿重定向后的动作。随后,在仿真环境中回放这些数据,动力学差异就会以跟踪误差的形式表现出来。 2、后训练阶段进一步校准机器人动作 训练一个delta动作模型,通过缩小真实世界和仿真状态的差异,学习如何补偿这些偏差,缩小仿真环境和真实世界中的动力学差异。然后,ASAP把这个delta动作模型集成到仿真器中,对预训练策略进行微调,让它和现实世界的动力学更匹配。