欢迎关注微信公众号“机器人EmbodiedAI”
论文题目:PACER+: On-Demand Pedestrian Animation Controller in Driving Scenarios
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Diffusion-ES_Gradient-free_Planning_with_Diffusion_for_Autonomous_and_Instruction-guided_Driving_CVPR_2024_paper.pdf
一、方法
我们解决了驾驶场景中行人模拟中内容多样性和可控性的挑战。最近的行人动画框架存在一个重要限制,它们主要集中在跟随轨迹[48]或参考视频内容[60],从而忽视了在这些场景中人体动作的潜在多样性。这种限制限制了生成展示更广泛变化和逼真动作的行人行为的能力,因此限制了其在提供驾驶模拟系统中其他组件(例如,自动驾驶车辆应对的突然变化动作)的丰富运动内容方面的使用。在我们的方法中,我们致力于通过展示从各种来源获得的多样化人体动作来超越这种限制,例如生成的人体动作,除了跟随给定轨迹之外。我们框架的基本贡献在于将运动跟踪任务与轨迹跟随结合,这使得在单一策略下能够追踪特定运动部位(例如上半身)同时跟随给定轨迹。这样一来,我们显著增强了在给定场景内模拟人体动作的多样性以及内容的可控性,包括基于语言的控制。我们的框架促进了生成广泛人体动作范围,从而为驾驶场景中的行人模拟提供了更大的逼真性和适应性。
论文的贡献:
(1) 我们提出了一个统一的基于物理的行人动画框架,名为PACER+,它可以按需控制模拟行人同时跟随2D轨迹和特定身体部位的参考运动。
(2) 我们的框架支持从各种来源生成多样化的行人行为,包括生成模型、预捕捉动作和视频,在任何给定的驾驶场景中,如手工建造或实际扫描的环境。
(3) 值得注意的是,我们的框架实现了将现实世界行人动画零-shot重建到仿真环境中,其中缺失的部分将自动填充。
二、实验结果
三、总结
结论:本文介绍了一个新颖的框架,用于在驾驶场景中按需合成多样化和自然的行人动画。我们的框架通过利用多种动作内容来源,实现了零-shot生成多样化动作,超越了传统的轨迹控制方法。为了实现这一点,我们提出了一个联合跟踪框架,训练单一策略同时跟踪轨迹并模仿选定的关节,例如上半身关节。在训练过程中,我们引入了空间-时间掩码来指导策略网络在指定时间范围内跟踪特定的关节。我们的框架在手动和合成场景中赋予了对行人动画的全面控制,为动画生成提供了一个多功能工具。
限制和未来工作:我们当前的方法使用预训练的动作生成模型来生成动作内容,并依赖于用户提供的轨迹,没有明确考虑行人与环境之间的语义关系。在未来的工作中,我们的目标是通过策略网络直接生成动作内容,并结合语义引导进行研究。