欢迎关注微信公众号“机器人具身智能”
论文题目:Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents
论文链接:https://yifanlu0227.github.io/ChatSim/
代码链接:https://github.com/yifanlu0227/ChatSim
一、方法
可编辑的自动驾驶场景模拟因其生成定制数据的巨大潜力而引起了广泛关注。然而,现有的可编辑场景模拟方法在用户交互效率、多摄像头逼真渲染和外部数字资产集成方面存在一定的局限性。为了解决这些挑战,本文引入了ChatSim,这是第一个通过自然语言命令和外部数字资产实现可编辑的逼真3D驾驶场景模拟系统。为了实现高度灵活的命令编辑,ChatSim采用了一个大型语言模型(LLM)代理协作框架。为了生成逼真的结果,ChatSim采用了一种新颖的多摄像头神经辐射场方法。此外,为了充分发挥广泛高质量数字资产的潜力,ChatSim采用了一种新颖的多摄像头光照估计方法,以实现场景一致的资产渲染。我们在Waymo开放数据集上的实验表明,ChatSim能够处理复杂的语言命令,并生成相应的逼真场景视频。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
本文介绍了ChatSim,这是第一个通过语言命令进行编辑的3D驾驶场景模拟系统,具备导入外部数字资产和逼真渲染功能。为了有效执行用户命令,ChatSim采用了LLM代理协作的工作流程。为了推广逼真的模拟效果,我们提出了McNeRF和McLight分别用于背景和前景渲染,支持多摄像头输入。实验表明,ChatSim成功地通过语言命令模拟定制数据,实现了高质量、逼真的效果。未来,我们计划向ChatSim集成更多的背景编辑功能,例如天气变化等。
欢迎关注微信公众号“机器人具身智能”