动态场景与LiDAR生成:LiDAR动态场景生成,4D表示,HexPlane
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes
2024-10-23|Shanghai AI Lab, CMU, NUS, NTU S-Lab|🔺10
http://arxiv.org/abs/2410.18084v1
https://huggingface.co/papers/2410.18084
https://dynamic-city.github.io/
研究背景与意义
LiDAR场景生成近年来得到了迅速发展,但现有方法主要集中在生成静态和单帧场景,忽视了真实世界驾驶环境的动态特性。本文提出的DynamicCity是一个新颖的4D LiDAR生成框架,能够生成大规模、高质量的LiDAR场景,捕捉动态环境的时间演变。该研究的意义在于填补了生成动态4D LiDAR场景的空白,为自动驾驶、机器人以及城市规划等领域提供了重要的基础数据支持。
研究方法与创新
DynamicCity框架主要由两个关键模型组成:
AVAE模型用于学习HexPlane作为紧凑的4D表示。与传统的平均操作不同,DynamicCity采用了一种新颖的投影模块,有效压缩4D LiDAR特征为六个2D特征图,从而显著提高了HexPlane的拟合质量(达到12.56%的mIoU增益)。此外,采用扩展与压缩策略(ESS)并行重建3D特征体,提升了网络训练效率和重构精度(相较于逐点查询,训练速度提升2.06倍,内存减少70.84%)。
基于DiT的扩散模型用于HexPlane生成,该模型通过填充展开操作(Padded Rollout Operation)将六个特征平面重新组织为方形2D特征图,从而支持多种条件生成应用。
实验设计与结果分析
在CarlaSC和Waymo数据集上进行的广泛实验表明,DynamicCity在多个评估指标上显著优于现有的最先进的4D LiDAR生成方法。通过与OccSora等方法的比较,DynamicCity在生成质量、训练速度和内存使用等方面均表现出色,显示出其在生成动态场景方面的强大能力。
结论与展望
DynamicCity为高质量的4D LiDAR场景生成提供了一个有效的解决方案,显著提高了生成的场景质量、训练速度和内存效率。未来的研究可以集中在进一步提高模型的适应性和扩展性,探索更复杂的动态场景生成任务,以及结合真实世界数据以增强模型的泛化能力。