真实闭环拉满！浙大&华为发布全新闭环仿真工具HUGSIM

科技 2024-12-06 13:30 浙江

写在前面 & 笔者的个人理解

在过去的几十年里，自动驾驶算法在感知、规划和控制方面取得了重大进展。然而，评估单个组件并不能完全反映整个系统的性能，这突显了对更全面评估方法的需求。这推动了HUGSIM的发展，这是一个闭环、真实和实时的仿真器，用于评估自动驾驶算法。我们通过3DGS将捕获的2D RGB图像提升到3D空间，提高闭环场景的渲染质量，并构建闭环环境来实现这一目标。在渲染方面，我们解决了闭环场景中新视图合成的挑战，包括视点外推和360度车辆渲染。除了新视图合成外，HUGSIM还实现了全闭环仿真循环，根据控制命令动态更新自车和行为者状态和观察结果。此外，HUGSIM为KITTI-360、Waymo、nuScenes和PandaSet的70多个序列以及400多个不同的场景提供了全面的基准，为现有的自动驾驶算法提供了一个公平和现实的评估平台。HUGSIM不仅是一个直观的评估基准，还释放了在真实的闭环环境中微调自动驾驶算法的潜力。

总结来说，本文的主要贡献如下：

全新自动驾驶仿真器，其特点是闭环、真实和实时，弥合了城市场景新视图合成和自动驾驶仿真器之间的差距。
为了解决仿真器中的特定渲染挑战，我们利用物理约束和非本地参与者来提高保真度，超越了以前的新视图合成方法。
提出了一种高效的驾驶员轨迹生成策略，即使没有高清地图，也能仿真攻击性驾驶行为。
引入了一个新的基准来公平评估AD算法，与现有的基于闭环视觉的AD仿真器相比，它提供了更真实的仿真环境。此外，基准测试提供了基于多个数据集的各种场景，具有不同难度的不同场景。

城市场景重建

解耦场景表示

我们假设场景由静态区域和表现出刚性运动的动态车辆组成。静态区域被分解为地面和非地面区域，允许对地面应用平面约束，以在外推视图中保留车道结构。我们考虑两类动态车辆：原始驾驶数据集中存在的本地动态车辆和从360度捕获图像重建的非本地动态车辆。

非地面静态高斯：遵循3DGS，我们使用3D高斯对城市场景的所有区域进行建模。除了3D高斯的原始定义外，我们还建议对每个3D高斯的语义logit 进行额外建模，以允许渲染2D语义标签。此外，我们可以通过在两个不同的时间戳t1和t2将3D位置μ投影到图像空间并计算运动，自然地获得每个3D高斯的渲染光流。我们提供了多模态渲染的详细信息。

地面高斯：车道在AD算法的感知中起着至关重要的作用。然而，如图3所示，大多数现有的重建方法都难以在外推视图中准确渲染车道几何形状。这些失真的原因是地面高斯分布倾向于过度拟合训练视图，无法重建正确的地面几何。我们的初步实验表明，直接监督渲染深度并不能解决问题，因为具有不正确几何形状的高斯人仍然可以渲染出看起来准确的2D深度图。此外，我们正则化地面高斯分布以形成平面结构，得到如图4所示的正确几何。

一个天真的假设是将场景的地面视为一个单一的平面，允许地面高斯分布在相同的高度。然而，这一假设忽略了更复杂的情况，如斜坡道路。为了解决这个问题，我们提出了一个多平面地面模型，其中我们假设地面仅在有限的距离内是平面的，记为∆Z。在该模型中，假设每个局部平面相对于最近的相机具有固定的高度。由于相机姿态反映了表面坡度，这种多平面方法有效地仿真了这种复杂的场景。具体来说，我们优化了地面高斯分布，并通过将采样高斯补丁的高度方差限制在相应相机坐标系中的小∆Z内来约束高斯分布在3D空间中。请注意，局部平面彼此重叠，从而避免了边界伪影。更正式地说，我们的地面模型的约束可以表示为优化目标：

与之前使用密集拼接或LiDAR初始化高斯的方法不同，如RoGS和AutoPlat所示，我们发现使用稀疏分布的高斯可以有效地表示地面，因为地面纹理不是均匀分布的。因此我们保留了颜色、位置、不透明度、二维尺度作为可优化参数，同时也纳入了密度控制策略。我们的方法能够实现高质量的地面渲染，而不需要过多的3D高斯分布，正如我们的实验所证明的那样。

本地动态车辆高斯模型和单循环模型：对于动态车辆，我们假设根据输入的RGB图像预测3D边界框，从而在目标坐标空间中实现3D高斯建模。为了解决预测中的噪声问题，我们通过使用自行车模型进行正则化来共同优化它们。

非本地全观测车辆高斯模型：AD仿真器需要从所有360度渲染高保真度的参与者，特别是在将交互式参与者集成到闭环仿真中时。然而原始重建场景中的车辆仅从有限的一组视点捕获，从训练视角之外的角度观察时会产生明显的伪影。为了解决这个问题，我们使用密集捕获的真实世界数据集3DRealCar重建车辆，该数据集提供了对真实世界车辆的360度观测。我们的实验表明，当以随机视角插入仿真场景时，真实世界捕获的车辆表现优于原始场景中的车辆。

3DRealCar数据集提供了车辆的掩码。我们利用掩码信息来确保3D高斯模型仅对汽车前景进行建模。这是通过在香草渲染损失之外考虑阿尔法掩模损失来实现的。重要的是，直接插入没有阴影的前景车辆通常看起来就像它们漂浮在空中。然而，逆渲染需要精确的环境地图，这很难从透视相机中获得。尽管一些工作解决了高斯散斑中逆渲染的挑战，但它仍然是一个计算成本很高的操作。为了简化问题，我们假设光源（太阳）直接在头顶，这意味着阴影应该出现在车辆下方。为了渲染车辆阴影，我们将平面高斯分布图放置在规范空间中车辆的底部，如图5所示。这些高斯分布的α属性根据它们与底部中心的距离平滑地减小。尽管这是一个简化的假设，但我们观察到，在许多情况下，插入的非本地车辆似乎是合理的，在效率和照片真实感之间取得了良好的平衡。

整体城市高斯分布

Semantic Reconstruction：

Optical Flow：

Loss Functions

图像损失：

2D分割损失：

基于物理的正则化：

仿真

Graphicial Configuration Interface

我们开发了一个图形用户界面（GUI），以方便在仿真器中配置测试场景。GUI配置包括几个步骤。第一步是配置相机设置，包括相机数量、相机内参和车辆外参。第二步是配置自车参数，包括指定自车的运动学模型、控制频率和启动状态。最后一步涉及配置参与者，包括具有不同指定行为的本地和非本地车辆。所有这些演员的外观都可以从3DRealCar重建的100多辆候选3D车辆中选择。

闭环仿真

Simulator-User communication
Controller
Ego-Vehicle Kinematic Model
Collision Detection

Actor Driving Behaviors

Replayed Driving Behavior
Normal Driving Behavior
Aggressive Driving Behavior

渲染评测

结论

本文介绍了HUGSIM，这是一种用于自动驾驶的全新真实闭环仿真器，具有在外推视图中实时、高质量渲染和高效生成演员行为的特点。具体来说，我们使用3D高斯重建城市场景，并引入地面模型以及单车辆重建，以提高外推视图的渲染质量。对于参与者行为，我们提出了一种基于攻击成本的轨迹交互式搜索，以仿真参与者的攻击性驾驶行为。

此外，我们在包括方差序列在内的多个数据集上建立了HUGSIM基准，设计了300多个用于评估和训练AD算法的场景。我们在基准上评估了几个基线。我们的结果表明，HUGSIM基准对现有的AD算法提出了重大挑战。这一闭环基准测试揭示了自动驾驶性能的巨大改进空间。我们希望我们的数据集和基准将促进跨社区的新研究，推动实现完全自主的最终目标。

对于未来的工作，HUGSIM可以通过多种方式进行增强。首先，我们假设所有动态目标都遵循刚性运动，这可能会导致行人等非刚性运动目标的模糊。这可以通过将非刚性动态重建方法纳入我们的框架来解决。虽然我们的方法改进了外推视点的渲染，但它在远离输入或非常接近目标的视图上难以实现高保真渲染。这些挑战可以通过利用2D生成模型的先验来缓解。此外，由于我们的方法为在真实的闭环环境中微调AD算法开辟了可能性，这为未来的探索提供了一条有前景的途径。

参考

[1] HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉