CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

文摘 2024-08-11 15:30 上海

Projection：https://yifanlu0227.github.io/ChatSim/

Arxiv：https://arxiv.org/abs/2402.05746

本期概述

哈喽大家好！周末快乐！！！大家玩的开心！

今天是抓紧充电的好时候！李小毛为大家分享的论文的是CVPR 2024最新的文章：ChatSim。ChatSim能够实现5 分钟内50帧的渲染速度。通过自然语言指令生成3D驾驶场景的可编辑模拟，结合多摄像机神经辐射场和多摄像机照明估计来实现照片级的真实感渲染！

实现场景的编辑和渲染的研究工作，我们分享的还不算是很多哦，我们来学习一下吧~

ChatSim工作流程和效果。用户输入自然语言指令，比如“移除所有的车”。多代理协作框架：ChatSim系统内部通过多个基于大语言模型（LLM）的代理来协作完成任务。生成的模拟结果：根据用户的指令生成了一个照片级真实感的3D驾驶场景，并通过视频的形式返回给用户。

PipeLine

ChatSim系统通过多个协作的LLM（大语言模型）agent将用户的总体指令分解成具体的编辑任务，并由各个agent执行这些任务。在此我们重点研究特定agent功能以及他们是如何协作的。（agent也可以称为代理，李小毛觉得这样直译很奇怪，所有后面一律使用英文agent）

特定agent功能：各agent由大语言模型（LLM）和相应的角色功能组成。LLM负责理解收到的命令，而角色功能则处理接收到的数据。每个agent都配置了独特的LLM提示和角色功能，以完成系统内的特定任务。agent首先通过LLM将接收到的命令转换为结构化配置，然后角色功能利用这些配置作为参数来处理数据，产生所需的结果。下面重点介绍这些agent

项目管理agent：将用户的直接命令分解为清晰的自然语言指令，并将这些指令发送给其他编辑agent。项目管理agent通过设计一系列提示来帮助其LLM分解命令，其核心思想是描述动作集、给出总体目标，并通过示例定义输出形式。然后，角色功能会将分解后的指令发送给其他智能体进行处理。这种分工不仅增强了系统处理各种输入的鲁棒性，还通过细化操作简化了流程，使得系统能够更高效地执行任务。
视角调整agent：负责生成合适的摄像机外部参数。LLM将自然语言指令翻译为视角移动参数，目标视点的位置和角度会根据这些参数进行调整。在角色功能中，这些移动参数被转化为所需的变换矩阵，然后与原始参数相乘，生成一个新的视角。通过这种方式，视角调整agent能够实现高精度的视角移动，为后续的渲染和编辑提供基础。
背景渲染agent：多摄像机图像渲染场景背景。LLM接收渲染命令后，操作角色功能进行渲染。在角色功能中，系统特别集成了一种新型的神经辐射场方法（McNeRF），该方法能够处理多摄像机输入，并考虑曝光时间，从而解决了多摄像机渲染中的模糊和亮度不一致问题。
前景渲染agent：负责整合摄像机外部信息、3D资产和运动信息，以渲染场景中的前景对象。为了将外部资产与当前场景无缝融合，系统设计了一种多摄像机光照估计方法（McLight），并与McNeRF结合使用。估算出的光照信息随后被Blender API用来生成前景图像，从而确保前景和背景的光照一致性和真实感。
车辆删除agent：从背景中删除指定的车辆。它首先从给定的场景信息或场景感知模型的结果中识别当前车辆的属性，如3D包围框和颜色。然后，LLM收集这些车辆的属性，并与用户的请求进行匹配。一旦确认目标车辆，agent会使用基于潜在扩散的方法进行逐帧图像修复，从而有效地删除这些车辆。
3D资产管理agent：负责根据用户规格选择和修改3D数字资产。它构建并维护一个3D数字资产库。LLM通过关键属性匹配选择最合适的资产，如颜色和类型。如果匹配不完全，agent可以通过其角色功能修改资产，例如更改颜色，以确保与用户要求相符。
车辆运动agent：负责根据请求生成车辆的初始位置和后续运动。为了处理从文本和场景地图直接生成运动的难题，系统提出了一种新的文本到运动的方法。关键思想是将位置和规划模块与LLM连接，以提取并将运动属性转换为坐标，包括距离、方向、速度和动作等属性。

agent协作工作流程：编辑agent分为背景生成和前景生成两个团队。背景生成由背景渲染agent完成，它使用视角调整agent生成的外部参数渲染背景图像，随后由车辆删除agent进行修复。前景渲染agent理使用视角调整agent生成的参数、3D资产管理agent选择的资产，以及车辆运动agent生成的运动信息进行渲染。最终，前景和背景图像合成以创建并向用户交付视频。项目管理agent记录每个agent配置中的编辑信息，以便可能的多轮编辑。

前景和背景图像进行合成

背景渲染框架McNeRF

背景渲染框架McNeRF：用于生成具有高保真度的3D驾驶场景背景。McNeRF基于神经辐射场（NeRF）技术，特别考虑了多摄像机输入的情况，以解决传统渲染方法在多摄像机场景中的对齐问题和亮度不一致问题。

多摄像机对齐：由于不同摄像机的触发时间不同，导致它们的拍摄位置 (姿态) 存在一定的错位。McNeRF使用了一个基于Agisoft Metashape的软件工具来重新校准图像。设定和分别表示第个摄像机在第次触发时捕捉到的图像和相应的摄像机姿态。对齐后的摄像机姿态可以表示为:

其中，表示在Metashape的统一坐标空间中重新校准后的摄像机姿态，而是从 Metashape坐标空间到车辆全球坐标空间的转换矩阵。

亮度一致性渲染: McNeRF在高动态范围 (HDR) 辐射场中引入了曝光时间，从而实现亮度一致性渲染。McNeRF采用了F2-NeRF作为其骨干模型，沿着光线采样个点，并估计每个点的HDR辐射率和密度。光强度可以表示为:

其中，是不透明度，是点的采样间隔，是累积透射率，是曝光时间。归一化函数用于稳定训练，其定义为:

其中，是缩放的超参数，和分别是所有图像曝光时间的均值和标准差。此外，McNeRF输出的HDR光强度还可以为前景对象的渲染提供场景级别的照明。

损失函数：McNeRF通过强化辐射一致性来确保渲染图像（预测值）和捕获图像（真实值）之间的一致性。给定真实图像，损失函数可以表示为:

其中，代表光线集，是 sRGB伽马校正，它将HDR光强度转换为低动态范围 (LDR) 颜色。

前景渲染框架McLight

前景渲染框架McLight：通过结合天穹光照估计和环境光照估计，为前景对象提供精确的光照信息，使其与背景无缝融合。McLight的设计特别考虑了多摄像机输入的复杂性，以及场景中的空间变化光照效果。

天穹光照估计:从多摄像机图像中准确重建HDR天穹图像，尤其是恢复太阳的行为。McLight采用了一种具有残差连接的自注意力机制，以融合多摄像机输入并捕捉补充性的视觉线索。

McLight通过训练一个自编码器，将低动态范围（LDR）全景图像转换为高动态范围（HDR）全景图像。编码器将LDR天穹全景图像转换为三个中间向量：峰值方向向量，强度向量，和天空内容向量。McLight设计了一个残差连接，将注入到解码的HDR全景图像中，通过球面高斯波瓣衰减显式恢复太阳的峰值强度，确保太阳在重建的HDR全景图像中能够呈现出强烈的阴影效果。

为了从多摄像机图像中获取完整的天穹光照信息，对于每个摄像机的图像，使用共享的图像编码器预测峰值方向向量、强度向量，以及天空内容向量，其中为摄像机索引。McLight通过以下方式融合这些多摄像机视角：所有的通过其外部参数对齐到前视图并平均得到，所有的平均得到重建HDR天穹图像

环境光照估计：单独的天穹模型难以再现复杂的场景中局部特定位置的光照效果。McLight通过与McNeRF结合，利用其存储的精确3D场景信息，捕捉周围环境对光照的影响，从而实现空间变化的光照估计。

具体来说，McLight在虚拟对象的位置处采样半球光线。光线方向与环境图的像素坐标对齐，并通过赤道投影与单位球体对齐。利用光线，通过McNeRF查询获取HDR环境光照。这种方法可以重建复杂的环境光照，从而在场景中实现空间变化的效果。

光照融合：McLight通过McNeRF最后采样点的透射率来融合天穹和环境光照的HDR强度值。基本思路是射向辐射场外部的光线将最终击中天穹。给定方向，通过赤道投影检索天穹的强度，最终的HDR光强度是场景和天穹的组合:

Experiments

ChatSim系统在多轮命令下的编辑结果！第一条命令是：“自车缓慢向前行驶。添加一辆在前方移动的车辆。” 。第二条命令是：“修改添加的车辆，使其左转。添加一辆雪佛兰到该车前方。再添加一辆车辆到左侧，驶向我。”

(a) Hold-Geoffroy et al. 方法：前景物体（如车辆）的阴影和光照效果较为一般，光照细节不够丰富，特别是在处理复杂场景时。(b) Wang et al. 方法在场景细节和真实感方面仍然有不足，尤其是在渲染复杂阴影时。(c) McLight（本文方法）车辆的光照效果更为逼真，阴影过渡更加自然，与背景的融合更加和谐，表现出极高的真实感。(d) 空间变化光照效果（Spatial-Varying Effect）

右侧这一列展示了在复杂场景中，光照的空间变化效果。

本期结语

李小毛理解，本项研究工作能够针对特定的case编辑现实数据集，如添加或删除车辆、调整光照和视角等，生成符合训练要求的模拟场景！

往期回顾

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉