CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

文摘   2024-08-11 15:30   上海  
Projection:https://yifanlu0227.github.io/ChatSim/
Arxiv:https://arxiv.org/abs/2402.05746
本期概述
哈喽大家好!周末快乐!!!大家玩的开心!
今天是抓紧充电的好时候!李小毛为大家分享的论文的是CVPR 2024最新的文章:ChatSim。ChatSim能够实现5 分钟内50帧的渲染速度。通过自然语言指令生成3D驾驶场景的可编辑模拟,结合多摄像机神经辐射场和多摄像机照明估计来实现照片级的真实感渲染!
实现场景的编辑和渲染的研究工作,我们分享的还不算是很多哦,我们来学习一下吧~
ChatSim工作流程和效果。用户输入自然语言指令,比如“移除所有的车”多代理协作框架:ChatSim系统内部通过多个基于大语言模型(LLM)的代理来协作完成任务。生成的模拟结果:根据用户的指令生成了一个照片级真实感的3D驾驶场景,并通过视频的形式返回给用户。
PipeLine
ChatSim系统通过多个协作的LLM(大语言模型)agent将用户的总体指令分解成具体的编辑任务,并由各个agent执行这些任务。在此我们重点研究特定agent功能以及他们是如何协作的。(agent也可以称为代理,李小毛觉得这样直译很奇怪,所有后面一律使用英文agent)

特定agent功能:各agent由大语言模型(LLM)和相应的角色功能组成。LLM负责理解收到的命令,而角色功能则处理接收到的数据。每个agent都配置了独特的LLM提示和角色功能,以完成系统内的特定任务。agent首先通过LLM将接收到的命令转换为结构化配置,然后角色功能利用这些配置作为参数来处理数据,产生所需的结果。下面重点介绍这些agent

  • 项目管理agent:将用户的直接命令分解为清晰的自然语言指令,并将这些指令发送给其他编辑agent。项目管理agent通过设计一系列提示来帮助其LLM分解命令,其核心思想是描述动作集、给出总体目标,并通过示例定义输出形式。然后,角色功能会将分解后的指令发送给其他智能体进行处理。这种分工不仅增强了系统处理各种输入的鲁棒性,还通过细化操作简化了流程,使得系统能够更高效地执行任务 。
  • 视角调整agent:负责生成合适的摄像机外部参数。LLM将自然语言指令翻译为视角移动参数,目标视点的位置和角度会根据这些参数进行调整。在角色功能中,这些移动参数被转化为所需的变换矩阵,然后与原始参数相乘,生成一个新的视角。通过这种方式,视角调整agent能够实现高精度的视角移动,为后续的渲染和编辑提供基础 。
  • 背景渲染agent:多摄像机图像渲染场景背景。LLM接收渲染命令后,操作角色功能进行渲染。在角色功能中,系统特别集成了一种新型的神经辐射场方法(McNeRF),该方法能够处理多摄像机输入,并考虑曝光时间,从而解决了多摄像机渲染中的模糊和亮度不一致问题 。
  • 前景渲染agent:负责整合摄像机外部信息、3D资产和运动信息,以渲染场景中的前景对象。为了将外部资产与当前场景无缝融合,系统设计了一种多摄像机光照估计方法(McLight),并与McNeRF结合使用。估算出的光照信息随后被Blender API用来生成前景图像,从而确保前景和背景的光照一致性和真实感 。
  • 车辆删除agent:从背景中删除指定的车辆。它首先从给定的场景信息或场景感知模型的结果中识别当前车辆的属性,如3D包围框和颜色。然后,LLM收集这些车辆的属性,并与用户的请求进行匹配。一旦确认目标车辆,agent会使用基于潜在扩散的方法进行逐帧图像修复,从而有效地删除这些车辆 。
  • 3D资产管理agent:负责根据用户规格选择和修改3D数字资产。它构建并维护一个3D数字资产库。LLM通过关键属性匹配选择最合适的资产,如颜色和类型。如果匹配不完全,agent可以通过其角色功能修改资产,例如更改颜色,以确保与用户要求相符 。
  • 车辆运动agent:负责根据请求生成车辆的初始位置和后续运动。为了处理从文本和场景地图直接生成运动的难题,系统提出了一种新的文本到运动的方法。关键思想是将位置和规划模块与LLM连接,以提取并将运动属性转换为坐标,包括距离、方向、速度和动作等属性 。
agent协作工作流程编辑agent分为背景生成和前景生成两个团队。背景生成由背景渲染agent完成,它使用视角调整agent生成的外部参数渲染背景图像,随后由车辆删除agent进行修复。前景渲染agent理使用视角调整agent生成的参数、3D资产管理agent选择的 资产,以及车辆运动agent生成的运动信息进行渲染。最终,前景和背景图像合成以创建并向用户交付视频。项目管理agent记录每个agent配置中的编辑信息,以便可能的多轮编辑。
前景和背景图像进行合成
背景渲染框架McNeRF
背景渲染框架McNeRF:用于生成具有高保真度的3D驾驶场景背景。McNeRF基于神经辐射场(NeRF)技术,特别考虑了多摄像机输入的情况,以解决传统渲染方法在多摄像机场景中的对齐问题和亮度不一致问题。
多摄像机对齐:由于不同摄像机的触发时间不同,导致它们的拍摄位置 (姿态) 存在一定的错位。McNeRF使用了一个基于Agisoft Metashape的软件工具来重新校准图像。设定 分别表示第 个摄像机在第 次触发时捕捉到的图像和相应的摄像机姿态。对齐后的摄像机姿态 可以表示为:
其中, 表示在Metashape的统一坐标空间中重新校准后的摄像机姿态,而 是从 Metashape坐标空间到车辆全球坐标空间的转换矩阵。
亮度一致性渲染: McNeRF在高动态范围 (HDR) 辐射场中引入了曝光时间,从而实现亮度一致性渲染。McNeRF采用了F2-NeRF作为其骨干模型,沿着光线 采样 个点,并估计每个点的HDR辐射率 和密度 。光强度 可以表示为:
其中, 是不透明度, 是点的采样间隔, 是累积透射率, 是曝光时间。归一化函数 用于稳定训练,其定义为:
其中, 是缩放的超参数, 分别是所有图像曝光时间的均值和标准差。此外,McNeRF输出的HDR光强度还可以为前景对象的渲染提供场景级别的照明。
损失函数:McNeRF通过强化辐射一致性来确保渲染图像(预测值)和捕获图像(真实值)之间的一致性。给定真实图像 ,损失函数可以表示为:
其中, 代表光线集, 是 sRGB伽马校正,它将HDR光强度转换为低动态范围 (LDR) 颜色。
前景渲染框架McLight
前景渲染框架McLight:通过结合天穹光照估计和环境光照估计,为前景对象提供精确的光照信息,使其与背景无缝融合。McLight的设计特别考虑了多摄像机输入的复杂性,以及场景中的空间变化光照效果。
天穹光照估计:从多摄像机图像中准确重建HDR天穹图像,尤其是恢复太阳的行为。McLight采用了一种具有残差连接的自注意力机制,以融合多摄像机输入并捕捉补充性的视觉线索。
McLight通过训练一个自编码器,将低动态范围(LDR)全景图像转换为高动态范围(HDR)全景图像。编码器将LDR天穹全景图像转换为三个中间向量:峰值方向向量 ,强度向量 ,和天空内容向量 。McLight设计了一个残差连接,将 注入到解码的HDR全景图像中,通过球面高斯波瓣衰减显式恢复太阳的峰值强度,确保太阳在重建的HDR全景图像中能够呈现出强烈的阴影效果。
为了从多摄像机图像中获取完整的天穹光照信息,对于每个摄像机的图像,使用共享的图像编码器预测峰值方向向量 、强度向量 ,以及天空内容向量 ,其中 为摄像机索引。McLight通过以下方式融合这些多摄像机视角:所有的 通过其外部参数对齐到前视图并平均得到 ,所有的 平均得到 重建HDR天穹图像
环境光照估计:单独的天穹模型难以再现复杂的场景中局部特定位置的光照效果。McLight通过与McNeRF结合,利用其存储的精确3D场景信息,捕捉周围环境对光照的影响,从而实现空间变化的光照估计。
具体来说,McLight在虚拟对象的位置 处采样半球光线。光线方向 与环境图的像素坐标对齐,并通过赤道投影与单位球体对齐。利用光线 ,通过McNeRF查询获取HDR环境光照 。这种方法可以重建复杂的环境光照,从而在场景中实现空间变化的效果。
光照融合:McLight通过McNeRF最后采样点的透射率 来融合天穹和环境光照的HDR强度值。基本思路是射向辐射场外部的光线将最终击中天穹。给定方向 ,通过赤道投影检索天穹的强度 ,最终的HDR光强度 是场景和天穹的组合:
Experiments
ChatSim系统在多轮命令下的编辑结果!第一条命令是:“自车缓慢向前行驶。添加一辆在前方移动的车辆。” 第二条命令是:“修改添加的车辆,使其左转。添加一辆雪佛兰到该车前方。再添加一辆车辆到左侧,驶向我。”

(a) Hold-Geoffroy et al. 方法:前景物体(如车辆)的阴影和光照效果较为一般,光照细节不够丰富,特别是在处理复杂场景时。(b) Wang et al. 方法在场景细节和真实感方面仍然有不足,尤其是在渲染复杂阴影时。(c) McLight(本文方法)车辆的光照效果更为逼真,阴影过渡更加自然,与背景的融合更加和谐,表现出极高的真实感。(d) 空间变化光照效果(Spatial-Varying Effect)

右侧这一列展示了在复杂场景中,光照的空间变化效果。
本期结语
李小毛理解,本项研究工作能够针对特定的case编辑现实数据集,如添加或删除车辆、调整光照和视角等,生成符合训练要求的模拟场景!
往期回顾
CVPR自动驾驶公开赛冠军!Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏
哈工大&杭电 | MVPbev:BEV到透视图的端到端转换框架
IROS2024 | ParkingE2E:端到端自动泊车模型
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章