特定agent功能:各agent由大语言模型(LLM)和相应的角色功能组成。LLM负责理解收到的命令,而角色功能则处理接收到的数据。每个agent都配置了独特的LLM提示和角色功能,以完成系统内的特定任务。agent首先通过LLM将接收到的命令转换为结构化配置,然后角色功能利用这些配置作为参数来处理数据,产生所需的结果。下面重点介绍这些agent
项目管理agent:将用户的直接命令分解为清晰的自然语言指令,并将这些指令发送给其他编辑agent。项目管理agent通过设计一系列提示来帮助其LLM分解命令,其核心思想是描述动作集、给出总体目标,并通过示例定义输出形式。然后,角色功能会将分解后的指令发送给其他智能体进行处理。这种分工不仅增强了系统处理各种输入的鲁棒性,还通过细化操作简化了流程,使得系统能够更高效地执行任务 。 视角调整agent:负责生成合适的摄像机外部参数。LLM将自然语言指令翻译为视角移动参数,目标视点的位置和角度会根据这些参数进行调整。在角色功能中,这些移动参数被转化为所需的变换矩阵,然后与原始参数相乘,生成一个新的视角。通过这种方式,视角调整agent能够实现高精度的视角移动,为后续的渲染和编辑提供基础 。 背景渲染agent:多摄像机图像渲染场景背景。LLM接收渲染命令后,操作角色功能进行渲染。在角色功能中,系统特别集成了一种新型的神经辐射场方法(McNeRF),该方法能够处理多摄像机输入,并考虑曝光时间,从而解决了多摄像机渲染中的模糊和亮度不一致问题 。 前景渲染agent:负责整合摄像机外部信息、3D资产和运动信息,以渲染场景中的前景对象。为了将外部资产与当前场景无缝融合,系统设计了一种多摄像机光照估计方法(McLight),并与McNeRF结合使用。估算出的光照信息随后被Blender API用来生成前景图像,从而确保前景和背景的光照一致性和真实感 。 车辆删除agent:从背景中删除指定的车辆。它首先从给定的场景信息或场景感知模型的结果中识别当前车辆的属性,如3D包围框和颜色。然后,LLM收集这些车辆的属性,并与用户的请求进行匹配。一旦确认目标车辆,agent会使用基于潜在扩散的方法进行逐帧图像修复,从而有效地删除这些车辆 。 3D资产管理agent:负责根据用户规格选择和修改3D数字资产。它构建并维护一个3D数字资产库。LLM通过关键属性匹配选择最合适的资产,如颜色和类型。如果匹配不完全,agent可以通过其角色功能修改资产,例如更改颜色,以确保与用户要求相符 。 车辆运动agent:负责根据请求生成车辆的初始位置和后续运动。为了处理从文本和场景地图直接生成运动的难题,系统提出了一种新的文本到运动的方法。关键思想是将位置和规划模块与LLM连接,以提取并将运动属性转换为坐标,包括距离、方向、速度和动作等属性 。