原文链接在文章末尾哦!
哈喽大家周末开心~
最近我们学习的大多是自动驾驶的子任务研究,类似于轨迹预测,视频数据生成等
西湖大学&理想汽车 | Delphi:基于扩散模型的长视频生成方法
理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划
本期分享一个刚开源15天的文章:V2X-VLM。端到端(E2E)车辆基础设施协同自动驾驶(VICAD)框架。通过融合车辆和基础设施传感器的数据,以及文本信息,来改进复杂和动态驾驶场景下的轨迹规划,进而实现端到端自动驾驶!本文的研究创新点包括:
V2X-VLM框架的提出:首个使用大型视觉-语言模型的E2E协同自动驾驶框架。通过V2X(Vehicle-to-Everything)通信系统协同车辆与基础设施。 统一的数据融合范式:V2X-VLM将车辆和基础设施的视觉场景与文本信息结合并嵌入到统一的多模态数据。
PipeLine
V2X-VLM框架的工作流程,一个基于大型视觉-语言模型(VLM)的端到端(E2E)车辆基础设施协同自动驾驶(VICAD)框架。包含四个部分:输入数据,场景理解,信息融合与处理以及规划轨迹。输入数据包含有车辆视角图像,基础设施视角图像以及文本嵌入。场景理解主要从车辆视角和基础设施视角提取关键信息。信息融合与处理模块将不同模态的信息融合到一个共同的潜在空间(latent space)中进行综合分析。
理解车辆视角信息:识别重要的环境元素,如附近车辆的类型、道路标志、交通信号、天气条件、时间、道路环境,以及车辆所在位置。 理解基础设施视角:理解更广泛的交通模式、行人流动和整体的交通密度。有助于预判交通拥堵,理解交通信号的协调,以及监控从车辆视角盲区。 双重能力验证:车辆视角和基础设施视角能够互相验证。
这个是对场景理解的输出,上边是输入的图像信息,中间是简要描述,下面是详细描述。(这部分几乎是没什么工作量的,我们用GPT同样可以实现,这部分论文的重点在验证其有效性)
作者认为这个简单的融合好处有两点:减少计算冗余以及适应性强(李小毛觉得这部分已经没必要深究了。。简单的模块当然方便计算)
(3)规划结果:将token解码来获得预测轨迹,这部分有两个点:
性能评估:使用交叉摘损失函数评估所规划轨迹。大视觉-语言模型 (VLM)的解码文本标记为可读格式,以呈现预测的轨迹。