最新研究 | V2X-VLM​:E2E协同自动驾驶框架

文摘   2024-09-01 20:47   上海  

原文链接在文章末尾哦!

本期概述

哈喽大家周末开心~

最近我们学习的大多是自动驾驶的子任务研究,类似于轨迹预测,视频数据生成等

西湖大学&理想汽车 | Delphi:基于扩散模型的长视频生成方法

理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划

本期分享一个刚开源15天的文章:V2X-VLM。端到端(E2E)车辆基础设施协同自动驾驶(VICAD)框架。通过融合车辆和基础设施传感器的数据,以及文本信息,来改进复杂和动态驾驶场景下的轨迹规划,进而实现端到端自动驾驶!本文的研究创新点包括:

  • V2X-VLM框架的提出:首个使用大型视觉-语言模型的E2E协同自动驾驶框架。通过V2X(Vehicle-to-Everything)通信系统协同车辆与基础设施。
  • 统一的数据融合范式:V2X-VLM将车辆和基础设施的视觉场景与文本信息结合并嵌入到统一的多模态数据。

PipeLine

V2X-VLM框架的工作流程,一个基于大型视觉-语言模型(VLM)的端到端(E2E)车辆基础设施协同自动驾驶(VICAD)框架。包含四个部分:输入数据,场景理解,信息融合与处理以及规划轨迹。输入数据包含有车辆视角图像,基础设施视角图像以及文本嵌入。场景理解主要从车辆视角和基础设施视角提取关键信息。信息融合与处理模块将不同模态的信息融合到一个共同的潜在空间(latent space)中进行综合分析。

(1)视觉-语言模型(VLM):VLM在本研究中的应用,包括三部分:
  • 理解车辆视角信息:识别重要的环境元素,如附近车辆的类型、道路标志、交通信号、天气条件、时间、道路环境,以及车辆所在位置。
  • 理解基础设施视角:理解更广泛的交通模式、行人流动和整体的交通密度。有助于预判交通拥堵,理解交通信号的协调,以及监控从车辆视角盲区。
  • 双重能力验证:车辆视角和基础设施视角能够互相验证。

这个是对场景理解的输出,上边是输入的图像信息,中间是简要描述,下面是详细描述。(这部分几乎是没什么工作量的,我们用GPT同样可以实现,这部分论文的重点在验证其有效性)

(2)多模态处理范式这里介绍了多模态信息的融合方法,简单来说,这篇文章的多模态融合方法就是同时输入图片和文字,不进行多阶段特征提取或分层融合。

作者认为这个简单的融合好处有两点:减少计算冗余以及适应性强(李小毛觉得这部分已经没必要深究了。。简单的模块当然方便计算

(3)规划结果:将token解码来获得预测轨迹,这部分有两个点:

最终输出:V2X-VLM框架的最终输出是为自主驾驶车辆(Ego Vehicle)规划的一条轨迹,以时间序列形式表示车辆的位置坐标。
表示模型通过处理标记化的文本数据 和图像数据对 生成预测序列 ,然后通过解码生成最终的轨迹

性能评估:使用交叉摘损失函数评估所规划轨迹。大视觉-语言模型 (VLM)的解码文本标记为可读格式,以呈现预测的轨迹。

Experiments

V2X-VLM框架与其他基准方法在轨迹规划性能上的对比结果。具体包括L2误差(单位:米)和传输成本(单位:字节每秒)的评估。虽然UniV2X的传输成本最低(8.09×10^5 BPS),但它的L2误差相对较高。V2X-VLM能够平衡计算成本和精度表现。

可视化的轨迹预测结果
本期结语
V2X-VLM框架成功将大视觉-语言模型引入到协同自动驾驶系统中,通过多模态数据的高效融合,实现了更加精确、安全的轨迹规划。
李小毛理解,本项研究工作主要的创新点就在于数据输入上边!同时输入了车端相机图像以及场景的图像。车端图像能够提供自身的状态,场景图像能够输入大环境的语义信息!
这个研究似乎能够用于物联网交通管理或者AGV自动驾驶小车平台上面,一般的自动驾驶模型大概是拿不到场景图像的。。。
往期回顾
大语言模型&多模态模型在自动驾驶中的应用综述(2)
被连续举报的第五天 | 自动驾驶基础模型的综述
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

Arxiv:https://arxiv.org/abs/2408.09251
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章