最新研究 | V2X-VLM：E2E协同自动驾驶框架

文摘 2024-09-01 20:47 上海

原文链接在文章末尾哦！

本期概述

哈喽大家周末开心~

最近我们学习的大多是自动驾驶的子任务研究，类似于轨迹预测，视频数据生成等

本期分享一个刚开源15天的文章：V2X-VLM。端到端（E2E）车辆基础设施协同自动驾驶（VICAD）框架。通过融合车辆和基础设施传感器的数据，以及文本信息，来改进复杂和动态驾驶场景下的轨迹规划，进而实现端到端自动驾驶！本文的研究创新点包括：

V2X-VLM框架的提出：首个使用大型视觉-语言模型的E2E协同自动驾驶框架。通过V2X（Vehicle-to-Everything）通信系统协同车辆与基础设施。
统一的数据融合范式：V2X-VLM将车辆和基础设施的视觉场景与文本信息结合并嵌入到统一的多模态数据。

PipeLine

V2X-VLM框架的工作流程，一个基于大型视觉-语言模型（VLM）的端到端（E2E）车辆基础设施协同自动驾驶（VICAD）框架。包含四个部分：输入数据，场景理解，信息融合与处理以及规划轨迹。输入数据包含有车辆视角图像，基础设施视角图像以及文本嵌入。场景理解主要从车辆视角和基础设施视角提取关键信息。信息融合与处理模块将不同模态的信息融合到一个共同的潜在空间（latent space）中进行综合分析。

（1）视觉-语言模型（VLM）：VLM在本研究中的应用，包括三部分：

理解车辆视角信息：识别重要的环境元素，如附近车辆的类型、道路标志、交通信号、天气条件、时间、道路环境，以及车辆所在位置。
理解基础设施视角：理解更广泛的交通模式、行人流动和整体的交通密度。有助于预判交通拥堵，理解交通信号的协调，以及监控从车辆视角盲区。
双重能力验证：车辆视角和基础设施视角能够互相验证。

这个是对场景理解的输出，上边是输入的图像信息，中间是简要描述，下面是详细描述。（这部分几乎是没什么工作量的，我们用GPT同样可以实现，这部分论文的重点在验证其有效性）

（2）多模态处理范式：这里介绍了多模态信息的融合方法，简单来说，这篇文章的多模态融合方法就是同时输入图片和文字，不进行多阶段特征提取或分层融合。

作者认为这个简单的融合好处有两点：减少计算冗余以及适应性强（李小毛觉得这部分已经没必要深究了。。简单的模块当然方便计算）

（3）规划结果：将token解码来获得预测轨迹，这部分有两个点：

最终输出：V2X-VLM框架的最终输出是为自主驾驶车辆（Ego Vehicle）规划的一条轨迹，以时间序列形式表示车辆的位置坐标。

表示模型通过处理标记化的文本数据和图像数据对生成预测序列，然后通过解码生成最终的轨迹。

性能评估：使用交叉摘损失函数评估所规划轨迹。大视觉-语言模型（VLM）的解码文本标记为可读格式，以呈现预测的轨迹。

Experiments

V2X-VLM框架与其他基准方法在轨迹规划性能上的对比结果。具体包括L2误差（单位：米）和传输成本（单位：字节每秒）的评估。虽然UniV2X的传输成本最低（8.09×10^5 BPS），但它的L2误差相对较高。V2X-VLM能够平衡计算成本和精度表现。

可视化的轨迹预测结果

本期结语

V2X-VLM框架成功将大视觉-语言模型引入到协同自动驾驶系统中，通过多模态数据的高效融合，实现了更加精确、安全的轨迹规划。

李小毛理解，本项研究工作主要的创新点就在于数据输入上边！同时输入了车端相机图像以及场景的图像。车端图像能够提供自身的状态，场景图像能够输入大环境的语义信息！

这个研究似乎能够用于物联网交通管理或者AGV自动驾驶小车平台上面，一般的自动驾驶模型大概是拿不到场景图像的。。。

往期回顾

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

Arxiv：https://arxiv.org/abs/2408.09251

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

最新研究 | V2X-VLM​：E2E协同自动驾驶框架

最新研究 | V2X-VLM：E2E协同自动驾驶框架