Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶

文摘   2024-08-24 00:02   上海  

Projection:https://github.com/ZionGo6/Co-driver
Arxiv:https://arxiv.org/abs/2405.05885
本期概述
喽大家周五快乐!
不得不说,大语言模型是当前自动驾驶解决方案中最火的研究热点之一。将模型的"想法"通过语言表达出来,可以在一定程度上解决端到端的交互性和解释性!我们同样学习过很多基于大语言模型的端到端自动驾驶研究!
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
强推收藏!使用大语言模型的自动驾驶方案研究综述
CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真
CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 Pipeline详解
CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 模块实现

本期介绍一个辅助驾驶模型:Co-Driver一种根据对道路场景的理解,实现的自动驾驶辅助系统~一起来学习一下吧!Co-Driver的创新点主要有:

  • 视觉语言模型应用:利用了Qwen-VL视觉语言模型,实现对复杂道路场景的深入理解。
  • 行为树格式指令生成:将环境分析结果映射为行为树格式的指令集,指导车辆在不同环境下的驾驶行为
PipeLine

Co-driver的PipeLine。包括两个步骤:视觉语言模型进行环境和指令结果的分析、行为树映射。
(1)视觉语言模型这部分是Co-Driver的核心内容,使用Qwen-VL(通义千问)实现。用于分析车辆前摄像头的视觉输入,得出关于天气、光线、路面、位置等环境信息的结论,以及控制类型(PID\MPC)最大速度、最大刹车、最大油门等控制参数。

视觉语言模型的输出,左侧为环境分析,右侧为策略分析
我们具体来学习Qwen-VL框架!

Qwen-VL:https://arxiv.org/abs/2308.12966
语言模型: Qwen-VL采用大型语言模型作为基础组件。该模型使用来自Qwen- 7b 的预训练权值进行初始化
视觉处理:Qwen-VL采用了Vision Transformer(ViT)架构作为其视觉编码器。使用Openclip的ViT- bigG 预训练的权重进行初始化。在训练和推理过程中,输入图像被调整到特定的分辨率。视觉编码器通过将图像分成14步的小块来处理图像,生成一组图像特征。
位置感知视觉语言适配器: Qwen-VL引入一个压缩图像特征的视觉语言适配器来缓解长图像特征序列带来的效率问题该适配器包括一个随机初始化的单层交叉注意模块。该模块使用一组可训练向量(Embeddings)作为查询q,并使用视觉编码器的图像特征作为交叉注意操作的键k。将二维绝对位置编码纳入交叉注意机制的query-key对中,以减轻压缩过程中可能丢失的位置细节。
(2)行为树映射:将视觉语言模型(VLM)生成的环境分析和控制指令转化为具体的车辆行为。
行为树将VLM生成的控制参数(例如最大速度、最大刹车力度、转向速度、加速度等)组织为一个层次结构。行为树的根节点通常是一个高层次的目标,例如“安全驾驶”或“到达目的地”。从根节点开始,行为树分支成多个子节点,每个子节点代表一个具体的驾驶行为或决策条件。
例如,根节点“安全驾驶”可能分支为“保持速度”、“避开障碍物”和“遵循交通规则”等子节点。这些子节点进一步分解为更具体的操作,例如“加速到指定速度”、“转向避开障碍物”等。
行为输出的执行结果是具体的控制行为,这些行为直接映射为车辆的控制指令,如加速、刹车、转向等

行为树的一些状态机
Experiments

Co-Driver的输入与输出数据

Co-driver在不同天气和光照条件下对车辆速度的调整能力。包括了左上方的浓雾与昏暗光照条件,左下方的雨天与滑溜路面。在浓雾和昏暗条件下,系统选择了较低的速度以确保安全,而非简单地遵循限速标志的指令。


往期回顾
GaussianBEV:首次将3D Gaussian引入BEV感知应用
无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!



端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章