VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

文摘   2024-11-07 07:05   美国  
随着大模型技术的发展,越来越多的大模型技术被应用到了自动驾驶中。我们在 这些年我们一起追过的自动驾驶端到端范式!也介绍过了VLM方案目前在自动驾驶中的使用情况,今天我们带来PRCV 自动驾驶挑战赛冠军解决方案。https://arxiv.org/pdf/2411.02999

🌐 VLM大模型:自动驾驶的新引擎

在本文中,我们基于InternVL-2.0,这是一个开源的多模态大型语言模型,它能够处理和推理文本、图像和视频数据。这一技术的应用,使得自动驾驶系统能够更全面地理解和响应复杂的驾驶场景。

🔬 多视角图像输入:超越单视角的局限

我们的团队通过技术创新,将多视角图像拼接成单一格式,每个视角图像被调整至896x448像素,最终合成的图像尺寸达到2688x896像素。这一方法不仅提高了数据的维度,还增强了模型对视角间上下文信息的捕捉能力,为自动驾驶系统提供了更丰富的环境感知数据。

 欢迎加入自动驾驶实战群

我们采用了 InternVL-2.0,这是一个开创性的开源多模态模型作为我们的基础模型。如图 2 所示,该模型将拼接后的图像分割成多个高分辨率子图像,这些子图像被用作输入。Prompt 的提示词您是一位自动驾驶人工智能助手。您将接收到一张包含六个周围摄像头视图的图像。布局如下:第一行包含三张图像:前左、前、前右。第二行包含三张图像:后左、后、后右。您的任务是分析这些图像,并根据视觉数据提供见解或采取行动。

  • 预训练

为了提高模型检测和识别重要目标的能力,我们在训练过程中进行了数据增强,因为我们发现关键对象的位置对评估指标有很大影响。具体来说,我们在公共自动驾驶数据集上预训练了模型,包括 Nuscenes[CBL20]、OpenLane-V2[WLL24]、Nuscenes-QA[QCZ24]、NuscenesMQA[IYTY24]和 OmniDrive[WYJ24]。从这些数据集中抽取了所有相关的 QA 对,这些目标可以是关键对象或非关键对象。此外,我们从 Nuscenes 和 OpenLane-V2 数据集中提取了目标的 2D 边界框和 2D 中心坐标,以增强模型的定位能力。对于数据量大的 Nuscenes-QA、Nuscenes-MQA 和 OmniDrive 数据集,我们将同一帧中的所有 QA 对压缩成一个 QA 对以加速训练。数据集的整体使用情况见表 1

🏭 预训练与微调:打造高性能模型

在模型训练方面,我们采用了分阶段训练策略。首先,在多个公开的自动驾驶场景数据集上进行预训练,以增强模型对关键目标的检测和识别能力。随后,在DriveLM-nuscenes数据集上进行微调,进一步优化模型对目标位置的精细理解。

📊 损失函数创新:提升预测精度

在微调阶段,我们修改了损失函数,引入了Losstext和Losslocation,分别计算语言损失和位置损失。这种双重损失函数的设计,使得模型在预测关键目标的坐标值时更加精确,从而提高了自动驾驶系统的决策质量。

我们引入了 DriveLM 数据集[源 23]中目标的位置约束,以进一步增强模型对目标位置的精细理解。具体来说,我们采用了损失函数 Lossto 计算语言损失,并从地面实况中提取(X,Y)坐标来计算 LossLocation,整体损失如下(1)。

在这里,“损失”指的是真实标签标记与预测概率标记之间的交叉熵损失。而“损失位置”指的是真实标签与代表关键目标坐标的预测标记之间的交叉熵损失。λ和λ是损失权重系数。在微调过程中,我们仅使用了 DriveLM 数据集。

📈 实验验证:坐标精度的重要性

通过消融研究,我们发现使用原始坐标而不是拼接坐标,可以提高模型的匹配得分。这一发现强调了在坐标转换过程中保持精度的重要性,对于提高自动驾驶系统的决策质量至关重要。

🚀写在后面的话 

随着技术的不断进步,VLM大模型有望在自动驾驶领域实现更广泛的应用,包括但不限于车辆的感知、预测、规划和行为决策。我们同样的相信,在这波VLM大模型的加持下,将给自动驾驶领域带来更多的想象力!

彩蛋: 我们有幸运邀请到了来该论文的作者在我们的生成式AI与具身智能的社区做了分享。【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。



Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章