随着大模型技术的发展,越来越多的大模型技术被应用到了自动驾驶中。我们在 这些年我们一起追过的自动驾驶端到端范式!也介绍过了VLM方案目前在自动驾驶中的使用情况,今天我们带来PRCV 自动驾驶挑战赛冠军解决方案。https://arxiv.org/pdf/2411.02999🌐 VLM大模型:自动驾驶的新引擎
在本文中,我们基于InternVL-2.0,这是一个开源的多模态大型语言模型,它能够处理和推理文本、图像和视频数据。这一技术的应用,使得自动驾驶系统能够更全面地理解和响应复杂的驾驶场景。
🔬 多视角图像输入:超越单视角的局限
我们的团队通过技术创新,将多视角图像拼接成单一格式,每个视角图像被调整至896x448像素,最终合成的图像尺寸达到2688x896像素。这一方法不仅提高了数据的维度,还增强了模型对视角间上下文信息的捕捉能力,为自动驾驶系统提供了更丰富的环境感知数据。
欢迎加入自动驾驶实战群
我们采用了 InternVL-2.0,这是一个开创性的开源多模态模型作为我们的基础模型。如图 2 所示,该模型将拼接后的图像分割成多个高分辨率子图像,这些子图像被用作输入。Prompt 的提示词:您是一位自动驾驶人工智能助手。您将接收到一张包含六个周围摄像头视图的图像。布局如下:第一行包含三张图像:前左、前、前右。第二行包含三张图像:后左、后、后右。您的任务是分析这些图像,并根据视觉数据提供见解或采取行动。
为了提高模型检测和识别重要目标的能力,我们在训练过程中进行了数据增强,因为我们发现关键对象的位置对评估指标有很大影响。具体来说,我们在公共自动驾驶数据集上预训练了模型,包括 Nuscenes[CBL20]、OpenLane-V2[WLL24]、Nuscenes-QA[QCZ24]、NuscenesMQA[IYTY24]和 OmniDrive[WYJ24]。从这些数据集中抽取了所有相关的 QA 对,这些目标可以是关键对象或非关键对象。此外,我们从 Nuscenes 和 OpenLane-V2 数据集中提取了目标的 2D 边界框和 2D 中心坐标,以增强模型的定位能力。对于数据量大的 Nuscenes-QA、Nuscenes-MQA 和 OmniDrive 数据集,我们将同一帧中的所有 QA 对压缩成一个 QA 对以加速训练。数据集的整体使用情况见表 1
🏭 预训练与微调:打造高性能模型
在模型训练方面,我们采用了分阶段训练策略。首先,在多个公开的自动驾驶场景数据集上进行预训练,以增强模型对关键目标的检测和识别能力。随后,在DriveLM-nuscenes数据集上进行微调,进一步优化模型对目标位置的精细理解。
📊 损失函数创新:提升预测精度
在微调阶段,我们修改了损失函数,引入了Losstext和Losslocation,分别计算语言损失和位置损失。这种双重损失函数的设计,使得模型在预测关键目标的坐标值时更加精确,从而提高了自动驾驶系统的决策质量。
我们引入了 DriveLM 数据集[源 23]中目标的位置约束,以进一步增强模型对目标位置的精细理解。具体来说,我们采用了损失函数 Lossto 计算语言损失,并从地面实况中提取(X,Y)坐标来计算 LossLocation,整体损失如下(1)。
在这里,“损失”指的是真实标签标记与预测概率标记之间的交叉熵损失。而“损失位置”指的是真实标签与代表关键目标坐标的预测标记之间的交叉熵损失。λ和λ是损失权重系数。在微调过程中,我们仅使用了 DriveLM 数据集。
📈 实验验证:坐标精度的重要性
通过消融研究,我们发现使用原始坐标而不是拼接坐标,可以提高模型的匹配得分。这一发现强调了在坐标转换过程中保持精度的重要性,对于提高自动驾驶系统的决策质量至关重要。
🚀写在后面的话
随着技术的不断进步,VLM大模型有望在自动驾驶领域实现更广泛的应用,包括但不限于车辆的感知、预测、规划和行为决策。我们同样的相信,在这波VLM大模型的加持下,将给自动驾驶领域带来更多的想象力!
彩蛋: 我们有幸运邀请到了来该论文的作者在我们的生成式AI与具身智能的社区做了分享。【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界。
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。