VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

文摘 2024-11-07 07:05 美国

随着大模型技术的发展，越来越多的大模型技术被应用到了自动驾驶中。我们在这些年我们一起追过的自动驾驶端到端范式！也介绍过了VLM方案目前在自动驾驶中的使用情况，今天我们带来PRCV 自动驾驶挑战赛冠军解决方案。https://arxiv.org/pdf/2411.02999

🌐 VLM大模型：自动驾驶的新引擎

在本文中，我们基于InternVL-2.0，这是一个开源的多模态大型语言模型，它能够处理和推理文本、图像和视频数据。这一技术的应用，使得自动驾驶系统能够更全面地理解和响应复杂的驾驶场景。

🔬 多视角图像输入：超越单视角的局限

我们的团队通过技术创新，将多视角图像拼接成单一格式，每个视角图像被调整至896x448像素，最终合成的图像尺寸达到2688x896像素。这一方法不仅提高了数据的维度，还增强了模型对视角间上下文信息的捕捉能力，为自动驾驶系统提供了更丰富的环境感知数据。

欢迎加入自动驾驶实战群

我们采用了 InternVL-2.0，这是一个开创性的开源多模态模型作为我们的基础模型。如图 2 所示，该模型将拼接后的图像分割成多个高分辨率子图像，这些子图像被用作输入。Prompt 的提示词：您是一位自动驾驶人工智能助手。您将接收到一张包含六个周围摄像头视图的图像。布局如下：第一行包含三张图像：前左、前、前右。第二行包含三张图像：后左、后、后右。您的任务是分析这些图像，并根据视觉数据提供见解或采取行动。

预训练

为了提高模型检测和识别重要目标的能力，我们在训练过程中进行了数据增强，因为我们发现关键对象的位置对评估指标有很大影响。具体来说，我们在公共自动驾驶数据集上预训练了模型，包括 Nuscenes[CBL20]、OpenLane-V2[WLL24]、Nuscenes-QA[QCZ24]、NuscenesMQA[IYTY24]和 OmniDrive[WYJ24]。从这些数据集中抽取了所有相关的 QA 对，这些目标可以是关键对象或非关键对象。此外，我们从 Nuscenes 和 OpenLane-V2 数据集中提取了目标的 2D 边界框和 2D 中心坐标，以增强模型的定位能力。对于数据量大的 Nuscenes-QA、Nuscenes-MQA 和 OmniDrive 数据集，我们将同一帧中的所有 QA 对压缩成一个 QA 对以加速训练。数据集的整体使用情况见表 1

🏭 预训练与微调：打造高性能模型

在模型训练方面，我们采用了分阶段训练策略。首先，在多个公开的自动驾驶场景数据集上进行预训练，以增强模型对关键目标的检测和识别能力。随后，在DriveLM-nuscenes数据集上进行微调，进一步优化模型对目标位置的精细理解。

📊 损失函数创新：提升预测精度

在微调阶段，我们修改了损失函数，引入了Losstext和Losslocation，分别计算语言损失和位置损失。这种双重损失函数的设计，使得模型在预测关键目标的坐标值时更加精确，从而提高了自动驾驶系统的决策质量。

我们引入了 DriveLM 数据集[源 23]中目标的位置约束，以进一步增强模型对目标位置的精细理解。具体来说，我们采用了损失函数 Lossto 计算语言损失，并从地面实况中提取(X,Y)坐标来计算 LossLocation，整体损失如下（1）。

在这里，“损失”指的是真实标签标记与预测概率标记之间的交叉熵损失。而“损失位置”指的是真实标签与代表关键目标坐标的预测标记之间的交叉熵损失。λ和λ是损失权重系数。在微调过程中，我们仅使用了 DriveLM 数据集。

📈 实验验证：坐标精度的重要性

通过消融研究，我们发现使用原始坐标而不是拼接坐标，可以提高模型的匹配得分。这一发现强调了在坐标转换过程中保持精度的重要性，对于提高自动驾驶系统的决策质量至关重要。

🚀写在后面的话

随着技术的不断进步，VLM大模型有望在自动驾驶领域实现更广泛的应用，包括但不限于车辆的感知、预测、规划和行为决策。我们同样的相信，在这波VLM大模型的加持下，将给自动驾驶领域带来更多的想象力！

彩蛋: 我们有幸运邀请到了来该论文的作者在我们的生成式AI与具身智能的社区做了分享。【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界。

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

http://mp.weixin.qq.com/s?__biz=Mzg2Mzg5MzI5NA==&mid=2247487238&idx=2&sn=86a36e140e6abb890fcab2405e3759a2

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

最新文章

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

一种transformer稀疏神经网络的硬件加速器算法

基于BLIP-2 融合视觉信息与轨迹规划信息进行空间融合，用于自动驾驶的多模态大语言模型的轨迹规划

从特斯拉看智能驾驶未来发展

理想汽车最新成果：基于MLLM的闭环规划智能体PlanAgent

大模型推理分离架构五虎上将

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

Thermal3D-GS：热红外新视点合成的物理诱导三维高斯(ECCV2024)

清华大学提出基于ESKF的松耦合里程计RINO：一种具有非迭代估计的精确、稳健的雷达惯性里程计

智驾无图真的可以实现吗？

纯卷积框架实现最快每秒30hz的ALOcc: 基于自适应升降的 3D 语义占据与成本体积流预测

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

PointLLM：使大型语言模型能够理解点云

智驾行业正在面临哪些变化？

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

ACCV'24 | MoD：轻量化、高效、强大的新型卷积结构

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

全面带你了解端到端大模型的底层逻辑（一）

自动驾驶中一直说的BEV+Transformer到底是个啥？

轨迹规划中优化预测：学习多个初始解的优化器

PCA中方差的效用

西安交通大学提出少锚点的端到端车道线检测算法Polar R-CNN

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

GET-UP：雷达-相机深度估计的几何感知与点云上采样框架

黑芝麻智能在智驾芯片领域发展如何了？

GaussianObject：仅需四张图片就能拥有高质量3D高斯重建（上交&华为）

GGS：提升自动驾驶车道变换逼真度的新型渲染技术

RT-DETR改进策略：BackBone改进|EfficientFormerV2在RT-DETR中的创新应用，精度与效率完美平衡

从原理到应用教你了解毫米波雷达

三维高斯泼溅:综述，技术，挑战和机遇

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

规划误差降低27%，碰撞率降低33%Senna: 大规模视觉-语言模型与端到端自动驾驶相结合

XFeat:加速轻量级图像匹配(CVPR2024)

激光雷达与纯视觉方案，哪个才是自动驾驶最优选？

决策树也是一种矩阵乘法？

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

The State of vLLM 2024

METDrive 多模态时控端到端自动驾驶！

端到端让智驾强者愈强时代来临？

中国科学院提出无需重建便能合成视图FREEVS：自由驾驶轨迹上的生成式视图合成

香港大学提出|UniMODE:统一单目3D物体检测

清华大学提出解决复杂场景运动规划新基准Bench4Merge：在真实密集交通中用于微互动车辆并道的运动规划

LLM学习：大模型微调＆蒸馏＆裁剪

高阶智驾平权时代，BEV+Transformer架构或成必杀技？

端到端让智驾强者愈强时代来临？

不到4B的多模态大语言模型Mini-InternVL：能快速迁移到自动驾驶的口袋多模态模型

什么时候Mahalanobis距离比欧式距离更合适？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉