下一代“多模态大模型+端到端”架构Senna：开创智驾决策规划全新范式

科技 2024-11-19 19:45 上海

本文来源智猩猩Auto，来自地平线投稿，作者为蒋博。

端到端自动驾驶在大规模驾驶数据上训练，展现出很强的决策规划能力，但是面对复杂罕见的驾驶场景依然存在局限性，这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(LargeVision-LanguageModels,LVLM)，例如GPT-40，已经展现出极强的视觉理解能力和分析能力，可以很好的与端到端模型互为补充，充当驾驶决策的“大脑”。

基于这个思路，我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统 Senna，针对端到端模型鲁棒性差,泛化性弱问题，行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式，打造“大模型+端到端”的下一代架构，实现安全,高效:拟人的智能驾驶。经多个数据集上的大量实验证明Senna 具有业界最优的多模态+端到端规划性能，展现出强大的跨场景泛化性和可迁移能力。

项目主页：https://github.com/hustvl/Senna

论文链接：https://arxiv.org/abs/2410.22313

概述

端到端自动驾驶在大规模驾驶数据上训练，展现出很强的决策规划能力，但是面对复杂罕见的驾驶场景，依然存在局限性，这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型（Large Vision-Language Models，LVLM），例如GPT-4O，已经展现出极强的视觉理解能力和分析能力，可以很好的与端到端模型互为补充，充当驾驶决策的“大脑”。基于这个思路，我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统Senna，针对端到端模型鲁棒性差，泛化性弱问题，行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式，打造“大模型+端到端”的下一代架构，实现安全，高效，拟人的智能驾驶。经多个数据集上的大量实验证明，Senna具有业界最优的多模态+端到端规划性能，展现出强大的跨场景泛化性和可迁移能力。

Senna解决的研究问题

此前基于大模型的自动驾驶方案，往往将大模型直接作为端到端模型，即直接用大模型预测规划轨迹或者控制信号，但是大模型并不擅长预测精准的数值，因此这种方案并不一定是最优解。此前神经学的研究表明，人脑在做细致决策时，层次化的高维决策模块和低维执行模块组成的系统起到了关键的作用。例如，当想要左转的驾驶员看到红绿灯由红变绿，大脑中首先会思考，现在红绿灯变绿了，因此我可以加速启动通过路口。然后再通过“打转向灯”，“踩油门”等一系列动作完成通过路口这个目标。基于上述观察，Senna主要尝试探索和解决三个问题：

（1）如何有效地结合多模态大模型和端到端自动驾驶模型？

Senna采用解耦的行为决策-轨迹规划思路，多模态大模型在大规模驾驶数据上微调，以提升其对驾驶场景的理解能力，并采用自然语言输出高维决策指令，然后端到端模型基于大模型提供的决策指令，生成具体的规划轨迹。一方面，使用大模型预测语言化的决策指令，可以最大利用其在语言任务上预训练的知识和常识，生成合理的决策，并且避免预测精确数字效果欠佳的缺陷；另一方面，端到端模型更擅长精确的轨迹预测，将高维决策的任务解耦，可以降低端到端模型学习的难度，提升其轨迹规划的精确度。

（2）如何设计一个面向驾驶任务的多模态大模型？

驾驶依赖于准确的空间感知，目前常见的多模态大模型没有针对多图输入进行专门优化，此前针对驾驶任务的大模型或者仅支持前视输入，缺乏完整的空间感知，存在安全隐患；或者支持多图输入，但是并没有进行细致的设计，或针对其有效性进行验证。

为了解决这些问题，我们提出了Senna，Senna包含两个模块，一个驾驶多模态大模型 (Senna-VLM) 和一个端到端模型(Senna-E2E)，相比于通用的多模态大模型，Senna-VLM针对驾驶任务做出如下设计：首先，针对驾驶的大模型需要支持多图从而可以输入环视和多帧的信息，这对于准确的驾驶场景理解和安全非常重要。最初，我们尝试简单基于LLaVA-1.5模型加入环视多图输入，但是效果并不符合预期。在LLaVA中，一张图像需要占用576个token，6张图则需要占用3456个token，这几乎要接近最大输入长度，导致图像信息占用的token数量过多。因此Senna-VLM对图像编码器输出的图像token做进一步特征压缩，并设计了针对环视多图的prompt，使得Senna可以区分不同视角的图像特征并建立空间理解能力。

（3）如何有效地训练面向驾驶任务的多模态大模型？

在有了适合驾驶任务的模型设计后，有效地训练LVLM是最后一步。这部分包括两方面的内容，数据和训练策略。在数据方面，此前工作提出了一些策略，但是很多并不是针对规划服务，例如检测和grouding。另外，很多数据依赖于人工标注，这限制了数据的大规模生产。在本文中，我们首次验证了不同类型的问答数据在驾驶规划中的重要性。具体来说，我们引入了一系列面向规划的问答数据，旨在增强Senna对驾驶场景中与规划相关的线索的理解，最终实现更准确的规划。这些问答数据包括驾驶场景描述、交通参与者的运动意图预测、交通信号检测、高维决策规划等。我们的数据策略可以完全通过自动化流程实现大规模生产。至于训练策略，大多数现有方法采用通用数据预训练，然后针对驾驶任务微调。然而，我们的实验结果表明，这可能不是最佳选择。我们为 Senna-VLM 提出了一种三阶段训练策略，包括混合数据预训练、驾驶通用微调和驾驶决策微调。实验结果表明，我们提出的三阶段训练策略可以实现最佳的规划性能。

Senna的关键创新

在模型层面，Senna提出层次化的规划策略，可以充分利用大模型的常识知识和逻辑推理能力，生成准确的决策指令，并通过端到端模型生成具体的轨迹。另外，Senna设计了针对环视和多图的策略，通过图像token压缩和精心设计的环视prompt，有效提高了多模态大模型对驾驶场景的理解。
在数据方面，我们设计了多种可以大规模自动标注的面向规划的驾驶问答数据，包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些问答数据对于Senna生成准确的决策起到了关键作用。
在训练层面，我们提出三阶段的大模型训练策略，不仅提升了Senna在驾驶场景的表现，且有效保留了其常识知识而不至于出现模式坍塌的问题。

Senna的实验及应用效果

基于多个数据集上的大量实验表明Senna 实现了state-of-the-art的规划性能。实验结果的亮点在于，通过使用在大规模数据集上预训练的权重并进行微调，Senna 实现了显著的性能提升，与没有预训练的模型相比，平均规划误差大幅降低了27.12% ，碰撞率降低了33.33%，这些结果验证了 Senna 提出的结构化的决策规划策略、模型结构设计和训练策略的有效性。Senna强大的跨场景泛化性和可迁移能力，展现出成为下一代通用智驾大模型的潜力。

未来探索方向

Senna初步探索并验证了基于语言化的决策将大模型和端到端模型结合的可行性。下一步，我们将利用更精细的语言决策，并基于决策信息以可控的方式实现个性化的轨迹规划，并在可解释性、闭环验证等方面进一步探索优化。相信Senna将会激发行业在该领域的进一步研究和突破。

参考文献：

[1] Xu Z, Zhang Y, Xie E, et al. Drivegpt4: Interpretable end-to-end autonomous driving via large language model[J]. IEEE Robotics and Automation Letters, 2024.

[2] Tian X, Gu J, Li B, et al. Drivevlm: The convergence of autonomous driving and large vision-language models[J]. arXiv preprint arXiv:2402.12289, 2024.

[3] Koechlin E, Ody C, Kouneiher F. The architecture of cognitive control in the human prefrontal cortex[J]. Science, 2003, 302(5648): 1181-1185.

[4] Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processing systems, 2024, 36.

[5] Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]//CVPR. 2020: 11621-11631.

焉知汽车

科技 · 创新

最新文章

启航 | 第五届焉知汽车年会暨知鼎奖颁奖盛典正式启动

驾驶行为谱系及反常驾驶行为建模

2024年即将过去，再不了解智驾端到端就要落后了

详解汽车软件集成与分支管理

自动驾驶汽车控制器快速原型（Rapid Prototyping）解决方案 — 昆易智驾场景数据采集工作站 ADS 4000

一文了解车载音频A2B通信

2025智能座舱发展趋势

汽车电子出海必须知道的四大国际协会认证

科普 | 车载以太网和家用以太网有什么区别？

智驾与底盘争抢的车身控制，你真的了解吗？

直播预告 | 车路协同趋势下的V2X室内和室外测试方案

ECU的车规级试验：DV试验（一：标准概述）

YU7上市定了！小米汽车重磅官宣

OBD检测新政来袭：你的车年检合格吗？

改名“方舟汽车”？哪吒汽车回应

万字综述汽车信息安全框架

蔚来、小鹏、岚图汽车最新EEA梳理

地瓜机器人 | AI基础设施助力具身智能机器人端到端发展

国产汽车MCU上车，还有多少时间窗口？

整合！极氪领克新公司定名

想了解AI大模型？你就不得不了解一下并行运算的始末

汽车操作系统了解一下？

车载以太网与传统总线技术的集成与优化

彻底疯狂！最新榜单出炉

面向舒适性的分布式驱动线控底盘协同控制

基础模型在推进自动驾驶汽车中的前瞻性作用

特斯拉Model 3胎压监测系统安全漏洞解析

万字综述：汽车智能座舱分级与综合评价白皮书

吸顶屏引领潮流，后排娱乐系统成智能汽车创新焦点

CANoe CAN采样点测试方法及误差分析

Waymo玩明白了！提出端到端自动驾驶多模态模型EMMA：规划、感知、静态元素一网打尽~

谈谈数据采集的合规性

零部件巨头全球将裁员5500人！

面向2030的智能底盘技术体系与指标体系重构

ECU UDS升级刷写过程具体步骤

小米SU7制动系统“DPB+ESP” ：某种程度上的“鱼与熊掌兼得”

光纤线束在汽车中的应用

汽车SOA架构应用的现状、难点、价值

科普 | 车载以太网与5G技术的融合应用

万字深度：芯片自研（雪岭系列）

ENCAP2026对智能限速辅助ISA的要求

科普 | 车载以太网在智能座舱中的应用与优化

下一代“多模态大模型+端到端”架构Senna：开创智驾决策规划全新范式

2025年度中国汽车十大技术趋势

典型L3自动驾驶系统方案概念设计

什么是汽车麋鹿测试？

一文整理CAN协议相关的ISO标准

基础模型在推进自动驾驶汽车中的前瞻性作用

拆解大众汽车的发动机ECU：内部包含多颗神秘芯片

万言盘点：SAECCE 2024超30家智车解决方案企业

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉