端到端自动驾驶终极态---VLAM范式路测效果来袭！

文摘 2024-12-20 10:27 中国香港

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

当大模型遇到自动驾驶赛道，会碰撞出什么，我们现在已经看到大模型在自动驾驶中或多或少的应用。不经让人想到最终大家所期待的VLAM端到端范式到底会怎么样，能上车吗？具体的路测效果又会怎么样呢？今天我们给大家带来Wayve 的LINGO-2，这是一个将视觉、语言和行动联系起来的驾驶模型，用于解释和确定驾驶行为，为自动驾驶体验开辟了控制和定制的新维度。LINGO-2 是第一个在公共道路上测试的闭环视觉-语言-动作驾驶模型。话不多说，直接来看效果吧！

Lingo-2架构: 用于自动驾驶的多模态网络

LINGO-2 由两个模块组成：Wayve 视觉模型和自回归语言模型。视觉模型将连续时间戳的相机图像处理成一系列标记。这些标记和其他

条件变量（例如路线、当前速度和速度限制）被馈送到语言模型中。配备这些输入后，语言模型经过训练以预测驾驶轨迹和评论文本。然后，汽车的控制器执行行驶轨迹。

LINGO-2 的新功能

语言模型和驾驶的整合为自动驾驶和人车交互开辟了新的功能，包括：通过语言提示调整驾驶行为：我们可以使用约束导航命令（例如，“靠边”、“右转”等）来提示 LINGO-2 并调整车辆的行为。这有可能帮助模型训练，或者在某些情况下增强人机交互。实时询问 AI 模型：LINGO-2 可以在驾驶时预测和回答有关场景及其决策的问题。捕获实时驾驶评论：通过将视觉、语言和行动联系起来，LINGO-2 可以利用语言来解释它在做什么以及为什么，从而阐明 AI 的决策过程。

通过语言指令调整驾驶行为

LINGO-2 独特地允许通过自然语言进行驾驶指导。为此，我们交换了文本标记和驾驶操作的顺序，这意味着语言成为驾驶行为的提示。本节演示了模型在神经模拟器中更改其行为以响应语言提示以进行训练的能力。这项新功能开辟了控制和定制的新维度。用户可以向模型提供命令或建议替代操作。这对于训练我们的 AI 特别有价值，并有望增强与高级驾驶辅助系统相关的应用的人机交互。在下面的示例中，我们观察到相同的场景重复出现，LINGO-2 调整其行为以遵循语言指令。

示例 1：导航交汇点

在下面的三个视频中，LINGO-2 在同一个路口导航，但得到的指令不同：“左转，畅通道路”、“右转，畅通道路”和“在让行线处停车”。我们观察到 LINGO-2 可以遵循指示，这反映在十字路口的不同驾驶行为上。

示例 2: 导航提示

在下面的两个视频中，LINGO-2 在公共汽车周围导航。我们可以观察到，LINGO-2 可以按照指示保持并“停在公共汽车后面”或“加速并超车”。

示例 3: 交通信号灯

在此示例中，我们展示了 LINGO-2 行驶穿过一个十字路口。当我们询问模型“交通信号灯是什么颜色”时，它会正确回答“交通信号灯是绿色的”

局限性

LINGO-2 标志着我们在利用自然语言增强 AI 驾驶模型方面取得了重大进展。虽然我们对我们取得的进展感到兴奋，但我们也想描述该模型的当前局限性。驾驶模型的语言解释让我们对模型可能在想什么有深入的了解。然而，还需要做更多的工作来量化解释和决策之间的一致性。未来的工作将量化和加强语言、视觉和驾驶之间的联系，以可靠地调试和解释模型决策。我们希望在现实世界中证明，在 “思维链” 驾驶中添加中间语言推理有助于解决边缘情况和反事实。此外，我们计划调查是否可以在现实世界环境中用语言控制汽车的行为。Ghost Gym 为测试提供了一个安全的越野环境，但需要做更多的工作来确保模型对噪声和命令的误解具有鲁棒性。它应该理解人类指令的上下文，同时绝不违反安全和负责任驾驶行为的适当限制。此功能将更适合帮助完全自动驾驶系统的模型测试和训练。

写在后面的话

VLAM的范式会不会成为端到端自动驾驶范式的终点，我们目前还不知道，但是至少可以看到VLAM的范式目前是能走的通的。当然这个走的通目前还没有彻底体现在产品上面。也许国内的自动驾驶圈的玩家在明年应该会秀出自己的VLAM范式的功能！

资料参考:

https://wayve.ai/thinking/lingo-2-driving-with-language/

知识星球，新人优惠券来袭，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

大模型月度回顾 · 2024年12月

Robo周报：比亚迪、理想、广汽等推进机器人研发/ 传禾赛裁员数百人/英伟达将推全新机器人芯片...

3D视觉理解GPT4Scene：通过视觉-语言模型从视频中理解3D场景

北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

腾讯微信团队 & 上交通 & 南大揭秘模型汤，构建与优化，视觉-语言模型的强基准与有效改进策略研究！

端到端智驾半壁江山都来了！2025首场自动驾驶峰会全部嘉宾揭晓，还将拆解世界模型与VLM

博世XC中国高管离职，增加自研力量

CVPR & AAAI | AI创新的交汇点：扩散模型与卷积网络的碰撞效应

VisionPAD:一种以视觉为中心的自动驾驶预训练范式！

告别2024，迎来2025，你准备好了吗！

北大/加州大学提出 OpenAD: 3D物体检测的开放世界自主驾驶基准！

如何高效的将智驾AI大模型软件模块部署到SOC芯片上？

锚定智能汽车赛道，企业如何“破卷”？来ICV CHINA 2025上海智能汽车科技展，抢占市场先机

HSl-Drive v2.0: 更多数据用于自动驾驶场景理解的新挑战 !

AAAI'25 | EGSRAL：3DGS渲染器如何生成带有自动标注的全新视角图像？

具身智能干货最多的社区推荐---入门必看！

「少数派」小马智行：不神化端到端，也不吹商业化

面试题: 大模型中的tokenize方法有哪些？

Robo Weekly：小米汽车接入VLM、Waymo将入日本测试，小鹏公布机器人专利...

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！

自动驾驶与具身智能依然在不断崛起！

面试题：计算softmax为什么要除以根号d?

自动驾驶与具身智能依然在不断崛起！

和量产相关的自动驾驶论文不得不看！

transformer手绘图解（注意力机制的本质）

DriveGPT实现Waymo最佳预测: 扩展自回归行为模型在自动驾驶中规划与预测

NeurIPS & CVPR | 从像素到路径：扩散模型引领自动驾驶新风向

弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

有关对汽车行业想法的记录

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

NeurIPS与AAAI焦点：扩散模型与文本生成的强强联手

12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X：7B具身多模态动作模型

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

腾讯混元3D-1.0:文本到3D和图像到3D的统一框架！

端到端自动驾驶终极态---VLAM范式路测效果来袭！

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能！

面试题: Transformer中为什么要用多个头？

李沐：大模型发展趋势与个人职业选择

无人驾驶公司AutoX新战略

专家对话摘要：「一段式端到端」还不现实

一个智驾行业从业者的思考

某主机厂智驾自研的波澜

论文速览 | Diffusion Forcing：给视频扩散模型的每一帧添加不同强度的噪声

LLM，一艘方向不对但积重难返的华丽游轮...

长城汽车如何应对端到端的下限问题？

用于自动驾驶最优间距选择和速度规划的多配置二次规划（MPQP）

自动驾驶之心举办了一个自动驾驶论坛，邀请各位大佬现场聊聊

Bosch 研究院提出 MTA: 用于BEV感知和描述的多模式任务对齐！

一文读懂：从RAG到多模态RAG

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

端到端自动驾驶终极态---VLAM范式路测效果来袭！

LINGO-2 的新功能

示例 1：导航交汇点

示例 3: 交通信号灯

局限性