端到端自动驾驶终极态---VLAM范式路测效果来袭!

文摘   2024-12-20 10:27   中国香港  
                                                点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction
当大模型遇到自动驾驶赛道,会碰撞出什么,我们现在已经看到大模型在自动驾驶中或多或少的应用。不经让人想到最终大家所期待的VLAM端到端范式到底会怎么样,能上车吗?具体的路测效果又会怎么样呢?今天我们给大家带来Wayve 的LINGO-2,这是一个将视觉、语言和行动联系起来的驾驶模型,用于解释和确定驾驶行为,为自动驾驶体验开辟了控制和定制的新维度。LINGO-2 是第一个在公共道路上测试的闭环视觉-语言-动作驾驶模型。话不多说,直接来看效果吧!
  • Lingo-2架构: 用于自动驾驶的多模态网络
LINGO-2 由两个模块组成:Wayve 视觉模型和自回归语言模型。视觉模型将连续时间戳的相机图像处理成一系列标记。这些标记和其他
条件变量(例如路线、当前速度和速度限制)被馈送到语言模型中。配备这些输入后,语言模型经过训练以预测驾驶轨迹和评论文本。然后,汽车的控制器执行行驶轨迹。
  • LINGO-2 的新功能

语言模型和驾驶的整合为自动驾驶和人车交互开辟了新的功能,包括:通过语言提示调整驾驶行为:我们可以使用约束导航命令(例如,“靠边”、“右转”等)来提示 LINGO-2 并调整车辆的行为。这有可能帮助模型训练,或者在某些情况下增强人机交互。 实时询问 AI 模型:LINGO-2 可以在驾驶时预测和回答有关场景及其决策的问题。捕获实时驾驶评论:通过将视觉、语言和行动联系起来,LINGO-2 可以利用语言来解释它在做什么以及为什么,从而阐明 AI 的决策过程。

  • 通过语言指令调整驾驶行为
LINGO-2 独特地允许通过自然语言进行驾驶指导。为此,我们交换了文本标记和驾驶操作的顺序,这意味着语言成为驾驶行为的提示。本节演示了模型在神经模拟器中更改其行为以响应语言提示以进行训练的能力。这项新功能开辟了控制和定制的新维度。用户可以向模型提供命令或建议替代操作。这对于训练我们的 AI 特别有价值,并有望增强与高级驾驶辅助系统相关的应用的人机交互。在下面的示例中,我们观察到相同的场景重复出现,LINGO-2 调整其行为以遵循语言指令。

示例 1:导航交汇点

在下面的三个视频中,LINGO-2 在同一个路口导航,但得到的指令不同:“左转,畅通道路”、“右转,畅通道路”和“在让行线处停车”。我们观察到 LINGO-2 可以遵循指示,这反映在十字路口的不同驾驶行为上。
示例 2: 导航提示
在下面的两个视频中,LINGO-2 在公共汽车周围导航。我们可以观察到,LINGO-2 可以按照指示保持并“停在公共汽车后面”或“加速并超车”。

示例 3: 交通信号灯

在此示例中,我们展示了 LINGO-2 行驶穿过一个十字路口。当我们询问模型“交通信号灯是什么颜色”时,它会正确回答“交通信号灯是绿色的”
  • 局限性

LINGO-2 标志着我们在利用自然语言增强 AI 驾驶模型方面取得了重大进展。虽然我们对我们取得的进展感到兴奋,但我们也想描述该模型的当前局限性。驾驶模型的语言解释让我们对模型可能在想什么有深入的了解。然而,还需要做更多的工作来量化解释和决策之间的一致性。未来的工作将量化和加强语言、视觉和驾驶之间的联系,以可靠地调试和解释模型决策。我们希望在现实世界中证明,在 “思维链” 驾驶中添加中间语言推理有助于解决边缘情况和反事实。此外,我们计划调查是否可以在现实世界环境中用语言控制汽车的行为。Ghost Gym 为测试提供了一个安全的越野环境,但需要做更多的工作来确保模型对噪声和命令的误解具有鲁棒性。它应该理解人类指令的上下文,同时绝不违反安全和负责任驾驶行为的适当限制。此功能将更适合帮助完全自动驾驶系统的模型测试和训练。
  • 写在后面的话
VLAM的范式会不会成为端到端自动驾驶范式的终点,我们目前还不知道,但是至少可以看到VLAM的范式目前是能走的通的。当然这个走的通目前还没有彻底体现在产品上面。也许国内的自动驾驶圈的玩家在明年应该会秀出自己的VLAM范式的功能!
资料参考:
https://wayve.ai/thinking/lingo-2-driving-with-language/
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。








知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章