被连续举报的第五天 | 自动驾驶基础模型的综述

文摘   2024-08-29 09:53   中国  
Projection:https://arxiv.org/pdf/2402.01105
本期概述
哈喽大家又见面啦!最近还好嘛!
自7月22日以来,[端到端自动驾驶]每天分享一篇原创最新论文精要!有小伙伴觉得奇怪:
运维37天,为啥只有32篇原创内容?
因为近期我们接连收到了多次恶意投诉!致使5篇图文被去除原创标识或者下架严重限流的同时,本账号被限制发表原创内容
通知条数太多了,这里只截取了28日一天的..大家能够在这篇文章相遇,一定是跨越了流量限制的莫大缘分!
由于论文分享文章的特殊性,同一篇论文的分享图文一定会有专有名词,图片,公式等的相似,有时会导致图文重复率比较高的情况~
即便是同一篇论文的分享图文,真的能够具有同样的可读性吗
李小毛想要做这个公众号,就是因为看到好多论文分享,只是将英文翻译成为了中文。这样动辄7、8千字的图文,并没有省去大家的时间和精力,相反,由于翻译过程中信息的丢失,更是加大了阅读的障碍!
出于此,端到端自动驾驶才立志成为一个,能够提供高度凝练,实现完整论文信息传达的自动驾驶垂直领域公众号!我们可以向大家保证:
  • 绝对不在作者没有理解论文的前提下,硬性翻译原文!
  • 绝对不插入任何广告、推流,不会成长为一个流量主账号!
  • 绝对不进行授课,开班等盈利活动!
李小毛自己也不知道[端到端自动驾驶]会被连续举报多久,但是我确实觉得自己在做有趣的事情,自己学习的同时记录下来,仅此而已。
嘻嘻,能被同行注意到,并且得到认可,也是我们的荣幸~
目前,已经有三篇论文被投诉下架剩余的两篇文章已经被取消原创标识,马上也会下架的知识还是留在脑袋里最安全!加紧学习一下这两篇文章吧!
哈工大&杭电 | MVPbev:BEV到透视图的端到端转换框架
GaussianBEV:首次将3D Gaussian引入BEV感知应用
我们进入本期的正文!本期分享一篇自动驾驶基础模型的综述:A Survey for Foundation Models in Autonomous Driving。这篇综述回顾了基础模型(大语言模型、视觉基础模型以及多模态基础模型)在自动驾驶领域的应用。
Overview
基础模型分为三大类:大语言模型(Large Language Models)、视觉基础模型(Vision Foundation Models)和多模态基础模型(Multi-modal Foundation Models)。大语言模型主要应用于规划、轨迹预测、仿真与测试、用户界面与个性化等领域。视觉基础模型则主要用于感知、视频生成与世界建模。多模态基础模型整合来自多模态来进行感知与规划、视觉理解与推理
大语言模型在自动驾驶中的应用方向
(1)推理与规划:通常需要解读环境线索。输入提供详细的文本描述,来呈现驾驶环境,促使LLMs提出驾驶决策或控制命令。通常包括代理的状态(如坐标、速度、过去的轨迹)、车辆状态(如速度、加速度)和地图细节(如交通信号灯、车道信息和预期路线)。
参考文献:
  • 使用大语言模型解释决策行为。GPT-Driver: Learning to Drive with GPT
  • 利用大语言模型来增强自动驾驶决策的可解释性。Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
  • 大语言模型(LLMs)代理评估车道占用情况,并评估潜在行动的安全性。Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles
(2)轨迹预测:预测交通参与者的未来轨迹、意图以及与自动驾驶车辆的潜在互动。利用LLMs能够获得更多细节(例如车辆转向信号和行人手势)。
参考文献:
  • 将场景表示转换为文本提示,并使用BERT模型生成文本编码,最后将其与图像编码融合,以解码轨迹预测。Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving 
(3)用户界面与个性化:LLMs的理解和交互能力使得自动驾驶车辆能够理解用户的自由形式指令,从而更好地控制车辆并满足用户的个性化需求。
参考文献:
  • 根据个性化命令进行规划器调整Exploring the LLM-based planner conditioning on personalized commands
  • 根据预定义的交通规则和系统要求,接受或拒绝用户命令 Human-Centric Autonomous Systems With LLMs for User Command Reasoning
(4)仿真与测试:生成新的内容,进而进行自动驾驶系统的仿真和测试。
参考文献:
  • LLMs可以从国家公路交通安全管理局(NHTSA)的事故报告中提取信息,并生成用于仿真和测试的多样化场景。Adept: A testing platform for simulated autonomous driving
  • 利用GPT采用问答(QA)方法生成数据场景,进一步的仿真和测试 TARGET: Automated Scenario Generation from Traffic Rules for Testing Autonomous Vehicles
  • 使用GPT将交通规则从自然语言翻译成特定领域的语言,生成测试场景Language Conditioned Traffic Generation
大语言模型在自动驾驶中的研究方法
(1)提示工程(即模型调教):采用复杂的输入提示和问题设计来指导大语言模型(LLM)生成所需的答案
参考文献:
  • 通过LLMs覆盖交通规则,提升驾驶决策中的可解释性Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
  • 一个常识模块,用于存储人类驾驶的规则,并创建库和API以与感知、预测和映射系统交互A Language Agent for Autonomous Driving
  • 自上而下的决策系统利用LLMs识别重要代理并做出决策LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving
  • 使用一个内存模块,存储驾驶场景的文本描述,用于少量学习DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models
(2)微调和上下文学习微调通过在较小的特定领域数据集上重新训练模型参数,上下文学习或少量学习利用LLM的知识和推理能力,从输入提示中的给定示例中进行学习。
参考文献:
  • 比较了微调与上下文学习,得出少量学习略微更有效的结论GPT-Driver: Learning to Drive with GPT
  • 比较了从头开始训练和微调方法,发现基于LoRA的微调能够比从头开始训练表现更好Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
(3)强化学习和人类反馈:强化学习通过从人类反馈中学习来训练自动驾驶代理,以提高其决策能力。
参考文献:
  • 提出了反思模块,帮助LLM通过人类反馈改进驾驶推理DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models
  • 通过司机采访数据开发了“教练代理”模块,以指导LLM的类人驾驶风格SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model
  • 利用人类教练的语音指令,构建了用于深度强化学习的自然语言指令分类法Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars
大语言模型在自动驾驶中应用展望
(1)幻觉危害:当模型生成包含虚构、误导性或完全捏造的细节、事实或声明时,无法提供可靠和真实的信息。(应该就是脑补失败)在面对未知场景时,LLM模型可能会生成无效或错误的驾驶决策。
参考文献:
  • 提出了一种减少幻觉的方法,即在没有足够信息进行决策时,模型会回答“我不知道”Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles
  • 关于从人类反馈中进行强化学习的全面调查,重点在于提高自动驾驶中的安全性A Survey of Reinforcement Learning from Human Feedback
(2)时效问题:LLMs经常面临高延迟问题,而生成详细的驾驶决策可能会迅速耗尽车辆有限的计算资源。
参考文献:
  • 新的注意力机制结构,用于生成模型中的快速推理PagedAttention: Fast Attention Mechanism for Efficient Inference in Generative Models
  • GPTQ量化技术,通过压缩模型权重提高LLMs的运行速度GPTQ: Quantization for Large Language Models
  • AWQ量化技术,加速大型语言模型的运行AWQ: An Efficient Quantization Method for Accelerating Large Language Models
  • SqueezeLLM,能够实现2.1到2.3倍的加速SqueezeLLM: Accelerating Large Language Models with Quantization
  • SLidR蒸馏技术,改进LiDAR在检测和分割任务的处理效率SLidR: Distillation Techniques for LiDAR Input in Autonomous Driving
  • 时空蒸馏方法,改进LiDAR输入处理的效率ST-SLiDR: Spatio-Temporal Distillation for LiDAR-based Autonomous Driving Systems
(3)感知依赖问题:上游感知模块数据错误时,容易造成LLMs的失效。
参考文献:
  • 基于知识驱动的大型语言模型在感知数据错误时的应对DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models
(4)模拟环境依赖问题:大部分研究都是在模拟环境中进行的在真实世界中的驾驶情境中,LLM的表现还需要更多的工程和人工注释努力,以确保对所有场景的覆盖。
本期结语

自动驾驶相关的LLM(大型语言模型)研究的论文数量。按环境、功能、基础模型、以及方法和技术进行分类本期的综述确实比较长,我们下期继续分享后面,视觉基础模型和多模态基础模型在自动驾驶方案中的应用!
往期回顾
理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划
理想汽车:UA-Track,3D多目标跟踪(MOT)框架
CVPR 2024 | 理想汽车方案:场景数据检索方法处理长尾问题
ECCV 2024 | 弃用低精地图?EP-BEV:跨视角地图定位方案
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!


温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章