清华等：端到端自动驾驶系统的关键技术与发展趋势

汽车 2024-06-21 10:13 上海

来源:智能驾驶课题组 | 首图图源:网络

全文 3000+ 字，预计阅读 15-20 分钟

导读：随着以ChatGPT为代表的生成式人工智能的发展，端到端自动驾驶系统得到了广泛关注，有望为通用场景的驾驶智能带来革命性突破。以全部模块神经网络化为特征的端到端系统对专家规则的依赖度低，功能的集约性与实时性强，具备智能涌现能力和跨场景应用潜力，是实现数据驱动自进化驾驶能力的重要途径。

近期，来自于清华大学的李升波等学者的论文，讨论了端到端汽车自动驾驶系统的关键技术与发展趋势。论文介绍了生成式人工智能的技术现状，总结了端到端自动驾驶的关键技术，归纳了该类自动驾驶系统的发展现状，并总结了生成式人工智能与自动驾驶融合发展的技术挑战。目前，该论文已在《人工智能》期刊2023年第5期出版，原稿约14000字。此文为缩减版，约2800字，感兴趣的读者可下载原文阅读。

论文地址：

https://aiview.cbpt.cnki.net/WKD/WebPublication/paperDigest.aspx?paperID=60ba64c1-3dee-4986-bed9-f86b98006872

下载链接：
https://kns.cnki.net/kcms/detail/detail.aspx?filename=DKJS202305001&dbname=cjfdtotal&dbcode=CJFD&v=MjMyODFTYkJmYkc0SE5MTXFvOUZaWVI2RGc4L3poWVU3enNPVDNpUXJSY3pGckNVUjdtZVplWnJGeXJsVjd2Skk=

PART.01

生成式人工智能的技术现状

数据、算力和算法是大模型发展的支柱，其中算法是大模型的核心技术体现。现有大模型多以Transformer结构为基础，采用“预训练（Pre-training）+微调（Fine-tune）”技术进行参数学习，使之适配不同领域的具体任务，经剪枝压缩后完成最终部署。本节将围绕网络架构、预训练、微调和剪枝压缩四个方面对大模型关键技术进行介绍。

1.1 神经网络的架构设计

大模型的出现得益于深度学习浪潮中深度神经网络的发展。深层网络的学习建模能力更强，有利于模型的性能提升。

在2017年，Google提出了神经网络结构Transformer（图1），大幅提升了网络表达能力，在CV、NLP等多个领域大放异彩，Transformer现已成为大模型的基础网络结构之一。Transformer是以注意力机制为核心的编解码器结构，其主要结构为注意力、位置编码、残差连接、层归一化模块。Transformer被广泛应用于NLP、CV、RL等领域的大模型中。

1.2 预训练与微调技术

预训练是使大模型获得通用知识并加速模型在微调阶段收敛的关键步骤。根据序列建模的方式，语言模型可以分为自回归语言模型和自编码语言模型（图2）。自回归语言模型使用Transformer的解码器结构，根据前文预测下一个词，从而对序列的联合概率进行单向建模。自编码语言模型则利用Transformer的编码器结构，通过预测序列中的某个词来双向建模序列的联合概率。

微调是指将预训练好的大模型在下游任务中进行调整，使之与具体任务更加适配。微调后的大模型与预训练大模型相比，在下游任务中性能通常大幅提升。随着模型规模不断增大，微调所有参数变得十分困难，因此近年来出现了多种高效微调方法，包括Vanilla Finetune、Prompt Tuning以及Reinforcement Learning from Human Feedback（RLHF）等方法（图3）。

1.3 模型的剪枝与压缩

训练好的大模型需要部署在算力和内存受限的系统上，因此需要对大模型进行剪枝和压缩，减小模型中的冗余结构和信息，使其能在受限的计算资源上进行快速推理，同时尽量减小对模型精度的影响。大模型的压缩方法主要包括模型剪枝、知识蒸馏和量化。

PART.02

端到端自动驾驶的关键技术

人工智能技术与自动驾驶技术的融合，关键在于打通以车云协同为核心的边缘场景数据采集和自动驾驶模型训练的在线循环迭代路径。图4展示了车云协同的自动驾驶大模型开发方案：由一定规模具有网联功能的车辆进行众包数据采集，数据清洗和筛选之后上传至云控计算平台；利用云控平台的充足算力，生成海量仿真驾驶数据；融合虚实数据进行场景构建，利用自监督学习、强化学习、对抗学习等方法对自动驾驶大模型进行在线迭代优化；所学大模型经剪枝压缩后得到车规级实时模型，并通过OTA方式下载到车载芯片，完成车端驾驶策略的自进化学习。

具体研究内容包括：（1）面向自动驾驶的大模型基础理论；（2）自动驾驶感知认知通用基础大模型；（3）自动驾驶决策控制通用基础大模型；（4）自动驾驶大数据采集生成与自动标注；（5）车云协同的基础大模型持续进化；（6）自主可控的车用集成部署工具链与平台。

PART.03

端到端自动驾驶的技术发展趋势

随着大模型技术的不断发展，以ChatGPT为代表的大模型技术展现出令人惊叹的效果。大模型已在多项工业实践中得到初步应用中，有望成为实体经济新的增长引擎。

3.1 感知大模型

自动驾驶的感知模块利用传感器采集的数据，实时动态地生成驾驶环境的感知结果。感知大模型是提升车辆自动驾驶能力的核心驱动力之一，这些模型能识别和理解道路、交通标志、行人、车辆等信息，为自动驾驶车辆提供环境感知，继而用于车辆自主决策。

目前在自动驾驶感知方面已有相关应用，例如百度文心UFO 2.0视觉大模型、华为盘古CV以及商汤的INTERN大模型等。

鸟瞰图感知（Bird's Eye View，BEV）是当前主流感知方案之一，它将摄像头、雷达等多源传感器的感知信息转换至鸟瞰视角，并行地完成目标检测、图像分割、跟踪和预测等多项感知任务，如图5所示。典型工作如特斯拉的BEV感知，百度的UniBEV和商汤的FastBEV。

3.2 预测大模型

预测是自动驾驶的关键组成部分，它主要涉及对周边交通参与者未来运动状态的预测，也称为轨迹预测。轨迹预测综合考虑道路结构、历史轨迹以及与其他交通参与者的交互关系等信息，输出一条或多条未来可能行驶的轨迹，供下游决策控制任务参考。数据驱动型的轨迹预测方法通常采用编码-解码架构，包括信息表示、场景编码和多模态解码等主要环节。代表工作包括谷歌Wayformer、清华SEPT和毫末智行DriveGPT等。

3.3 决控大模型

自主决策与运动控制是自动驾驶的核心功能，决策与控制水平的高低决定了自动驾驶汽车的智能程度。自动驾驶决控系统的技术方案主要经过了三个发展阶段：专家规则型、模仿学习型以及类脑学习型。自动驾驶决策控制大模型的目标是构建以深度学习与强化学习为代表、数据驱动与知识引导相结合的决策控制通用基础模型训练算法，为自动驾驶智能性突破提供解决方案。

目前工业界尚缺乏用于自动驾驶的决策与控制一体化大模型。由清华大学提出的集成式架构（IDC）将决策与控制整合为统一的约束型最优控制问题，利用数据驱动算法求解评价模型与策略模型，它以环境感知结果为输入，直接输出油门、制动、转向等控制指令。IDC 具有在线计算效率高、可解释性强、无需人工标注数据、可自回归地预测下一个动作等优点，为大模型应用于自动驾驶决控奠定了基础。图6为传统专家分层式和集成式决控架构示意图。

3.4 端到端训练的自动驾驶模型

端到端的自动驾驶方案将输入的原始传感器数据直接映射输出为轨迹点或低级控制命令，与分层式架构相比，其具有简洁的方案结构与巨大的性能潜力。端到端方案的工业应用面临着数据短缺、学习效率低下和鲁棒性差等问题，尤其无法保障任何极端情况下模型输出的安全性，这将成为其应用于自动驾驶领域的最大挑战。代表工作有上海人工智能实验室的UniAD和特斯拉FSD Beta V12。

随着算力发展与大模型技术的兴起，端到端的自动驾驶将为行业带来新的突破。针对端到端方案，不断降低其技术门槛、进行可解释性研究、以及提出更多保障端到端自动驾驶安全的算法，将是未来热门的研究方向。

PART.04

总结

以大模型为代表的生成式人工智能是智能网联汽车发展的战略前瞻方向。这需要进一步突破：适用于驾驶大数据的大模型预训练方法和学习理论；泛场景、泛对象、跨模态适用的感知认知和决策控制通用基础模型；仿真环境数据与真实场景数据结合的大规模数据采集与标注系统；车云协同的基础大模型持续进化技术与车用集成部署工具链与平台等。以上技术的攻关将打通以车云协同为核心的驾驶大数据和自动驾驶大模型算法在线循环迭代路径，推动端到端自动驾驶技术在全场景的落地应用。

<- 联系 & 声明 ->

【声明】除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

转发、点赞、在看

，安排一下？

http://mp.weixin.qq.com/s?__biz=Mzg5OTA2MDA0MA==&mid=2247518174&idx=1&sn=49287303bf73ddfb759b28f57aeeaed1

ADS智库

聚焦 ADAS \x26amp; ADS 相关内容，公号发消息『我来了』免费领取 10G+ 自动驾驶资料

最新文章

技术趋势 | 2025年度中国汽车十大技术趋势发布，多项智驾技术入选

主控拆解 | 小米汽车智驾/智能座舱控制器

关于端到端，地平线丢出一关键招数

端到端的另一种声音：听一听 Mobileye CEO 的观点

Kalman Filter For Dummies

倒计时2天｜2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即！

近万字干货 | C-NCAP 2024 ADAS 主动安全导读与分析【建议收藏】

一图看懂｜GB/T 44461 智能网联汽车组合驾驶辅助系统技术要求及试验方法

端到端对传统的自动驾驶算法开发影响有多大？

大盘点 | 自动驾驶中的规划控制概述

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

PlanKD：压缩的端到端自动驾驶运动规划器的第一个知识蒸馏框架（CVPR 2024）

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

24 年 8 月国内自动驾驶领域中标项目一览

自动驾驶三大主流芯片架构分析

端到端自动驾驶的秘密（三）5 家可能支持/潜在支持端到端架构的芯片企业方案介绍

【预告】2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即，报名通道已开启！

端到端自动驾驶的秘密（二）概述

自动驾驶哪些技术必须掌握？

从定点到SOP，汽车零部件开发的关键节点解析

端到端自动驾驶的秘密（一）导读篇

自动驾驶哪些技术必须掌握？

自动驾驶域控制器的来龙去脉（2024版）：L3、大模型、还是舱驾一体？

说人话版 GB_T 34590，看完带你入门功能安全

线上直播注册 | 2024 MathWorks 中国汽车年会

冠军方案详解 | CVPR 2024 全球自动驾驶挑战赛浪潮信息 F-OCC 方案实践

干货 | 详解芯片内部各个电路结构

E-NCAP 2024 高速公路和城际辅助系统-测试评估规则介绍

1.5 万多字 Robotaxi 产业详解

从 ECU 系统视角理解 CAN 通讯需求

智驾激光雷达新趋势

中国科学院大学：通过隐式世界模型增强端到端自动驾驶

干货 | 2 万字综述多模态大型语言模型（MLLM）

2024 年车载摄像头趋势

功能安全实例：LKA，ACC

域控拆解 | 上汽智己 ICC 智算域控制器设计方案

地平线 VADv2：通过概率规划实现矢量化端到端自动驾驶

干货 | 一份相机标定指南

清华等：端到端自动驾驶系统的关键技术与发展趋势

清华 && 地平线 SparseDrive：重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法！

小鹏理想华为等多家公司都推出端到端方案了，后面的岗位都会倾向于这个方向吗？

对端到端的系统架构闭环的思考

30 多家国内车企背后庞大的汽车供应链盘点！建议收藏~

Delphi：更适合端到端模型的 world model，更长更真更可控！（理想汽车&西湖大学）

NOA 智驾背后的关键运作奥秘被这本书讲透了

24 年 5 月国内自动驾驶领域中标项目一览

李想是真懂自动驾驶细节

功能安全入门 | SoC 设计漫谈

智能车『智商测试体检表』

初探自动驾驶 SOC 芯片设计流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉