深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

文摘 2024-07-22 09:02 上海

赶超无望？FSD v12还没在国内落地，v13都已经传疯了！FSD v13有何改进？文章结尾有重磅彩蛋！

本期概述

哈喽大家好，作为公认的最强落地端到端自动驾驶算法，Tesla FSD为何能够频频出圈？我们绕开全网都讲烂了的FSD基础信息，聊聊这个截止目前地表最强AD算法究竟是怎样实现的！看在李小毛全网第一手资讯的份上，拜托拜托三连支持哦~

占用网络Pipeline

下面的流程图来自于特斯拉Automotive部门员工的分享。是不是和我们之前分享的UniAD特别相似？其实优秀的解决方案大多也是心有灵犀的。

Tesla FSD采用纯视觉的方案。其占用网络模型整体上分为图像特征提取（Image Featurizers）、空间注意力（Spatial Attention）、时间对齐（Temporal Alignment）、下卷积（Deconvolutions）、表面输出（Surface Outputs）、体素输出（Volume Outputs）、查询输出（Queryable Outputs）

1.图像输入（Image Input）：从多个摄像头获取实时视频流，每个视频流经过校正处理（Rectify），以保证图像的质量和一致性。

2.图像特征提取（Image Featurizers）：RegNets 和 BiFPNs通过特征提取网络对图像进行处理，提取出高层次的图像特征。RegNets 是一系列卷积神经网络，用于提取基本的视觉特征；BiFPNs（双向特征金字塔网络）用于多尺度特征融合，增强特征表示能力。

3.空间注意力（Spatial Attention）：多摄像头查询嵌入（Multicam Query Embedding）利用注意力机制，对来自不同摄像头的特征进行空间上的对齐和整合，生成空间查询（Spatial Query），以捕捉重要的空间信息。

4.时间对齐（Temporal Alignment）：轨迹对齐（Trajectory Alignment）：利用车辆轨迹信息，将过去的特征对齐到当前的坐标系中，生成时间上下文（Temporal Context）。空间帧对齐（Spatial Frame Alignment）：将不同时间点的空间特征对齐，形成连续的时间特征。

5.解卷积（Deconvolutions）：对时间空间特征进行解卷积处理，将特征图恢复到更高分辨率，生成空间-时间特征（Spatiotemporal Features）。

6.表面输出（Surface Outputs）：道路表面几何（Road Surface Geometry）和道路语义（Road Surface Semantics）用于后续的路径规划和决策。

7.体素输出（Volume Outputs）：生成场景的占用信息、占用流动信息和3D语义信息，用于感知可视化和预测。

8.可查询输出（Queryable Outputs）：多层感知机（MLP）根据生成的3D特征，使用多层感知机预测占用概率和3D语义信息。

感知预测Pipeline

这部分的内容和上面有些重复，我们只关注Transformer特征块引入的三个信息即可。

把车道和交运规则引入模型网络确实是值得借鉴的一点。右下角输出的三个信息包括：未来轨迹（Future Trajectory）、网格（Shape Mesh）、行人姿态（Pedestrian Pose）。每个agent占用大于1MB的内存空间

1.自车运动学（Ego's kinematics）提供车辆自身的运动状态信息，包括速度、加速度、方向等。这些信息用于理解车辆的当前动态状态，帮助预测车辆未来的轨迹和位置。

2.候选自车轨迹（Candidate ego trajectories）提供多个可能的车辆未来行驶路径。这些轨迹是基于自车运动学和环境信息生成的，帮助在不同驾驶情景下预测车辆可能的移动路径，为决策和规划提供依据。

3.车道和交通控制（Lanes & Traffic Controls）提供车道信息和交通控制信息（如交通信号、路标等）。这些信息用于理解车辆所处的交通环境，帮助进行路径规划、车道保持和遵循交通规则。

道路级拓扑建图Pipeline

通过多层级的点预测器和拓扑类型预测器，生成关键特征点和道路拓扑类型，并进一步利用分叉点和合并点预测器以及样条系数预测器，精确预测路径。

1.前两层输出（Point Predictor Level 1&2）第一层生成初步的关键特征点，用于描述路径的初始位置和基本形状。第二层在初步特征点的基础上，进一步细化和增强路径的描述，提供更详细的路径信息。

2.拓扑类型输出（Topology Type Predictor）识别和描述道路的拓扑结构（例如分叉、合并等），帮助理解路径的复杂性和结构特点。

3.高级拓扑信息输出（分叉点，合并点，样条系数）：分叉点预测（Fork Point Predictor）用于预测路径中的分叉点位置。合并点预测（Merge Point Predictor）用于预测路径中的合并点位置和方向。样条系数预测（Spline Coefficient Predictor）用于精确描述路径的形状和方向，确保路径预测的平滑性和准确性。

FSD V13?

其实Tesla FSD v13的事情在2024年四月就已经有信息流出，从马斯克的语句中，不难推测特斯拉还在憋着大招... ...

此外，英伟达的研究员Jim Fan似乎透漏新版的FSD引入了自然语言作为中间信息（那么这还算严格意义的端到端嘛小编请问。。）

为了大家省事儿一些，李小毛把信息提炼出来;

1.Tesla FSD v13 和语言标记的使用：Tesla FSD v13 可能会使用语言标记进行推理（grokking language tokens）。通过“思维链”（chain of thought）的语言表达，帮助车辆分解复杂场景、运用规则和反事实进行推理，并解释其决策。

2.Grok-1.5V 的潜力：Grok-1.5V有望解决自动驾驶中的边缘情况（edge cases）。

为啥要引入语言标记？？？李小毛直觉上认为是提高自动驾驶模型的中间信息可视化和可解释性。大家可以在评论区提出自己的观点哦~

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通，点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉