深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!

文摘   2024-07-22 09:02   上海  

赶超无望?FSD v12还没在国内落地,v13都已经传疯了!FSD v13有何改进?文章结尾有重磅彩蛋!

本期概述

喽大家好,作为公认的最强落地端到端自动驾驶算法,Tesla FSD为何能够频频出圈?我们绕开全网都讲烂了的FSD基础信息,聊聊这个截止目前地表最强AD算法究竟是怎样实现的!看在李小毛全网第一手资讯的份上拜托拜托三连支持哦~

占用网络Pipeline

下面的流程图来自于特斯拉Automotive部门员工的分享。是不是和我们之前分享的UniAD特别相似?其实优秀的解决方案大多也是心有灵犀的。

Tesla FSD采用纯视觉的方案。其占用网络模型整体上分为图像特征提取(Image Featurizers)、空间注意力(Spatial Attention)、时间对齐(Temporal Alignment)、下卷积(Deconvolutions)、表面输出(Surface Outputs)、体素输出(Volume Outputs)、查询输出(Queryable Outputs)

1.图像输入(Image Input):从多个摄像头获取实时视频流,每个视频流经过校正处理(Rectify),以保证图像的质量和一致性。

2.图像特征提取(Image Featurizers):RegNets BiFPNs通过特征提取网络对图像进行处理,提取出高层次的图像特征。RegNets 是一系列卷积神经网络,用于提取基本的视觉特征;BiFPNs(双向特征金字塔网络)用于多尺度特征融合,增强特征表示能力。
3.空间注意力(Spatial Attention):多摄像头查询嵌入(Multicam Query Embedding)利用注意力机制,对来自不同摄像头的特征进行空间上的对齐和整合,生成空间查询(Spatial Query),以捕捉重要的空间信息。
4.时间对齐(Temporal Alignment):轨迹对齐(Trajectory Alignment):利用车辆轨迹信息,将过去的特征对齐到当前的坐标系中,生成时间上下文(Temporal Context)。空间帧对齐(Spatial Frame Alignment):将不同时间点的空间特征对齐,形成连续的时间特征。
5.解卷积(Deconvolutions):对时间空间特征进行解卷积处理,将特征图恢复到更高分辨率,生成空间-时间特征(Spatiotemporal Features)。
6.表面输出(Surface Outputs):道路表面几何(Road Surface Geometry)和道路语义(Road Surface Semantics)用于后续的路径规划和决策。
7.体素输出(Volume Outputs):生成场景的占用信息、占用流动信息和3D语义信息,用于感知可视化和预测。

8.可查询输出(Queryable Outputs):多层感知机(MLP)根据生成的3D特征,使用多层感知机预测占用概率和3D语义信息。

感知预测Pipeline

这部分的内容和上面有些重复,我们只关注Transformer特征块引入的三个信息即可。

把车道和交运规则引入模型网络确实是值得借鉴的一点。右下角输出的三个信息包括:未来轨迹(Future Trajectory)、网格(Shape Mesh)、行人姿态(Pedestrian Pose)。每个agent占用大于1MB的内存空间

1.自车运动学(Ego's kinematics)提供车辆自身的运动状态信息,包括速度、加速度、方向等。这些信息用于理解车辆的当前动态状态,帮助预测车辆未来的轨迹和位置。

2.候选自车轨迹(Candidate ego trajectories)提供多个可能的车辆未来行驶路径。这些轨迹是基于自车运动学和环境信息生成的,帮助在不同驾驶情景下预测车辆可能的移动路径,为决策和规划提供依据。

3.车道和交通控制(Lanes & Traffic Controls)提供车道信息和交通控制信息(如交通信号、路标等)。这些信息用于理解车辆所处的交通环境,帮助进行路径规划、车道保持和遵循交通规则。

道路级拓扑建图Pipeline

通过多层级的点预测器和拓扑类型预测器,生成关键特征点和道路拓扑类型,并进一步利用分叉点和合并点预测器以及样条系数预测器,精确预测路径。

1.前两层输出(Point Predictor Level 1&2)第一层生成初步的关键特征点,用于描述路径的初始位置和基本形状。第二层在初步特征点的基础上,进一步细化和增强路径的描述,提供更详细的路径信息。

2.拓扑类型输出(Topology Type Predictor)识别和描述道路的拓扑结构(例如分叉、合并等),帮助理解路径的复杂性和结构特点。

3.高级拓扑信息输出(分叉点,合并点,样条系数):分叉点预测(Fork Point Predictor)用于预测路径中的分叉点位置。合并点预测(Merge Point Predictor)用于预测路径中的合并点位置和方向。样条系数预测(Spline Coefficient Predictor)用于精确描述路径的形状和方向,确保路径预测的平滑性和准确性。

FSD V13?

其实Tesla FSD v13的事情在2024年四月就已经有信息流出,从马斯克的语句中,不难推测特斯拉还在憋着大招... ...
此外,英伟达的研究员Jim Fan似乎透漏新版的FSD引入了自然语言作为中间信息(那么这还算严格意义的端到端嘛小编请问。。)
为了大家省事儿一些,李小毛把信息提炼出来;

1.Tesla FSD v13 和语言标记的使用:Tesla FSD v13 可能会使用语言标记进行推理(grokking language tokens)。通过“思维链”(chain of thought)的语言表达,帮助车辆分解复杂场景、运用规则和反事实进行推理,并解释其决策。

2.Grok-1.5V 的潜力:Grok-1.5V有望解决自动驾驶中的边缘情况(edge cases)。

为啥要引入语言标记???李小毛直觉上认为是提高自动驾驶模型的中间信息可视化和可解释性。大家可以在评论区提出自己的观点哦~

如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:=学会收藏=,点击在看,我们一起充电!


端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章