赶超无望?FSD v12还没在国内落地,v13都已经传疯了!FSD v13有何改进?文章结尾有重磅彩蛋!
本期概述
哈喽大家好,作为公认的最强落地端到端自动驾驶算法,Tesla FSD为何能够频频出圈?我们绕开全网都讲烂了的FSD基础信息,聊聊这个截止目前地表最强AD算法究竟是怎样实现的!看在李小毛全网第一手资讯的份上,拜托拜托三连支持哦~
占用网络Pipeline
下面的流程图来自于特斯拉Automotive部门员工的分享。是不是和我们之前分享的UniAD特别相似?其实优秀的解决方案大多也是心有灵犀的。
Tesla FSD采用纯视觉的方案。其占用网络模型整体上分为图像特征提取(Image Featurizers)、空间注意力(Spatial Attention)、时间对齐(Temporal Alignment)、下卷积(Deconvolutions)、表面输出(Surface Outputs)、体素输出(Volume Outputs)、查询输出(Queryable Outputs)
1.图像输入(Image Input):从多个摄像头获取实时视频流,每个视频流经过校正处理(Rectify),以保证图像的质量和一致性。
8.可查询输出(Queryable Outputs):多层感知机(MLP)根据生成的3D特征,使用多层感知机预测占用概率和3D语义信息。
感知预测Pipeline
这部分的内容和上面有些重复,我们只关注Transformer特征块引入的三个信息即可。
把车道和交运规则引入模型网络确实是值得借鉴的一点。右下角输出的三个信息包括:未来轨迹(Future Trajectory)、网格(Shape Mesh)、行人姿态(Pedestrian Pose)。每个agent占用大于1MB的内存空间
1.自车运动学(Ego's kinematics)提供车辆自身的运动状态信息,包括速度、加速度、方向等。这些信息用于理解车辆的当前动态状态,帮助预测车辆未来的轨迹和位置。
2.候选自车轨迹(Candidate ego trajectories)提供多个可能的车辆未来行驶路径。这些轨迹是基于自车运动学和环境信息生成的,帮助在不同驾驶情景下预测车辆可能的移动路径,为决策和规划提供依据。
3.车道和交通控制(Lanes & Traffic Controls)提供车道信息和交通控制信息(如交通信号、路标等)。这些信息用于理解车辆所处的交通环境,帮助进行路径规划、车道保持和遵循交通规则。
道路级拓扑建图Pipeline
通过多层级的点预测器和拓扑类型预测器,生成关键特征点和道路拓扑类型,并进一步利用分叉点和合并点预测器以及样条系数预测器,精确预测路径。
1.前两层输出(Point Predictor Level 1&2)第一层生成初步的关键特征点,用于描述路径的初始位置和基本形状。第二层在初步特征点的基础上,进一步细化和增强路径的描述,提供更详细的路径信息。
2.拓扑类型输出(Topology Type Predictor)识别和描述道路的拓扑结构(例如分叉、合并等),帮助理解路径的复杂性和结构特点。
3.高级拓扑信息输出(分叉点,合并点,样条系数):分叉点预测(Fork Point Predictor)用于预测路径中的分叉点位置。合并点预测(Merge Point Predictor)用于预测路径中的合并点位置和方向。样条系数预测(Spline Coefficient Predictor)用于精确描述路径的形状和方向,确保路径预测的平滑性和准确性。
FSD V13?
1.Tesla FSD v13 和语言标记的使用:Tesla FSD v13 可能会使用语言标记进行推理(grokking language tokens)。通过“思维链”(chain of thought)的语言表达,帮助车辆分解复杂场景、运用规则和反事实进行推理,并解释其决策。
2.Grok-1.5V 的潜力:Grok-1.5V有望解决自动驾驶中的边缘情况(edge cases)。
为啥要引入语言标记???李小毛直觉上认为是提高自动驾驶模型的中间信息可视化和可解释性。大家可以在评论区提出自己的观点哦~