近年来,【自动驾驶】在深度学习领域迅速崛起,备受瞩目。它将传感器数据、计算机视觉技术以及机器学习算法巧妙融合,为车辆的自主导航与决策赋能。在路径规划上,自动驾驶技术犹如精准的导航仪,高效规划最优路线;在环境感知方面,它好似敏锐的侦察兵,精确识别各类路况;于车辆控制中,它仿佛技艺高超的车手,平稳操控车辆。凭借这些独特优势,自动驾驶技术在多领域成果显著,成为当之无愧的研究热点。
为了帮助大家全面掌握自动驾驶的方法并寻找创新点,本文总结了最近两年【自动驾驶】相关的20篇顶会顶刊的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
一、UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
1.方法
1.1整体框架
UniPAD 是一种通用的自监督预训练范式,适用于 3D LiDAR 点云和多视图图像等不同模态。框架包含模态特定编码器和体绘制解码器两部分,通过对输入数据进行掩码处理,将模态特征转换为 3D 体素空间表示,再利用神经渲染技术重建缺失部分,最小化渲染结果与输入的差异来学习有效特征表示。
1.2模态特定编码器
数据输入与掩码处理
接受 LiDAR 点云或多视图图像作为输入,先由掩码生成器进行掩码操作(点云采用块式掩码,图像通过将传统卷积替换为稀疏卷积实现掩码),然后将可见部分输入模态特定编码器(点云用 VoxelNet 等点编码器,图像用经典卷积网络),并使用特定的 FPN 聚合多尺度特征。掩码区域在编码器后用零填充,与可见特征组合成密集特征图。
1.3统一3D体素表示
点云模态
对于点云数据,在点编码器中直接保留高度维度,将点特征转换到 3D 体素空间。
图像模态
多视图图像通过预定义 3D 体素坐标,投影到图像平面索引对应 2D 特征,并乘以可学习缩放因子,转换为 3D 体素特征,最后使用投影层增强体素表示。
1.4神经渲染解码器
可微渲染
利用神经渲染将几何或纹理线索融入学习到的体素特征,通过将场景表示为隐式符号距离函数(SDF)场,采样射线并沿射线积分预测颜色和深度,渲染 RGB 图像和深度图像。SDF 值预测基于采样点的特征嵌入,颜色值基于表面法线和几何特征向量,渲染过程使用无偏且遮挡感知的权重计算。
内存友好射线采样
提出三种内存友好的射线采样策略以减少计算负担,包括扩张采样(以固定间隔遍历图像减少射线数量)、随机采样(从所有像素中随机选择射线)和深度感知采样(根据 LiDAR 信息选择深度小于阈值的像素集进行射线采样),其中深度感知采样能聚焦场景相关部分,增强学习表示且内存消耗较低。
预训练损失
总预训练损失由颜色损失和深度损失组成,通过计算渲染结果与真实颜色和深度的差异,以优化模型参数。
2.创新点
2.1创新预训练范式
首次在自动驾驶背景下探索 3D 可微渲染用于自监督学习,通过 3D 体素可微渲染重建 2D 投影的缺失几何,隐式编码 3D 空间,有效学习 3D 形状结构和外观特征,克服了传统 3D 自监督预训练方法的局限性,如对比学习对正负样本选择敏感、MAE 在 3D 点云应用中的挑战等。
2.2灵活且高效的框架设计
方法灵活性高,能无缝集成到 2D 和 3D 框架,可将 2D 图像特征转换为 3D 体素表示进行预训练,通过提出的内存友好射线采样策略,在保持训练效率的同时显著提升精度,减少内存消耗和计算成本。
2.3卓越的性能表现
在 nuScenes 数据集的多种 3D 感知任务上表现优异,显著提升了基于 LiDAR、相机及多模态融合的基线方法性能,如在 3D 对象检测和语义分割任务上分别取得了显著的 NDS 和 mIoU 提升,达到了当前的领先水平,证明了方法在不同任务和模态下的有效性和泛化能力。
论文链接:https://arxiv.org/pdf/2310.08370
二、Evaluation of Large Language Models for Decision Making in Autonomous Driving
1.方法
1.1模拟真实交通场景实验
实验设置
构建了一个模拟高速公路环境的两车道交通场景,包含自车和周围车辆信息。向大语言模型(LLMs)提供自车所在车道、速度、周围车辆(类别、位置、速度)、交通规则和用户指令等信息,要求 LLMs 从 ["accelerate", "maintain", "decelerate", "change lane to the right", "change lane to the left"] 中选择一个驾驶操作,并解释原因,输出为 JSON 格式。
实验数据与模型
手动创建了包含空间感知决策(SADM,34 个样本)、遵守交通规则(FTR,24 个样本)以及两者结合(SADM & FTR,50 个样本)的数据集。使用的 LLMs 包括公开模型 LLaMA - 2 7B 以及私有但更强大的 GPT - 3.5 和 GPT - 4。在语言生成时固定随机种子且不使用采样以确保输出确定性。
1.2实际车辆部署实验
实验设置
在私人区域进行实验,在车辆前方放置不同颜色的圆锥体作为目标,人员通过语音指令让 LLM 确定目标,车辆摄像头识别圆锥体并计算其位置,将信息插入提示中。若前方有交通警察发出停车指令,通过单独的识别模块将 “停车” 规则添加到提示中,测试 LLM 在实际场景中的空间感知决策和遵守规则能力。
实验数据与模型
创建了模拟实际实验设置的数据集,样本量为 20,用于评估所有任务(SADM、FTR 和 SADM & FTR)。使用 GPT - 4 通过 API 控制实际车辆,根据 LLM 输出决定车辆是驶向目标还是停车,并计算输出的准确性。
2.创新点
2.1系统的 LLMs 驾驶能力定量评估
首次对 LLMs 在自动驾驶中两个关键能力(空间感知决策和遵守交通规则)进行了系统的定量评估,通过模拟真实交通场景和实际车辆部署实验,分别在不同的实验设置和数据条件下,使用多种 LLMs(LLaMA - 2 7B、GPT - 3.5、GPT - 4)进行测试,为 LLMs 在自动驾驶领域的应用提供了量化的性能指标,填补了此前缺乏定量研究的空白。
2.2结合实际场景的实验设计
实验设计紧密结合自动驾驶的实际场景需求,模拟高速公路交通场景和在实际车辆上进行部署实验,使研究结果更具实际意义和应用价值。模拟场景中全面考虑了车辆行驶中的各种情况,如不同车道的车辆关系、速度限制、超车规则等;实际车辆实验则涉及到真实的目标识别、指令交互和交通规则遵守等操作,能够真实反映 LLMs 在实际自动驾驶任务中的能力表现。
2.3探索 LLMs 在自动驾驶中的潜力与局限
通过实验不仅展示了 LLMs 在自动驾驶决策方面的潜力,如 GPT - 4 在部分任务中表现出较高的准确性,还揭示了当前 LLMs 应用于自动驾驶面临的挑战,如 GPT - 3.5 和 GPT - 4 因网络通信和推理时间导致实时应用困难,LLaMA 在本地测试时准确性较低等问题,为后续研究和改进提供了方向。同时,研究提示工程对更强大的 LLMs 的重要性,为提升 LLMs 在自动驾驶中的性能提供了思路。
论文链接:https://arxiv.org/pdf/2312.06351
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
三、What Truly Matters in Trajectory Prediction for Autonomous Driving?
1.方法
1.1问题建模与分析
将运动预测与规划问题建模为马尔可夫决策过程(MDP),包括状态(包含自动驾驶车辆和周围交通参与者的历史信息等)、动作(自动驾驶车辆对周围交通参与者的预测动作)、转移函数(定义系统动态及如何因车辆动作而演变)、预测器(基于当前状态产生动作的策略)和目标函数(累积奖励)。分析了传统静态评估在实际自动驾驶场景中的局限性,即忽略了真实世界与数据集中转移函数的差异(动力学差距)。
1.2实验设置与数据收集
预测方法选择
选取 10 种具有代表性的预测模型,涵盖从简单基于模型到复杂数据驱动的方法,如 Constant Velocity(CV)、Constant Acceleration(CA)、K - Nearest Neighbor(KNN)、Social - KNN(S - KNN)、Social LSTM(S - LSTM)、HiVT、LaneGCN、HOME、DSP 等,以全面覆盖主流预测方法。
规划器选择
采用两种不同类型的规划器,即简单的 RVO 规划器(仅考虑安全和效率,实时执行但不处理不确定性和交互)和复杂的 DESPOT 规划器(能处理不确定性,考虑多种驾驶性能因素及交互,采用更先进算法),以得出与规划器无关的结论。
模拟器选择
使用 SUMMIT 模拟器,其基于 Carla 框架,可提供真实世界地图和多样交通场景,模拟车辆间交互,支持同步和异步模式,能根据需要设置仿真时间与实时时间的比例,用于评估不同预测模型在真实场景下的表现。
数据收集与处理
在 SUMMIT 模拟器中针对每个预测器收集 50 个场景数据,从四个真实世界地图中随机选择起点和终点,保持参考路径,随机分布行人和车辆等。同时,从模拟器收集对齐数据集,包含 59,944 个场景,用于训练预测模型,训练集和验证集按 80% 和 20% 划分,并对数据进行预处理,如过滤场景步数、选择感兴趣的代理等。
1.3实验设计与执行
固定预测能力实验
在交互式模拟环境中,要求规划器执行固定数量的预测,以明确在保证预测方法能力的前提下,导致预测性能与驾驶性能差异的主要因素。
固定规划能力实验
通过设置不同的时钟频率(30Hz、3Hz、1Hz)为规划器分配不同时间预算,模拟预测器以不同速度运行,研究除预测准确性外影响预测方法能力的因素,解释预测准确性与驾驶性能之间剩余的差异。
2.创新点
2.1揭示动力学差距的关键影响
首次深入研究并揭示了轨迹预测中 “动力学差距” 这一被忽视的重要因素,即自动驾驶车辆在实际场景中的行为变化会影响其他车辆行为,进而改变预测结果,但固定数据集无法体现这种动态交互,导致预测准确性与实际驾驶性能存在显著差异。通过实验表明,动力学差距在解释预测性能与驾驶性能差异方面占主导地位,如在 RVO 和 DESPOT 规划器中,动力学差距分别占 Static ADE 与驾驶性能不一致性的 77.0% 和 70.3%,强调了在评估预测模型时考虑动力学因素的必要性。
2.2提出交互式、任务驱动的评估协议
强调了当前基于静态数据集的预测评估方法的局限性,提出采用交互式模拟环境进行动态评估的重要性,以缩小动力学差距,使预测评估更贴近实际驾驶场景。同时指出预测准确性并非唯一决定驾驶性能的因素,预测器的计算效率同样至关重要,二者之间存在权衡关系,从而倡导一种交互式、任务驱动的评估协议,综合考虑动力学准确性和计算效率等多方面因素,为轨迹预测在自动驾驶中的有效应用提供了更全面、科学的评估方法。
2.3全面的实验设计与分析
设计了全面的实验,涵盖多种主流预测模型、不同类型规划器和真实场景模拟器,通过对比静态评估和动态评估指标,分析不同因素(如多模态预测、预测误差不对称性、遮挡、动力学差距、预测器计算效率等)对预测准确性与驾驶性能相关性的影响,深入探讨了影响轨迹预测在自动驾驶中有效性的关键因素,为后续研究提供了丰富的实验依据和分析思路。
论文链接:https://arxiv.org/pdf/2306.15136
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
近年来,【自动驾驶】在深度学习领域迅速崛起,备受瞩目。它将传感器数据、计算机视觉技术以及机器学习算法巧妙融合,为车辆的自主导航与决策赋能。在路径规划上,自动驾驶技术犹如精准的导航仪,高效规划最优路线;在环境感知方面,它好似敏锐的侦察兵,精确识别各类路况;于车辆控制中,它仿佛技艺高超的车手,平稳操控车辆。凭借这些独特优势,自动驾驶技术在多领域成果显著,成为当之无愧的研究热点。
为了帮助大家全面掌握自动驾驶的方法并寻找创新点,本文总结了最近两年【自动驾驶】相关的20篇顶会顶刊的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
一、UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
1.方法
1.1整体框架
UniPAD 是一种通用的自监督预训练范式,适用于 3D LiDAR 点云和多视图图像等不同模态。框架包含模态特定编码器和体绘制解码器两部分,通过对输入数据进行掩码处理,将模态特征转换为 3D 体素空间表示,再利用神经渲染技术重建缺失部分,最小化渲染结果与输入的差异来学习有效特征表示。
1.2模态特定编码器
数据输入与掩码处理
接受 LiDAR 点云或多视图图像作为输入,先由掩码生成器进行掩码操作(点云采用块式掩码,图像通过将传统卷积替换为稀疏卷积实现掩码),然后将可见部分输入模态特定编码器(点云用 VoxelNet 等点编码器,图像用经典卷积网络),并使用特定的 FPN 聚合多尺度特征。掩码区域在编码器后用零填充,与可见特征组合成密集特征图。
1.3统一3D体素表示
点云模态
对于点云数据,在点编码器中直接保留高度维度,将点特征转换到 3D 体素空间。
图像模态
多视图图像通过预定义 3D 体素坐标,投影到图像平面索引对应 2D 特征,并乘以可学习缩放因子,转换为 3D 体素特征,最后使用投影层增强体素表示。
1.4神经渲染解码器
可微渲染
利用神经渲染将几何或纹理线索融入学习到的体素特征,通过将场景表示为隐式符号距离函数(SDF)场,采样射线并沿射线积分预测颜色和深度,渲染 RGB 图像和深度图像。SDF 值预测基于采样点的特征嵌入,颜色值基于表面法线和几何特征向量,渲染过程使用无偏且遮挡感知的权重计算。
内存友好射线采样
提出三种内存友好的射线采样策略以减少计算负担,包括扩张采样(以固定间隔遍历图像减少射线数量)、随机采样(从所有像素中随机选择射线)和深度感知采样(根据 LiDAR 信息选择深度小于阈值的像素集进行射线采样),其中深度感知采样能聚焦场景相关部分,增强学习表示且内存消耗较低。
预训练损失
总预训练损失由颜色损失和深度损失组成,通过计算渲染结果与真实颜色和深度的差异,以优化模型参数。
2.创新点
2.1创新预训练范式
首次在自动驾驶背景下探索 3D 可微渲染用于自监督学习,通过 3D 体素可微渲染重建 2D 投影的缺失几何,隐式编码 3D 空间,有效学习 3D 形状结构和外观特征,克服了传统 3D 自监督预训练方法的局限性,如对比学习对正负样本选择敏感、MAE 在 3D 点云应用中的挑战等。
2.2灵活且高效的框架设计
方法灵活性高,能无缝集成到 2D 和 3D 框架,可将 2D 图像特征转换为 3D 体素表示进行预训练,通过提出的内存友好射线采样策略,在保持训练效率的同时显著提升精度,减少内存消耗和计算成本。
2.3卓越的性能表现
在 nuScenes 数据集的多种 3D 感知任务上表现优异,显著提升了基于 LiDAR、相机及多模态融合的基线方法性能,如在 3D 对象检测和语义分割任务上分别取得了显著的 NDS 和 mIoU 提升,达到了当前的领先水平,证明了方法在不同任务和模态下的有效性和泛化能力。
论文链接:https://arxiv.org/pdf/2310.08370
二、Evaluation of Large Language Models for Decision Making in Autonomous Driving
1.方法
1.1模拟真实交通场景实验
实验设置
构建了一个模拟高速公路环境的两车道交通场景,包含自车和周围车辆信息。向大语言模型(LLMs)提供自车所在车道、速度、周围车辆(类别、位置、速度)、交通规则和用户指令等信息,要求 LLMs 从 ["accelerate", "maintain", "decelerate", "change lane to the right", "change lane to the left"] 中选择一个驾驶操作,并解释原因,输出为 JSON 格式。
实验数据与模型
手动创建了包含空间感知决策(SADM,34 个样本)、遵守交通规则(FTR,24 个样本)以及两者结合(SADM & FTR,50 个样本)的数据集。使用的 LLMs 包括公开模型 LLaMA - 2 7B 以及私有但更强大的 GPT - 3.5 和 GPT - 4。在语言生成时固定随机种子且不使用采样以确保输出确定性。
1.2实际车辆部署实验
实验设置
在私人区域进行实验,在车辆前方放置不同颜色的圆锥体作为目标,人员通过语音指令让 LLM 确定目标,车辆摄像头识别圆锥体并计算其位置,将信息插入提示中。若前方有交通警察发出停车指令,通过单独的识别模块将 “停车” 规则添加到提示中,测试 LLM 在实际场景中的空间感知决策和遵守规则能力。
实验数据与模型
创建了模拟实际实验设置的数据集,样本量为 20,用于评估所有任务(SADM、FTR 和 SADM & FTR)。使用 GPT - 4 通过 API 控制实际车辆,根据 LLM 输出决定车辆是驶向目标还是停车,并计算输出的准确性。
2.创新点
2.1系统的 LLMs 驾驶能力定量评估
首次对 LLMs 在自动驾驶中两个关键能力(空间感知决策和遵守交通规则)进行了系统的定量评估,通过模拟真实交通场景和实际车辆部署实验,分别在不同的实验设置和数据条件下,使用多种 LLMs(LLaMA - 2 7B、GPT - 3.5、GPT - 4)进行测试,为 LLMs 在自动驾驶领域的应用提供了量化的性能指标,填补了此前缺乏定量研究的空白。
2.2结合实际场景的实验设计
实验设计紧密结合自动驾驶的实际场景需求,模拟高速公路交通场景和在实际车辆上进行部署实验,使研究结果更具实际意义和应用价值。模拟场景中全面考虑了车辆行驶中的各种情况,如不同车道的车辆关系、速度限制、超车规则等;实际车辆实验则涉及到真实的目标识别、指令交互和交通规则遵守等操作,能够真实反映 LLMs 在实际自动驾驶任务中的能力表现。
2.3探索 LLMs 在自动驾驶中的潜力与局限
通过实验不仅展示了 LLMs 在自动驾驶决策方面的潜力,如 GPT - 4 在部分任务中表现出较高的准确性,还揭示了当前 LLMs 应用于自动驾驶面临的挑战,如 GPT - 3.5 和 GPT - 4 因网络通信和推理时间导致实时应用困难,LLaMA 在本地测试时准确性较低等问题,为后续研究和改进提供了方向。同时,研究提示工程对更强大的 LLMs 的重要性,为提升 LLMs 在自动驾驶中的性能提供了思路。
论文链接:https://arxiv.org/pdf/2312.06351
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
三、What Truly Matters in Trajectory Prediction for Autonomous Driving?
1.方法
1.1问题建模与分析
将运动预测与规划问题建模为马尔可夫决策过程(MDP),包括状态(包含自动驾驶车辆和周围交通参与者的历史信息等)、动作(自动驾驶车辆对周围交通参与者的预测动作)、转移函数(定义系统动态及如何因车辆动作而演变)、预测器(基于当前状态产生动作的策略)和目标函数(累积奖励)。分析了传统静态评估在实际自动驾驶场景中的局限性,即忽略了真实世界与数据集中转移函数的差异(动力学差距)。
1.2实验设置与数据收集
预测方法选择
选取 10 种具有代表性的预测模型,涵盖从简单基于模型到复杂数据驱动的方法,如 Constant Velocity(CV)、Constant Acceleration(CA)、K - Nearest Neighbor(KNN)、Social - KNN(S - KNN)、Social LSTM(S - LSTM)、HiVT、LaneGCN、HOME、DSP 等,以全面覆盖主流预测方法。
规划器选择
采用两种不同类型的规划器,即简单的 RVO 规划器(仅考虑安全和效率,实时执行但不处理不确定性和交互)和复杂的 DESPOT 规划器(能处理不确定性,考虑多种驾驶性能因素及交互,采用更先进算法),以得出与规划器无关的结论。
模拟器选择
使用 SUMMIT 模拟器,其基于 Carla 框架,可提供真实世界地图和多样交通场景,模拟车辆间交互,支持同步和异步模式,能根据需要设置仿真时间与实时时间的比例,用于评估不同预测模型在真实场景下的表现。
数据收集与处理
在 SUMMIT 模拟器中针对每个预测器收集 50 个场景数据,从四个真实世界地图中随机选择起点和终点,保持参考路径,随机分布行人和车辆等。同时,从模拟器收集对齐数据集,包含 59,944 个场景,用于训练预测模型,训练集和验证集按 80% 和 20% 划分,并对数据进行预处理,如过滤场景步数、选择感兴趣的代理等。
1.3实验设计与执行
固定预测能力实验
在交互式模拟环境中,要求规划器执行固定数量的预测,以明确在保证预测方法能力的前提下,导致预测性能与驾驶性能差异的主要因素。
固定规划能力实验
通过设置不同的时钟频率(30Hz、3Hz、1Hz)为规划器分配不同时间预算,模拟预测器以不同速度运行,研究除预测准确性外影响预测方法能力的因素,解释预测准确性与驾驶性能之间剩余的差异。
2.创新点
2.1揭示动力学差距的关键影响
首次深入研究并揭示了轨迹预测中 “动力学差距” 这一被忽视的重要因素,即自动驾驶车辆在实际场景中的行为变化会影响其他车辆行为,进而改变预测结果,但固定数据集无法体现这种动态交互,导致预测准确性与实际驾驶性能存在显著差异。通过实验表明,动力学差距在解释预测性能与驾驶性能差异方面占主导地位,如在 RVO 和 DESPOT 规划器中,动力学差距分别占 Static ADE 与驾驶性能不一致性的 77.0% 和 70.3%,强调了在评估预测模型时考虑动力学因素的必要性。
2.2提出交互式、任务驱动的评估协议
强调了当前基于静态数据集的预测评估方法的局限性,提出采用交互式模拟环境进行动态评估的重要性,以缩小动力学差距,使预测评估更贴近实际驾驶场景。同时指出预测准确性并非唯一决定驾驶性能的因素,预测器的计算效率同样至关重要,二者之间存在权衡关系,从而倡导一种交互式、任务驱动的评估协议,综合考虑动力学准确性和计算效率等多方面因素,为轨迹预测在自动驾驶中的有效应用提供了更全面、科学的评估方法。
2.3全面的实验设计与分析
设计了全面的实验,涵盖多种主流预测模型、不同类型规划器和真实场景模拟器,通过对比静态评估和动态评估指标,分析不同因素(如多模态预测、预测误差不对称性、遮挡、动力学差距、预测器计算效率等)对预测准确性与驾驶性能相关性的影响,深入探讨了影响轨迹预测在自动驾驶中有效性的关键因素,为后续研究提供了丰富的实验依据和分析思路。
论文链接:https://arxiv.org/pdf/2306.15136
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
近年来,【自动驾驶】在深度学习领域迅速崛起,备受瞩目。它将传感器数据、计算机视觉技术以及机器学习算法巧妙融合,为车辆的自主导航与决策赋能。在路径规划上,自动驾驶技术犹如精准的导航仪,高效规划最优路线;在环境感知方面,它好似敏锐的侦察兵,精确识别各类路况;于车辆控制中,它仿佛技艺高超的车手,平稳操控车辆。凭借这些独特优势,自动驾驶技术在多领域成果显著,成为当之无愧的研究热点。
为了帮助大家全面掌握自动驾驶的方法并寻找创新点,本文总结了最近两年【自动驾驶】相关的20篇顶会顶刊的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
一、UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
1.方法
1.1整体框架
UniPAD 是一种通用的自监督预训练范式,适用于 3D LiDAR 点云和多视图图像等不同模态。框架包含模态特定编码器和体绘制解码器两部分,通过对输入数据进行掩码处理,将模态特征转换为 3D 体素空间表示,再利用神经渲染技术重建缺失部分,最小化渲染结果与输入的差异来学习有效特征表示。
1.2模态特定编码器
数据输入与掩码处理
接受 LiDAR 点云或多视图图像作为输入,先由掩码生成器进行掩码操作(点云采用块式掩码,图像通过将传统卷积替换为稀疏卷积实现掩码),然后将可见部分输入模态特定编码器(点云用 VoxelNet 等点编码器,图像用经典卷积网络),并使用特定的 FPN 聚合多尺度特征。掩码区域在编码器后用零填充,与可见特征组合成密集特征图。
1.3统一3D体素表示
点云模态
对于点云数据,在点编码器中直接保留高度维度,将点特征转换到 3D 体素空间。
图像模态
多视图图像通过预定义 3D 体素坐标,投影到图像平面索引对应 2D 特征,并乘以可学习缩放因子,转换为 3D 体素特征,最后使用投影层增强体素表示。
1.4神经渲染解码器
可微渲染
利用神经渲染将几何或纹理线索融入学习到的体素特征,通过将场景表示为隐式符号距离函数(SDF)场,采样射线并沿射线积分预测颜色和深度,渲染 RGB 图像和深度图像。SDF 值预测基于采样点的特征嵌入,颜色值基于表面法线和几何特征向量,渲染过程使用无偏且遮挡感知的权重计算。
内存友好射线采样
提出三种内存友好的射线采样策略以减少计算负担,包括扩张采样(以固定间隔遍历图像减少射线数量)、随机采样(从所有像素中随机选择射线)和深度感知采样(根据 LiDAR 信息选择深度小于阈值的像素集进行射线采样),其中深度感知采样能聚焦场景相关部分,增强学习表示且内存消耗较低。
预训练损失
总预训练损失由颜色损失和深度损失组成,通过计算渲染结果与真实颜色和深度的差异,以优化模型参数。
2.创新点
2.1创新预训练范式
首次在自动驾驶背景下探索 3D 可微渲染用于自监督学习,通过 3D 体素可微渲染重建 2D 投影的缺失几何,隐式编码 3D 空间,有效学习 3D 形状结构和外观特征,克服了传统 3D 自监督预训练方法的局限性,如对比学习对正负样本选择敏感、MAE 在 3D 点云应用中的挑战等。
2.2灵活且高效的框架设计
方法灵活性高,能无缝集成到 2D 和 3D 框架,可将 2D 图像特征转换为 3D 体素表示进行预训练,通过提出的内存友好射线采样策略,在保持训练效率的同时显著提升精度,减少内存消耗和计算成本。
2.3卓越的性能表现
在 nuScenes 数据集的多种 3D 感知任务上表现优异,显著提升了基于 LiDAR、相机及多模态融合的基线方法性能,如在 3D 对象检测和语义分割任务上分别取得了显著的 NDS 和 mIoU 提升,达到了当前的领先水平,证明了方法在不同任务和模态下的有效性和泛化能力。
论文链接:https://arxiv.org/pdf/2310.08370
二、Evaluation of Large Language Models for Decision Making in Autonomous Driving
1.方法
1.1模拟真实交通场景实验
实验设置
构建了一个模拟高速公路环境的两车道交通场景,包含自车和周围车辆信息。向大语言模型(LLMs)提供自车所在车道、速度、周围车辆(类别、位置、速度)、交通规则和用户指令等信息,要求 LLMs 从 ["accelerate", "maintain", "decelerate", "change lane to the right", "change lane to the left"] 中选择一个驾驶操作,并解释原因,输出为 JSON 格式。
实验数据与模型
手动创建了包含空间感知决策(SADM,34 个样本)、遵守交通规则(FTR,24 个样本)以及两者结合(SADM & FTR,50 个样本)的数据集。使用的 LLMs 包括公开模型 LLaMA - 2 7B 以及私有但更强大的 GPT - 3.5 和 GPT - 4。在语言生成时固定随机种子且不使用采样以确保输出确定性。
1.2实际车辆部署实验
实验设置
在私人区域进行实验,在车辆前方放置不同颜色的圆锥体作为目标,人员通过语音指令让 LLM 确定目标,车辆摄像头识别圆锥体并计算其位置,将信息插入提示中。若前方有交通警察发出停车指令,通过单独的识别模块将 “停车” 规则添加到提示中,测试 LLM 在实际场景中的空间感知决策和遵守规则能力。
实验数据与模型
创建了模拟实际实验设置的数据集,样本量为 20,用于评估所有任务(SADM、FTR 和 SADM & FTR)。使用 GPT - 4 通过 API 控制实际车辆,根据 LLM 输出决定车辆是驶向目标还是停车,并计算输出的准确性。
2.创新点
2.1系统的 LLMs 驾驶能力定量评估
首次对 LLMs 在自动驾驶中两个关键能力(空间感知决策和遵守交通规则)进行了系统的定量评估,通过模拟真实交通场景和实际车辆部署实验,分别在不同的实验设置和数据条件下,使用多种 LLMs(LLaMA - 2 7B、GPT - 3.5、GPT - 4)进行测试,为 LLMs 在自动驾驶领域的应用提供了量化的性能指标,填补了此前缺乏定量研究的空白。
2.2结合实际场景的实验设计
实验设计紧密结合自动驾驶的实际场景需求,模拟高速公路交通场景和在实际车辆上进行部署实验,使研究结果更具实际意义和应用价值。模拟场景中全面考虑了车辆行驶中的各种情况,如不同车道的车辆关系、速度限制、超车规则等;实际车辆实验则涉及到真实的目标识别、指令交互和交通规则遵守等操作,能够真实反映 LLMs 在实际自动驾驶任务中的能力表现。
2.3探索 LLMs 在自动驾驶中的潜力与局限
通过实验不仅展示了 LLMs 在自动驾驶决策方面的潜力,如 GPT - 4 在部分任务中表现出较高的准确性,还揭示了当前 LLMs 应用于自动驾驶面临的挑战,如 GPT - 3.5 和 GPT - 4 因网络通信和推理时间导致实时应用困难,LLaMA 在本地测试时准确性较低等问题,为后续研究和改进提供了方向。同时,研究提示工程对更强大的 LLMs 的重要性,为提升 LLMs 在自动驾驶中的性能提供了思路。
论文链接:https://arxiv.org/pdf/2312.06351
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
三、What Truly Matters in Trajectory Prediction for Autonomous Driving?
1.方法
1.1问题建模与分析
将运动预测与规划问题建模为马尔可夫决策过程(MDP),包括状态(包含自动驾驶车辆和周围交通参与者的历史信息等)、动作(自动驾驶车辆对周围交通参与者的预测动作)、转移函数(定义系统动态及如何因车辆动作而演变)、预测器(基于当前状态产生动作的策略)和目标函数(累积奖励)。分析了传统静态评估在实际自动驾驶场景中的局限性,即忽略了真实世界与数据集中转移函数的差异(动力学差距)。
1.2实验设置与数据收集
预测方法选择
选取 10 种具有代表性的预测模型,涵盖从简单基于模型到复杂数据驱动的方法,如 Constant Velocity(CV)、Constant Acceleration(CA)、K - Nearest Neighbor(KNN)、Social - KNN(S - KNN)、Social LSTM(S - LSTM)、HiVT、LaneGCN、HOME、DSP 等,以全面覆盖主流预测方法。
规划器选择
采用两种不同类型的规划器,即简单的 RVO 规划器(仅考虑安全和效率,实时执行但不处理不确定性和交互)和复杂的 DESPOT 规划器(能处理不确定性,考虑多种驾驶性能因素及交互,采用更先进算法),以得出与规划器无关的结论。
模拟器选择
使用 SUMMIT 模拟器,其基于 Carla 框架,可提供真实世界地图和多样交通场景,模拟车辆间交互,支持同步和异步模式,能根据需要设置仿真时间与实时时间的比例,用于评估不同预测模型在真实场景下的表现。
数据收集与处理
在 SUMMIT 模拟器中针对每个预测器收集 50 个场景数据,从四个真实世界地图中随机选择起点和终点,保持参考路径,随机分布行人和车辆等。同时,从模拟器收集对齐数据集,包含 59,944 个场景,用于训练预测模型,训练集和验证集按 80% 和 20% 划分,并对数据进行预处理,如过滤场景步数、选择感兴趣的代理等。
1.3实验设计与执行
固定预测能力实验
在交互式模拟环境中,要求规划器执行固定数量的预测,以明确在保证预测方法能力的前提下,导致预测性能与驾驶性能差异的主要因素。
固定规划能力实验
通过设置不同的时钟频率(30Hz、3Hz、1Hz)为规划器分配不同时间预算,模拟预测器以不同速度运行,研究除预测准确性外影响预测方法能力的因素,解释预测准确性与驾驶性能之间剩余的差异。
2.创新点
2.1揭示动力学差距的关键影响
首次深入研究并揭示了轨迹预测中 “动力学差距” 这一被忽视的重要因素,即自动驾驶车辆在实际场景中的行为变化会影响其他车辆行为,进而改变预测结果,但固定数据集无法体现这种动态交互,导致预测准确性与实际驾驶性能存在显著差异。通过实验表明,动力学差距在解释预测性能与驾驶性能差异方面占主导地位,如在 RVO 和 DESPOT 规划器中,动力学差距分别占 Static ADE 与驾驶性能不一致性的 77.0% 和 70.3%,强调了在评估预测模型时考虑动力学因素的必要性。
2.2提出交互式、任务驱动的评估协议
强调了当前基于静态数据集的预测评估方法的局限性,提出采用交互式模拟环境进行动态评估的重要性,以缩小动力学差距,使预测评估更贴近实际驾驶场景。同时指出预测准确性并非唯一决定驾驶性能的因素,预测器的计算效率同样至关重要,二者之间存在权衡关系,从而倡导一种交互式、任务驱动的评估协议,综合考虑动力学准确性和计算效率等多方面因素,为轨迹预测在自动驾驶中的有效应用提供了更全面、科学的评估方法。
2.3全面的实验设计与分析
设计了全面的实验,涵盖多种主流预测模型、不同类型规划器和真实场景模拟器,通过对比静态评估和动态评估指标,分析不同因素(如多模态预测、预测误差不对称性、遮挡、动力学差距、预测器计算效率等)对预测准确性与驾驶性能相关性的影响,深入探讨了影响轨迹预测在自动驾驶中有效性的关键因素,为后续研究提供了丰富的实验依据和分析思路。
论文链接:https://arxiv.org/pdf/2306.15136
需要的同学扫码添加我
回复“自动驾驶”即可全部领取