首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

从城市到高速，自动驾驶如何重塑交通版图？

2024-11-18 11:14 安徽

近年来，【自动驾驶】在深度学习领域迅速崛起，备受瞩目。它将传感器数据、计算机视觉技术以及机器学习算法巧妙融合，为车辆的自主导航与决策赋能。在路径规划上，自动驾驶技术犹如精准的导航仪，高效规划最优路线；在环境感知方面，它好似敏锐的侦察兵，精确识别各类路况；于车辆控制中，它仿佛技艺高超的车手，平稳操控车辆。凭借这些独特优势，自动驾驶技术在多领域成果显著，成为当之无愧的研究热点。
为了帮助大家全面掌握自动驾驶的方法并寻找创新点，本文总结了最近两年【自动驾驶】相关的20篇顶会顶刊的研究成果，这些论文的文章、来源以及论文的代码都整理好了，希望能为各位的研究工作提供有价值的参考。
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
一、UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
1
1.方法
1.1整体框架
UniPAD 是一种通用的自监督预训练范式，适用于 3D LiDAR 点云和多视图图像等不同模态。框架包含模态特定编码器和体绘制解码器两部分，通过对输入数据进行掩码处理，将模态特征转换为 3D 体素空间表示，再利用神经渲染技术重建缺失部分，最小化渲染结果与输入的差异来学习有效特征表示。
1.2模态特定编码器
数据输入与掩码处理
接受 LiDAR 点云或多视图图像作为输入，先由掩码生成器进行掩码操作（点云采用块式掩码，图像通过将传统卷积替换为稀疏卷积实现掩码），然后将可见部分输入模态特定编码器（点云用 VoxelNet 等点编码器，图像用经典卷积网络），并使用特定的 FPN 聚合多尺度特征。掩码区域在编码器后用零填充，与可见特征组合成密集特征图。
1.3统一3D体素表示
点云模态
对于点云数据，在点编码器中直接保留高度维度，将点特征转换到 3D 体素空间。
图像模态
多视图图像通过预定义 3D 体素坐标，投影到图像平面索引对应 2D 特征，并乘以可学习缩放因子，转换为 3D 体素特征，最后使用投影层增强体素表示。
1.4神经渲染解码器
可微渲染
利用神经渲染将几何或纹理线索融入学习到的体素特征，通过将场景表示为隐式符号距离函数（SDF）场，采样射线并沿射线积分预测颜色和深度，渲染 RGB 图像和深度图像。SDF 值预测基于采样点的特征嵌入，颜色值基于表面法线和几何特征向量，渲染过程使用无偏且遮挡感知的权重计算。
内存友好射线采样
提出三种内存友好的射线采样策略以减少计算负担，包括扩张采样（以固定间隔遍历图像减少射线数量）、随机采样（从所有像素中随机选择射线）和深度感知采样（根据 LiDAR 信息选择深度小于阈值的像素集进行射线采样），其中深度感知采样能聚焦场景相关部分，增强学习表示且内存消耗较低。
预训练损失
总预训练损失由颜色损失和深度损失组成，通过计算渲染结果与真实颜色和深度的差异，以优化模型参数。
2.创新点
2.1创新预训练范式
首次在自动驾驶背景下探索 3D 可微渲染用于自监督学习，通过 3D 体素可微渲染重建 2D 投影的缺失几何，隐式编码 3D 空间，有效学习 3D 形状结构和外观特征，克服了传统 3D 自监督预训练方法的局限性，如对比学习对正负样本选择敏感、MAE 在 3D 点云应用中的挑战等。
2.2灵活且高效的框架设计
方法灵活性高，能无缝集成到 2D 和 3D 框架，可将 2D 图像特征转换为 3D 体素表示进行预训练，通过提出的内存友好射线采样策略，在保持训练效率的同时显著提升精度，减少内存消耗和计算成本。
2.3卓越的性能表现
在 nuScenes 数据集的多种 3D 感知任务上表现优异，显著提升了基于 LiDAR、相机及多模态融合的基线方法性能，如在 3D 对象检测和语义分割任务上分别取得了显著的 NDS 和 mIoU 提升，达到了当前的领先水平，证明了方法在不同任务和模态下的有效性和泛化能力。
论文链接：https://arxiv.org/pdf/2310.08370
二、Evaluation of Large Language Models for Decision Making in Autonomous Driving
2
1.方法
1.1模拟真实交通场景实验
实验设置
构建了一个模拟高速公路环境的两车道交通场景，包含自车和周围车辆信息。向大语言模型（LLMs）提供自车所在车道、速度、周围车辆（类别、位置、速度）、交通规则和用户指令等信息，要求 LLMs 从 ["accelerate", "maintain", "decelerate", "change lane to the right", "change lane to the left"] 中选择一个驾驶操作，并解释原因，输出为 JSON 格式。
实验数据与模型
手动创建了包含空间感知决策（SADM，34 个样本）、遵守交通规则（FTR，24 个样本）以及两者结合（SADM & FTR，50 个样本）的数据集。使用的 LLMs 包括公开模型 LLaMA - 2 7B 以及私有但更强大的 GPT - 3.5 和 GPT - 4。在语言生成时固定随机种子且不使用采样以确保输出确定性。
1.2实际车辆部署实验
实验设置
在私人区域进行实验，在车辆前方放置不同颜色的圆锥体作为目标，人员通过语音指令让 LLM 确定目标，车辆摄像头识别圆锥体并计算其位置，将信息插入提示中。若前方有交通警察发出停车指令，通过单独的识别模块将 “停车” 规则添加到提示中，测试 LLM 在实际场景中的空间感知决策和遵守规则能力。
实验数据与模型
创建了模拟实际实验设置的数据集，样本量为 20，用于评估所有任务（SADM、FTR 和 SADM & FTR）。使用 GPT - 4 通过 API 控制实际车辆，根据 LLM 输出决定车辆是驶向目标还是停车，并计算输出的准确性。
2.创新点
2.1系统的 LLMs 驾驶能力定量评估
首次对 LLMs 在自动驾驶中两个关键能力（空间感知决策和遵守交通规则）进行了系统的定量评估，通过模拟真实交通场景和实际车辆部署实验，分别在不同的实验设置和数据条件下，使用多种 LLMs（LLaMA - 2 7B、GPT - 3.5、GPT - 4）进行测试，为 LLMs 在自动驾驶领域的应用提供了量化的性能指标，填补了此前缺乏定量研究的空白。
2.2结合实际场景的实验设计
实验设计紧密结合自动驾驶的实际场景需求，模拟高速公路交通场景和在实际车辆上进行部署实验，使研究结果更具实际意义和应用价值。模拟场景中全面考虑了车辆行驶中的各种情况，如不同车道的车辆关系、速度限制、超车规则等；实际车辆实验则涉及到真实的目标识别、指令交互和交通规则遵守等操作，能够真实反映 LLMs 在实际自动驾驶任务中的能力表现。
2.3探索 LLMs 在自动驾驶中的潜力与局限
通过实验不仅展示了 LLMs 在自动驾驶决策方面的潜力，如 GPT - 4 在部分任务中表现出较高的准确性，还揭示了当前 LLMs 应用于自动驾驶面临的挑战，如 GPT - 3.5 和 GPT - 4 因网络通信和推理时间导致实时应用困难，LLaMA 在本地测试时准确性较低等问题，为后续研究和改进提供了方向。同时，研究提示工程对更强大的 LLMs 的重要性，为提升 LLMs 在自动驾驶中的性能提供了思路。
论文链接：https://arxiv.org/pdf/2312.06351
需要的同学扫码添加我
回复“自动驾驶”即可全部领取
三、What Truly Matters in Trajectory Prediction for Autonomous Driving?
3
1.方法
1.1问题建模与分析
将运动预测与规划问题建模为马尔可夫决策过程（MDP），包括状态（包含自动驾驶车辆和周围交通参与者的历史信息等）、动作（自动驾驶车辆对周围交通参与者的预测动作）、转移函数（定义系统动态及如何因车辆动作而演变）、预测器（基于当前状态产生动作的策略）和目标函数（累积奖励）。分析了传统静态评估在实际自动驾驶场景中的局限性，即忽略了真实世界与数据集中转移函数的差异（动力学差距）。
1.2实验设置与数据收集
预测方法选择
选取 10 种具有代表性的预测模型，涵盖从简单基于模型到复杂数据驱动的方法，如 Constant Velocity（CV）、Constant Acceleration（CA）、K - Nearest Neighbor（KNN）、Social - KNN（S - KNN）、Social LSTM（S - LSTM）、HiVT、LaneGCN、HOME、DSP 等，以全面覆盖主流预测方法。
规划器选择
采用两种不同类型的规划器，即简单的 RVO 规划器（仅考虑安全和效率，实时执行但不处理不确定性和交互）和复杂的 DESPOT 规划器（能处理不确定性，考虑多种驾驶性能因素及交互，采用更先进算法），以得出与规划器无关的结论。
模拟器选择
使用 SUMMIT 模拟器，其基于 Carla 框架，可提供真实世界地图和多样交通场景，模拟车辆间交互，支持同步和异步模式，能根据需要设置仿真时间与实时时间的比例，用于评估不同预测模型在真实场景下的表现。
数据收集与处理
在 SUMMIT 模拟器中针对每个预测器收集 50 个场景数据，从四个真实世界地图中随机选择起点和终点，保持参考路径，随机分布行人和车辆等。同时，从模拟器收集对齐数据集，包含 59,944 个场景，用于训练预测模型，训练集和验证集按 80% 和 20% 划分，并对数据进行预处理，如过滤场景步数、选择感兴趣的代理等。
1.3实验设计与执行
固定预测能力实验
在交互式模拟环境中，要求规划器执行固定数量的预测，以明确在保证预测方法能力的前提下，导致预测性能与驾驶性能差异的主要因素。
固定规划能力实验
通过设置不同的时钟频率（30Hz、3Hz、1Hz）为规划器分配不同时间预算，模拟预测器以不同速度运行，研究除预测准确性外影响预测方法能力的因素，解释预测准确性与驾驶性能之间剩余的差异。
2.创新点
2.1揭示动力学差距的关键影响
首次深入研究并揭示了轨迹预测中 “动力学差距” 这一被忽视的重要因素，即自动驾驶车辆在实际场景中的行为变化会影响其他车辆行为，进而改变预测结果，但固定数据集无法体现这种动态交互，导致预测准确性与实际驾驶性能存在显著差异。通过实验表明，动力学差距在解释预测性能与驾驶性能差异方面占主导地位，如在 RVO 和 DESPOT 规划器中，动力学差距分别占 Static ADE 与驾驶性能不一致性的 77.0% 和 70.3%，强调了在评估预测模型时考虑动力学因素的必要性。
2.2提出交互式、任务驱动的评估协议
强调了当前基于静态数据集的预测评估方法的局限性，提出采用交互式模拟环境进行动态评估的重要性，以缩小动力学差距，使预测评估更贴近实际驾驶场景。同时指出预测准确性并非唯一决定驾驶性能的因素，预测器的计算效率同样至关重要，二者之间存在权衡关系，从而倡导一种交互式、任务驱动的评估协议，综合考虑动力学准确性和计算效率等多方面因素，为轨迹预测在自动驾驶中的有效应用提供了更全面、科学的评估方法。
2.3全面的实验设计与分析
设计了全面的实验，涵盖多种主流预测模型、不同类型规划器和真实场景模拟器，通过对比静态评估和动态评估指标，分析不同因素（如多模态预测、预测误差不对称性、遮挡、动力学差距、预测器计算效率等）对预测准确性与驾驶性能相关性的影响，深入探讨了影响轨迹预测在自动驾驶中有效性的关键因素，为后续研究提供了丰富的实验依据和分析思路。
论文链接：https://arxiv.org/pdf/2306.15136
需要的同学扫码添加我
回复“自动驾驶”即可全部领取

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487918&idx=1&sn=7a45c412cfeb4b48f16e99dc74a8428d

分享最新AI资源

最新文章

别再 “单打独斗”！特征融合技术带领深度学习模型 “组团出道”！

博士招生 | 智能交通、智能网联驾驶方向博士研究生招生(西交利物浦大学)

别让夜间眩光 “闪瞎” 视觉算法！Flare7K++ 带着解决方案闪亮登场

揭秘 LSTM与CNN的完美联姻，论文从此不再愁！

真实到离谱！1000 个如同人类 “克隆” 的个体进入西部世界，AI 相似度达到 85%，细节令人震撼！

CMAE横空出世，在视觉任务中取得惊人成果

多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

博士招生 | 澳门理工大学人工智能药物发现中心招收全奖博士生 (2025年入学)

重大突破！新型自适应程序助力多模态学习，弥补缺失模态性能短板！

从城市到高速，自动驾驶如何重塑交通版图？

Nature发声：“人类亲吻难题” 让LLM原形毕露！各大模型全军覆没，所谓强大的它们，根本不懂推理，仅仅是被高估的工具罢了。

超越传统：新型变换器框架在 WSSS 中展现卓越性能！

别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

绝绝子！VST++ 助力显著性检测，“实力圈粉” 没商量！

别人苦苦训练，HPT 模型0起步却让通用机器人性能 “一骑绝尘”！

上交大最新力作！穹彻智能助力，Nature 子刊呈现深度学习驱动视触觉动态重建新突破

3D人体姿势数据为何缺乏语言描述？PoseScript 数据集如何填补这一空白？

仅有少量样本，“小样本学习 + 多模态” 凭啥在 AI 领域风生水起？

博士招生 | 悉尼科技大学(QS世界排名88)招收2025年入学的数据科学/AI方向的博士生和访问学生学者

VSR 模型的 “逆天改命” 术 —— 提示调整，C 位出道！

被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

哈佛突破：新一代AI精准诊断癌症，准确率惊人！

深度全卷积新贵 SegNet 登场，能否打破语义分割现有格局？

高光谱图像恢复大作战，看 Transformer 如何显神通！

大模型微调背后的神秘力量：你了解多少？

博士招生 | 香港科技大学广州-陈煌栒老师招收网络信息物理系统与人工智能的交叉方向的博士/RA

深度揭秘：计算机视觉 + 注意力机制融合，为何成为学术研究新宠

清华团队重磅突破！具身智能 Scaling Law 被破解，GPT 时刻或将来临，宁德时代联创助力

只训练一个GNN已过时？解耦图神经网络：多管齐下的神秘训练策略

时序 + CNN：顶会的 “奇葩” 但超有效的方向！

不可思议！RGBE-Gaze 数据集，让凝视追踪更上一层楼

博士招生 | 中科院物理所李迪组招聘【光学/图像/自动化/人工智能/细胞生物学】博/硕/科研助理

万能涨点&出创新点神器：对比学习！15种创新方法全面汇总

国务院：博士学位论文，不再非写不可

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

EfficientTrain++：一种高效视觉骨干训练的新突破

博士招生 | 福建医科大学健康数据科学博士招生研究方向：医疗大数据与人工智能

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

招生 | 浙江大学吴超老师课题组招收偏计算机方向博士后和科研助理

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

博士招生 | 英国顶尖大学卡迪夫大学招人工智能、机器学习算法及应用全奖博士或联培博士、教师

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

真实世界图像超分辨率：交互式调制如何应对复杂退化挑战？

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉