在自动驾驶领域里,针对3D场景的正确理解是非常重要的。目前对于室内场景采用3D密集字幕生成取得了很好的进展,在室外场景中却存在很大的局限性,不仅因为室内、外场景之间存在域差距,还因为当前缺乏针对室外场景的具有全面框-字幕对标注的数据。
基于当前问题,理想汽车联合中科院自动化所等研究人员提出一种室外3D密集描述任务TOD3Cap。该任务输入为LiDAR点云和全景相机组拍摄的一组RGB图像,期望输出为一组带字幕的物体框。与TOD3Cap相关的论文收录于 ECCV 2024上.
为了解决这一任务,该团队提出了TOD3Cap网络,利用BEV表示生成物体框提议,集成了Relation Q-Former和LLaMA-Adapter生成这些物体的丰富字幕。同时,还引入了TOD3Cap数据集,这是目前用于室外场景中3D密集字幕的最大的数据集,包含850个场景中64.3K个室外物体的2.3M个描述。
欢迎加入自动驾驶实战群
轨迹规划是自动驾驶的核心模块之一,LLM的发展为规矩规划开辟了新的可能性。然而,研究者们在尝试利用LLM强大的推理能力增强自动驾驶算法的规划和控制能力面临着诸多问题:(1)实验环境未能基于真实闭环场景(2)使用过量的坐标数字表示地图细节或运动状态,大大增加了所需的词符(token)数量;(3)由LLM直接生成轨迹点难以确保安全。
针对当前问题,理想汽车联合中科院自动化所等研究人员又提出了一种新的基于多模态大语言模型MLLM的自动驾驶闭环规划框架—PlanAgent。
该方法以场景的鸟瞰图和基于图的文本提示为输入,利用多模态大语言模型的多模态理解和常识推理能力,进行从场景理解到横向和纵向运动指令生成的层次化推理,并进一步产生规划器所需的指令。论文中设计了三个模块来解决自动驾驶中的复杂问题:
1)场景信息提取模块(Environment Transformation module):为了实现高效的场景信息表示,设计了一个环境信息提取模块,能够提取具有车道信息的多模态输入。
2)推理模块(Reasoning module):为了实现场景理解和常识推理,设计了一个推理模块,该模块利用多模态大语言模型MLLM生成合理且安全的规划器代码。
3)反思模块(Reflection module):为了保障安全规划,设计了一个反思机制,能够通过仿真对规划器进行验证,过滤掉不合理的MLLM提案。
PlanAgent在大规模且具有挑战性的nuPlan基准上进行了测试,实验表明PlanAgent在常规场景和长尾场景上都取得了最好(SOTA)性能。与常规大语言模型(LLM)方法相比,PlanAgent所需的场景描述词符(token)量仅为1/3左右。
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。