华为诺亚 | CVPR 2024 | 全面理解自动驾驶:通过注入鸟瞰视角的多模态大模型

文摘   2024-07-19 08:36   北京  

欢迎关注微信公众号“机器人EmbodiedAI”

论文题目:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Ding_Holistic_Autonomous_Driving_Understanding_by_Birds-Eye-View_Injected_Multi-Modal_Large_Models_CVPR_2024_paper.pdf

一、方法

随着多模态大型语言模型(MLLMs)的兴起,语言驱动的驾驶任务引发了广泛关注。然而,现有研究通常集中在有限的任务上,经常忽略了关键的多视角和时间信息,这些信息对于稳健的自动驾驶至关重要。为了弥合这些差距,我们介绍了NuInstruct,这是一个新颖的数据集,包含91K个多视角视频问答对,涵盖17个子任务,每个任务都需要全面的信息(例如,时间、多视角和空间信息),显著提升了挑战级别。为了获取NuInstruct,我们提出了一种新颖的基于SQL的方法,自动生成指令-响应对,这受到人类驾驶逻辑进展的启发。此外,我们还提出了BEV-InMLLM,一种端到端方法,用于高效地提取面向指令的鸟瞰图特征,与大型语言模型对齐。BEV-InMLLM整合了多视角、空间意识和时间语义,增强了MLLM在NuInstruct任务上的能力。此外,我们提出的BEV注入模块是一种现有MLLM的即插即用方法。我们在NuInstruct上的实验表明,BEV-InMLLM在各种任务上明显优于现有的MLLM,例如提升了9%。我们发布了我们的NuInstruct数据集,网址为 https://github.com/xmed-lab/NuInstruct。

我们的贡献如下:

• 我们精心策划了NuInstruct,这是一个新的语言驱动数据集,包含91K个多视角视频指令-响应对,涵盖17个子任务,采用了一种新颖的基于SQL的方法生成。据我们所知,NuInstruct目前是最全面的语言驱动数据集。我们计划将NuInstruct发布用于未来的研究开发。

• 我们提出了BEV-InMLLM,将面向指令的BEV特征与现有的MLLM集成,为它们提供包括时间、多视角和空间细节在内的全套信息。特别地,我们的BEV注入模块为现有的MLLM提供了即插即用的解决方案。

• 我们在NuInstruct上的实验表明,我们提出的方法显著提升了MLLM在各种任务中的性能,特别是在各种任务上比现有技术领先了9%。消融研究显示,MVMLLM增强了多视角任务的表现,而BEV-InMLLM对大多数任务至关重要,突显了空间信息的重要性。

二、实验

这里展示部分结果,更多结果请参考论文。

三、总结

在这项研究中,我们探讨了基于语言的自动驾驶任务。我们介绍了NuInstruct,其中包含91K个多视角视频指令-响应对,涵盖了17个子任务,这些数据是通过一种新颖的基于SQL的方法创建的。我们提出的BEV-InMLMM将面向指令的BEV特征集成到MLLM中,增强了对时间、多视角和空间细节的处理能力。作为即插即用的增强功能,BEV-InMLMM显著提升了MLLM在自动驾驶任务上的性能。我们在NuInstruct上的实证结果验证了我们方法的有效性。局限性。当前数据集缺乏交通信号灯信息和与3D物体检测相关的任务,这些是我们计划在未来工作中解决的问题。


机器人EmbodiedAI
与世界交互
 最新文章