CVPR 2024 | 自动驾驶 | 多模态事故视频理解数据集MM-AU

文摘   2024-07-28 08:00   日本  

欢迎关注微信公众号“机器人EmbodiedAI”

论文题目:Abductive Ego-View Accident Video Understanding for Safe Driving Perception

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Fang_Abductive_Ego-View_Accident_Video_Understanding_for_Safe_Driving_Perception_CVPR_2024_paper.pdf

一、方法

我们介绍了一个名为MM-AU的新数据集,用于多模态事故视频理解。MM-AU包含11,727个野外视角的事故视频,每个视频都配有时间上对齐的文本描述。我们标注了超过223万个目标框和58,650对基于视频的事故原因,涵盖了58种事故类别。MM-AU支持各种事故理解任务,特别是多模态视频扩散以理解事故的因果链,从而实现安全驾驶。基于MM-AU,我们提出了一个名为安全驾驶感知的溯因事故视频理解框架(AdVersa-SD)。AdVersa-SD通过一个由溯因CLIP模型驱动的对象中心视频扩散(OAVD)方法进行视频扩散。该模型涉及一种对比交互损失,用于学习正常、接近事故和事故帧与相应文本描述(如事故原因、预防建议和事故类别)的配对共现。OAVD在视频生成过程中保持原始帧背景内容不变的同时,强化了对象区域学习,以找到特定事故的主要对象。大量实验验证了AdVersa-SD的溯因能力和OAVD相对于最新扩散模型的优越性。此外,我们还提供了精细的基准评估,用于对象检测和事故原因回答,因为AdVersa-SD依赖于精确的对象和事故原因信息。

我们的贡献如下:

  1. 我们创建了一个新的大规模自视角多模态事故理解数据集,即MM-AU,这将有助于更有前景地通过溯因理解实现安全驾驶感知。

  2. 我们提出了AdVersa-SD,一个溯因事故视频理解框架,用于学习事故在文本-视频对中的主要原因发生元素。

  3. 在AdVersa-SD中,我们提出了一种由溯因CLIP驱动的对象中心事故视频扩散(OAVD),试图明确探索事故发生的因果链,取得了积极的结果。

二、实验

这里展示部分结果,更多结果请参考论文。

三、总结

这项工作介绍了一个珍贵的大规模自视角多模态事故数据集(MM-AU),旨在增强安全驾驶感知能力,提供了对事故视频进行细粒度理解所需的时间、物体和文本注释。在MM-AU中,对目标检测和事故原因回答任务的现有方法进行了认真评估。基于MM-AU,我们提出了AdVersa-SD来实现归纳推理的事故视频理解,其中提出了由归纳-CLIP模型驱动的面向对象的事故视频扩散(OAVD)。广泛的实验验证了AdVersa-SD在归纳推理的事故视频理解方面表现出的有希望能力,并显示其在视频扩散性能上优于两种先进的扩散模型。


机器人EmbodiedAI
与世界交互
 最新文章