欢迎关注微信公众号“机器人EmbodiedAI”
论文题目:Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Guo_Vanishing-Point-Guided_Video_Semantic_Segmentation_of_Driving_Scenes_CVPR_2024_paper.pdf
一、方法
隐式跨帧对应关系的估计和高计算成本一直是驾驶场景视频语义分割(VSS)的主要挑战。以往的工作利用关键帧、特征传播或跨帧注意力来解决这些问题。相比之下,我们是首个利用消失点(VP)先验进行更有效分割的研究。直观上,靠近VP(即远离车辆)的物体不太容易辨别。此外,在前向摄像头、直线路和车辆线性前进的情况下,它们通常会随时间向VP径向移动。我们提出了一个新颖且高效的VSS网络,命名为VPSeg,包含两个利用上述静态和动态VP先验的模块:稀疏到密集特征挖掘(DenseVP)和VP引导的运动融合(MotionVP)。MotionVP利用VP引导的运动估计在帧之间建立显式对应关系,并帮助关注邻近帧中最相关的特征,而DenseVP则增强了VP周围远处区域的弱动态特征。这些模块在一个上下文细节框架中运行,通过在不同输入分辨率下分离上下文特征和高分辨率局部特征来降低计算成本。上下文和局部特征通过上下文化运动注意力(CMA)进行整合,以进行最终预测。在两个流行的驾驶分割基准Cityscapes和ACDC上的大量实验表明,VPSeg以仅适度的计算开销优于以前的SOTA方法。资源可在 https://github.com/RascalGdd/VPSeg 获取。
我们的贡献如下:
• 我们提出了MotionVP,一种用于视频语义分割(VSS)的VP引导运动估计策略,可生成显式跨帧对应关系。MotionVP在驾驶场景中的高速场景和大运动情况下特别有用。
• 我们介绍了DenseVP,一种用于VSS的VP引导的尺度自适应分区方法,可为VP区域中的难样本提取更细粒度的特征。
• 我们设计了VPSeg,一种高效的上下文-细节框架,用于VSS,通过不同分辨率自适应地分离上下文和细节特征,以减少视频帧的计算成本。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
在驾驶场景的视频语义分割(VSS)中,建立跨帧对应关系和降低计算成本是两个紧迫的问题。我们提出了新颖的VPSeg网络,通过利用动态和静态消失点(VP)先验,通过创新的MotionVP和DenseVP模块来解决这些问题。前者通过VP引导的运动估计策略建立显式对应关系,而后者通过尺度自适应分区方法增强估计VP周围区域的细动态特征。在VPSeg的上下文-细节框架中,下采样的上下文特征和高分辨率的局部细节通过我们的运动感知CMA注意力模块进行分离和自适应融合。VPSeg在两个广泛使用的驾驶数据集上以合理的计算成本实现了SOTA性能。