论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

文摘   2024-10-31 18:01   意大利  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


点击 阅读原文 观看作者讲解回放!


作者简介


李博涵,上海交通大学、东方理工联培博士生

概述

基于相机的3D语义场景补全(SSC)对于预测复杂的3D布局和有限的2D图像观测至关重要。现有的主流解决方案通常通过大致堆叠历史帧来利用时间信息来补充当前帧,这种直接的时间建模不可避免地减少了有效线索,并增加了学习难度。为了解决这个问题,我们提出了HTCL,这是一种新颖的层次化时间上下文学习范式,用于改进基于相机的语义场景补全。这项工作的主要创新在于将时间上下文学习分解为两个层次化的步骤:(a)跨帧亲和性测量和(b)基于亲和性的动态细化。首先,为了从冗余信息中分离出关键的相关上下文,我们引入了具有尺度感知隔离和多个独立学习器的模式亲和性,用于细粒度的上下文对应建模。随后,为了动态补偿不完整的观测,我们根据最初识别的具有高亲和性的位置及其邻近的相关区域,自适应地细化特征采样位置。我们的方法在SemanticKITTI基准测试中排名第一,甚至在OpenOccupancy基准测试中的mIoU方面超越了基于LiDAR的方法。


论文地址:https://arxiv.org/pdf/2407.02077

代码链接:https://github.com/Arlo0o/HTCL


Motivation



语义场景补全(Semantic Scene Completion,简称SSC)是3D感知中的一个关键任务,它要求从有限的观测中推断出完整的3D场景。这是一个复杂且定义不明确的问题,但对于自动驾驶、机器人技术、增强现实等应用领域至关重要。


传统的方法中,SSC通过大致堆叠历史帧来使用时间信息,以帮助推断当前帧。然而,这种方法存在挑战——它引入了噪声和冗余,使得模型难以从数据中提取有意义的线索。



与此不同,本文提出的方法,层次化时间上下文学习(Hierarchical Temporal Context Learning,简称HTCL)利用层次化的时间学习策略,旨在减少噪声并增强模型从时间数据中学习有意义模式的能力,从而提高3D场景补全的准确性。



HTCL方法与以往的方法不同,它通过在时间帧中动态采样相关上下文。这使得HTCL能够捕获重要的上下文模式,即使是在相机视野之外的区域,从而实现最先进的性能。



Methodology



本文框架由几个关键组件构成:对齐的时间体积构建(Aligned Temporal Volume Construction)、体素特征体积构建(Voxel Feature Volume Construction)和可靠的时间聚合(Reliable Temporal Aggregation)。



对齐的时间体积构建:采用时间序列的RGB图像,并通过极线齐次变换将历史帧与当前帧对齐。这减少了帧间的不对齐问题。


体素特征体积构建:通过使用.lift, splat, shoot(LSS)策略来构建,这使我们能够将场景理解从2D图像扩展到3D空间。


可靠的时间聚合:作者从历史帧动态聚合时间信息,以生成可靠的融合特征。这确保了模型能够学习到相关信息,而不受到无关噪声的影响。


"可靠的时间聚合"部分引入了一个"Cross-frame Pattern Affinity"(CPA,跨帧模式亲和性)模块。这个模块超越了传统的余弦相似性方法,通过测量历史帧和当前帧之间的区域上下文对应关系。这使得模型能够更好地识别跨帧的重要区域。



接下来,作者通过基于亲和性的动态细化来优化模型的预测,确保模型不仅关注高度相关的区域,还结合了它们邻近区域的信息。这种补偿对于那些可能因遮挡或有限的相机观测而不完整的区域非常有帮助。



Experiments



HTCL方法通过广泛的实验验证了其有效性。在SemanticKITTI和OpenOccupancy数据集上,HTCL通过捕获更完整和准确的场景布局,超越了像VoxFormer和TPVFormer这样的最先进方法。



HTCL的量化评估在mIoU和IOU指标上显示出了显著的改进,无论是基于相机的方法还是基于LiDAR的方法。HTCL模型甚至在mIoU方面超越了基于LiDAR的JS3C-Net和LMSCNet。



为了确保公平和全面的比较,本文还实现了基线的时间立体变体,HTCL方法在相同的时间输入下有效地实现了优越的性能。作者还进行了消融研究来评估不同的架构组件,结果显示了每个组件在增强整体模型性能中的重要性。



此外,文中还探索了使用不同数量的时间帧的效果,并观察到超过3个以前的帧的有效性增益相对较小,而且运行时间更长,因此本文采用3帧作为默认设置,以平衡效率和效果。


总之,本文提出的HTCL方法通过利用层次化的时间上下文,为基于相机的SSC提供了一种新的方法。未来将会对自动驾驶汽车和机器人等领域的应用开辟新的可能性。


本篇文章由陈研整理


往期精彩文章推荐



多模态模型在抽象图表上堪忧,它能充当合格的智能助手么?



 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言



点击 阅读原文 观看作者讲解回放!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章