论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

文摘 2024-10-31 18:01 意大利

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

作者简介

李博涵，上海交通大学、东方理工联培博士生

概述

基于相机的3D语义场景补全（SSC）对于预测复杂的3D布局和有限的2D图像观测至关重要。现有的主流解决方案通常通过大致堆叠历史帧来利用时间信息来补充当前帧，这种直接的时间建模不可避免地减少了有效线索，并增加了学习难度。为了解决这个问题，我们提出了HTCL，这是一种新颖的层次化时间上下文学习范式，用于改进基于相机的语义场景补全。这项工作的主要创新在于将时间上下文学习分解为两个层次化的步骤：（a）跨帧亲和性测量和（b）基于亲和性的动态细化。首先，为了从冗余信息中分离出关键的相关上下文，我们引入了具有尺度感知隔离和多个独立学习器的模式亲和性，用于细粒度的上下文对应建模。随后，为了动态补偿不完整的观测，我们根据最初识别的具有高亲和性的位置及其邻近的相关区域，自适应地细化特征采样位置。我们的方法在SemanticKITTI基准测试中排名第一，甚至在OpenOccupancy基准测试中的mIoU方面超越了基于LiDAR的方法。

论文地址：https://arxiv.org/pdf/2407.02077

代码链接：https://github.com/Arlo0o/HTCL

Motivation

语义场景补全（Semantic Scene Completion，简称SSC）是3D感知中的一个关键任务，它要求从有限的观测中推断出完整的3D场景。这是一个复杂且定义不明确的问题，但对于自动驾驶、机器人技术、增强现实等应用领域至关重要。

传统的方法中，SSC通过大致堆叠历史帧来使用时间信息，以帮助推断当前帧。然而，这种方法存在挑战——它引入了噪声和冗余，使得模型难以从数据中提取有意义的线索。

与此不同，本文提出的方法，层次化时间上下文学习（Hierarchical Temporal Context Learning，简称HTCL）利用层次化的时间学习策略，旨在减少噪声并增强模型从时间数据中学习有意义模式的能力，从而提高3D场景补全的准确性。

HTCL方法与以往的方法不同，它通过在时间帧中动态采样相关上下文。这使得HTCL能够捕获重要的上下文模式，即使是在相机视野之外的区域，从而实现最先进的性能。

Methodology

本文框架由几个关键组件构成：对齐的时间体积构建（Aligned Temporal Volume Construction）、体素特征体积构建（Voxel Feature Volume Construction）和可靠的时间聚合（Reliable Temporal Aggregation）。

对齐的时间体积构建：采用时间序列的RGB图像，并通过极线齐次变换将历史帧与当前帧对齐。这减少了帧间的不对齐问题。

体素特征体积构建：通过使用.lift, splat, shoot（LSS）策略来构建，这使我们能够将场景理解从2D图像扩展到3D空间。

可靠的时间聚合：作者从历史帧动态聚合时间信息，以生成可靠的融合特征。这确保了模型能够学习到相关信息，而不受到无关噪声的影响。

"可靠的时间聚合"部分引入了一个"Cross-frame Pattern Affinity"（CPA，跨帧模式亲和性）模块。这个模块超越了传统的余弦相似性方法，通过测量历史帧和当前帧之间的区域上下文对应关系。这使得模型能够更好地识别跨帧的重要区域。

接下来，作者通过基于亲和性的动态细化来优化模型的预测，确保模型不仅关注高度相关的区域，还结合了它们邻近区域的信息。这种补偿对于那些可能因遮挡或有限的相机观测而不完整的区域非常有帮助。

Experiments

HTCL方法通过广泛的实验验证了其有效性。在SemanticKITTI和OpenOccupancy数据集上，HTCL通过捕获更完整和准确的场景布局，超越了像VoxFormer和TPVFormer这样的最先进方法。

HTCL的量化评估在mIoU和IOU指标上显示出了显著的改进，无论是基于相机的方法还是基于LiDAR的方法。HTCL模型甚至在mIoU方面超越了基于LiDAR的JS3C-Net和LMSCNet。

为了确保公平和全面的比较，本文还实现了基线的时间立体变体，HTCL方法在相同的时间输入下有效地实现了优越的性能。作者还进行了消融研究来评估不同的架构组件，结果显示了每个组件在增强整体模型性能中的重要性。

此外，文中还探索了使用不同数量的时间帧的效果，并观察到超过3个以前的帧的有效性增益相对较小，而且运行时间更长，因此本文采用3帧作为默认设置，以平衡效率和效果。

总之，本文提出的HTCL方法通过利用层次化的时间上下文，为基于相机的SSC提供了一种新的方法。未来将会对自动驾驶汽车和机器人等领域的应用开辟新的可能性。

本篇文章由陈研整理

往期精彩文章推荐

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247528839&idx=1&sn=2ef4fe625d52b5cf61e4c7f3ab317eee

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉