章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

文摘 2024-11-27 07:00 上海

作者 | 3D视觉工坊编辑 | 3D视觉工坊

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

0. 论文信息

标题：DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild

作者：Weicai Ye, Xinyu Chen, Ruohao Zhan, Di Huang, Xiaoshui Huang, Haoyi Zhu, Hujun Bao, Wanli Ouyang, Tong He, Guofeng Zhang

机构：Zhejiang University、Shanghai AI Laboratory

原文链接：https://arxiv.org/abs/2411.13291

1. 导读

本文提出了一种简洁、优雅和健壮的管道来估计平滑的相机轨迹并获得野外休闲视频的密集点云。传统的框架，如particles FM ~ cite { Zhao 2022 particles FM }，通过顺序计算相邻帧之间的光流来获得点轨迹，从而解决了这个问题。然后，它们通过运动分割移除动态轨迹，并执行全局束调整。然而，估计两个相邻帧之间的光流并将匹配链接起来的过程会引入累积误差。此外，与单视图深度估计相结合的运动分割经常面临与尺度模糊相关的挑战。为了应对这些挑战，我们提出了一种动态感知跟踪任意点(DATAP)方法，该方法利用了一致的视频深度和点跟踪。具体来说，我们的DATAP通过估计视频序列中的密集点跟踪并预测每个点的可见性和动态来解决这些问题。通过引入一致的视频深度先验，增强了运动分割的性能。随着DATAP的集成，通过对分类为静态和可见的点跟踪执行全局束调整，而不是依赖于增量相机配准，可以同时估计和优化所有相机姿态。在动态序列(例如Sintel和TUM RGBD动态序列)和野生视频(例如DAVIS)上的大量实验表明，即使在复杂的动态挑战场景中，所提出的方法在相机姿态估计方面也实现了最先进的性能。

2. 引言

从单目视频中估计运动相机的姿态在计算机视觉和机器人学领域发挥着基础性作用，在自动驾驶、增强现实等多个领域均有应用。在日常随意拍摄的视频中，相机通常处于移动状态，而复杂的前景运动，包括人物、车辆和其他移动物体，占据了视频帧的大部分。这给在此类场景中实现稳健的相机姿态估计带来了重大挑战。

传统的间接SLAM或SfM方法通过提取和匹配高质量特征点，并利用非线性优化技术来估计相机姿态和重建三维点云，从而最小化几何重投影误差。相比之下，直接SLAM或SfM方法通过优化光度误差（假设视频外观一致）来进行相机跟踪。虽然这些方法已显示出良好效果，但在包含大量动态物体的场景中，它们往往难以实现稳健定位。这一局限性在动态物体常见的真实场景中尤为明显。

为解决这一问题，一些视觉里程计或SLAM方法使用语义或几何先验来减轻由特定类型潜在动态物体（如人或车辆）引起的干扰。然而，在实际自然场景中，一些看似静止的物体也可能呈现运动状态，例如水杯被拿起或移动，或柳枝在风中摇曳。这使得上述依赖语义约束的方法失效。另一方面，一些端到端的视觉里程计或SLAM方法通过训练数据隐式建模场景物体的复杂运动，并通过关注静态区域来估计相机姿态。然而，这些方法在推广到野外视频时面临挑战。

最近，ParticleSfM提出了一种方法，该方法涉及构建点轨迹，应用轨迹运动分割以解决动态轨迹干扰，并执行全局捆集调整以改进姿态估计。该方法在泛化性能和姿态估计准确性方面显示出前景，但也存在明显局限性：（1）基于成对光流匹配的点轨迹构建无疑会带来长期累积误差。（2）使用单目姿态估计进行运动分割存在尺度模糊问题。

基于最近表现突出的二维点跟踪方法，如TAPIR、CoTracker和Omniotion，我们提出了一种新颖的方法，称为动态感知跟踪任意点（Dynamic-Aware Tracking Any Point，DATAP），通过利用一致的视频深度估计和长期点跟踪来解决上述问题。具体而言，DATAP是一种以滑动窗口方式运行的Transformer网络。它估计视频中采样点的点跟踪和可见性。Transformer网络融合了自注意力机制和交叉注意力机制，将滑动窗口内的每条轨迹视为一个整体。这有助于利用轨迹特征之间的相关性，并促进轨迹内和轨迹间的信息交换。在滑动窗口内，每个查询点的轨迹最初设置为0。网络将通过Transformer的迭代逐步细化这些初始估计。随后的重叠窗口将基于前一个窗口的细化预测来初始化轨迹和可见性，并更新新帧的轨迹和可见性。

为估计轨迹的动态运动标签，我们在跟踪特征中融入了多层感知层。这一附加层预测动态运动的概率，类似于预测可见性的方式。这样做旨在解决仅使用二维点跟踪进行动态预测时可能出现的模糊性。受ParticleSfM启发，我们利用深度信息并设计了一个Transformer模块，以消除二维点运动分割中的模糊性。考虑到单目视频单视图深度估计所带来的尺度模糊问题，我们建议使用一致的视频深度估计进行深度初始化。

结合DATAP，我们构建了一个简洁、优雅且稳健的野外运动恢复结构（Structure from Motion，SfM）流程。在MPI Sintel数据集和TUM RGBD动态序列上的实验表明，我们的动态感知点跟踪方法结合SfM可有效提升动态场景中相机定位的准确性。我们还在如DAVIS等野外随意拍摄的视频上验证了该方法，证明了其在复杂挑战性场景中的定位鲁棒性。

3. 效果展示

给定随意的视频，我们的方法可以获得平滑的摄像机轨迹和动态场景的完整点云。从上到下:视频样本、来自COLMAP、ParticleSfM和我们的结果。

MPI Sintel数据集上摄像机姿态估计的定性结果。我们的方法优于现有的SOTA方法。

4. 主要贡献

我们的贡献总结如下：

• 我们提出了一种新颖的动态感知跟踪任意点（DATAP）网络，能够以滑动窗口的方式同时估计点跟踪、可见性和动态性，并利用一致的视频深度先验进一步提升性能。

• 结合DATAP和全局捆集调整，我们提出了一种简洁、优雅且稳健的流程，可从随意拍摄的单目视频中生成平滑的相机轨迹和密集的点云。推荐课程：单目深度估计方法：算法梳理与代码实现。

• 大量实验表明，所提方法在复杂动态挑战场景中优于当前最优方法（State-Of-The-Art，SOTA）。

5. 方法

我们的目标是通过随意拍摄的单目视频实现平滑的相机轨迹和一致的视频深度。为此，我们提出了一种动态感知跟踪任意点方法，即DATAP，以估计视频中点的轨迹及其可见性和动态特性。结合DATAP，我们正式提出了一个简洁、优雅且稳健的野外运动恢复结构流程。图2概述了我们的方法流程。

6. 实验结果

MPI Sintel数据集是一个合成自然视频序列，包含23个复杂且具有挑战性的场景，如高度动态场景、运动模糊场景、非刚性运动场景等。遵循ParticleSfM的方法，我们移除了对评估单目相机位姿无效的序列，如静态相机运动序列，留下14个序列用于比较。我们将本文方法与经典的特征点SfM方法COLMAP及其变体，以及最新的深度学习方法进行了比较。表2中的定量位姿估计结果表明，COLMAP及其变体只能在某些序列上进行位姿估计。而基于学习的最先进方法，如DROID-SLAM在动态场景中表现不佳，难以获得准确的相机轨迹。虽然最近的ParticleSfM在大多数场景中表现良好，但本文基于动态感知点跟踪的SfM方法远优于它们，在所有数据集上的绝对轨迹误差（ATE）提高了19.37%，在COLMAP子集上的ATE提高了28.57%。

TUM RGBD数据集是评估不同挑战下SLAM或SfM算法性能的基准。为了评估本文方法在动态室内场景中的性能，我们选择了9个包含动态对象（如移动的人）的序列。由于ParticleSfM在动态场景中通常表现更好，我们选择ParticleSfM作为主要比较对象。通过运行ParticleSfM的开源代码，实验表明，ParticleSfM在TUM的9个数据集中会出现系统失败，而本文方法能够解算出相机位姿，这显示了本文方法的鲁棒性。在ParticleSfM的子集中，本文方法在ATE上提高了26.62%。

DAVIS数据集是评估视频对象分割和跟踪（无真实相机位姿）的基准。它包含许多挑战，如多对象遮挡、复杂运动、运动模糊等。为了进一步证明本文方法的泛化能力，我们从DAVIS数据集中选择了15个序列，并定性可视化了本文方法的效果。实验表明，COLMAP只能运行DAVIS的15个序列中的10个，而ParticleSfM只能运行8个序列。它们难以获得满意的位姿估计。我们还在图5中展示了更多的定性结果。

7. 总结 & 局限性

本文提出了一种具有动态感知点跟踪的结构从运动（SfM）方法，用于准确的位姿估计。本文方法能够为野外随意拍摄的视频中的动态场景获得平滑的相机轨迹和完整的点云，并且在动态场景中优于现有的SfM和SLAM方法。

局限性。尽管本文方法能够在动态场景中进行鲁棒的位姿估计和一致的视频深度估计，但它不能像实时SLAM系统那样运行，即使我们采用了基于滑动窗口的点跟踪机制。开发一种高效的动态感知点跟踪方法是一个有前景的方向。探索大规模且多样的互联网视频来训练点跟踪方法将进一步提高其鲁棒性。我们将其留作未来工作。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247517755&idx=2&sn=298aaff16da1abc129eb097bd281e294

3D视觉之心

3D视觉与SLAM、点云相关内容分享

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

具身智能训练数据集哪里找？几大开源数据集帮你汇总好了！

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

字节&清华&北京交通大学发布V2X-Radar: 一个用于协同感知的4D雷达多模态数据集

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

3DLS全新尝试：线性高斯核在高频区域实现更清晰、更精确的结果，帧率提高30%！

闭环仿真杀器！DrivingSphere：理想提出直接构建高保真4D世界

真实雨景/图像去雨/自动驾驶/图像检索相关方向开源数据集资源

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

高速动态低成本重建救星？SCIGS：首个从单个压缩图像重建3D显式动态场景的方法

论文分享 | 全景场景补全

动态SLAM全新数据集！InCrowd-VI：不同人群密度、遮挡、复杂光照的视觉惯性SLAM数据集！

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

盘点！那些从自动驾驶“跳槽”进具身智能的大佬们

清华大学发布使用CARLA生成V2V与V2I的增强自动驾驶协作的多智能体调度数据集WHALES

GarVerseLOD：实现单张图像高保真度服装重建的3D重建框架

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉