ECCV 2024 | 利用函数映射优化图像对应关系:零样本推理的新方法

创业   2024-11-06 08:22   北京  

本文介绍了北京大学人工智能研究院朱毅鑫助理教授团队与斯坦福大学Leonidas Guibas团队联合在 ECCV 2024 会议上发表的论文,题为Zero-Shot Image Feature Consensus with Deep Functional Maps。
该论文提出了一种新颖的自监督框架,用于从预训练特征中推导对应的Functional Maps。该方法的核心是优化一个Functional Map,用于建立整体对象之间的关系,突破了传统的逐像素对应搜索方法。该技术有效揭示了大规模主干网络潜在的对应能力。

本文第一作者是北京大学人工智能研究院实习生程歆乐,通讯作者为斯坦福大学博士生邓丛悦、北京大学朱毅鑫助理教授、斯坦福大学Leonidas Guibas教授。论文作者还包括斯坦福大学博士后Adam W. Harley。

论文标题: 

Zero-Shot Image Feature Consensus with Deep Functional Maps 

论文链接:

https://arxiv.org/abs/2403.12038


一、概述

图1:概述。左图:给定两组特征,我们使用计算拉普拉斯特征函数基,并利用对Functional Map施加正则化。该方法通过在谱域中优化从一组特征到另一组特征的映射,以实现两者的一致性。右图:通过更好地理解图像的全局结构,我们的方法能够以零样本的方式生成更平滑且更精确的对应关系。

识别图像对应关系是中级计算机视觉中的关键任务。近年来,大规模视觉模型在生成式或判别式任务上的进展显示出处理密集对应关系的潜力。传统方法通过计算图像块之间的特征相似性来匹配最近邻,但这些模型常难以保持全局结构,因最近邻搜索过程中出现的扭曲和不连续性。尽管现有方法试图通过融合不同层的特征来缓解这一问题,但无法根本解决对应图缺乏结构的核心问题。

为了解决这个问题,我们借助来自计算机图形学的Functional Maps [3] 概念。与逐点对应不同,Functional Maps通过线性映射捕捉全局结构,特别适合处理变形和对齐任务。我们提出了从像素空间到函数空间的转变,将这一概念引入图像对应领域,从而提高方法的连贯性和效果。

具体而言,我们通过优化一个基于特征图的线性Functional Map,利用第二组特征图作为几何正则化。这一过程是无监督的,不依赖传统的像素间匹配。此外,我们还引入了transformer模块,以增强对部分遮挡和形状匹配的鲁棒性。

我们的方法在多个网络上进行了评估,显示出在匹配准确性、平滑度等方面的一致改进。尤其是在形状变化、视角变化和遮挡等复杂情况下,我们的框架表现出卓越的对应效果。总之,我们的主要贡献是开发了一种零样本框架,通过优化Functional Maps从预训练特征中推导对应关系。这种方法不仅生成了更加平滑和准确的对应关系,还提高了全局连贯性。

二、研究方法

给定一对图像 M 和 N,我们的设置包括两个不同的逐像素特征提取网络,生成两组特征:, , 。例如, 可以是 DINOv2 [4] 特征,而 则可以是 Stable Diffusion 特征。我们方法的核心是利用 计算拉普拉斯特征函数基,并使用 在优化Functional Map过程中引入正则化。

2.1 从视觉特征中构建Functional Maps

对于维度为 (h, w) 的图像表示,其中 h 是高度,w 是宽度,我们将其视为由 h×w 个节点组成的网格图。对图的边应用权重:

然后计算其图拉普拉斯矩阵 ∆M,并使用其特征向量作为基函数。

图2:图像拉普拉斯的特征函数。我们可视化了图拉普拉斯算子对应的前5个最小特征值 λ1, ···, λ5(低频)以及 λ10, λ20, λ50(高频)的特征函数。

2.2 用视觉特征添加正则化项

对于第二组特征 ,我们将其作为描述符函数,并对 施加约束,使得

2.3 添加对角化约束

特征值的大小表明其对应特征函数的频率,具有相似频率的特征函数更有可能是对应的。我们因此引入一个对角化正则项:

2.4 添加双射约束

这可以被理解为Cycle Consistency正则化的一种特殊情况。

2.5 总的优化目标函数

三、实验结果

3.1 稠密对应关系

图3:SPair-71k[2]数据集上的稠密对应关系
图3展示了使用 DINOv2-ViT-B/14 和 Stable Diffusion 网络计算的密集对应关系的定性结果。我们并列比较了使用预归一化拼接 [1] 的特征融合结果(左列)和我们的方法(右列)。在所有这些例子中,我们的框架提供了更平滑、更一致的映射,并具备全局结构感知能力。

3.2 稀疏对应关系

图4:SPair-71k数据集上的稀疏对应关系
图4展示了稀疏对应关系的匹配结果。将我们的方法与使用特征拼接获得的结果并列比较,在这些具有挑战性的场景中,我们的方法始终表现出良好的鲁棒性。

四、总结

我们的工作利用了Functional Maps生成逐点准确且全局一致的对应关系。尽管方法简单,但它在图像对的零样本推理中显著提升了匹配结果,无需额外的监督或特定任务的训练。

研究背后的故事

Q:欢迎歆乐,恭喜你成功在ECCV 2024 会议上成功发表论文,你是怎么对这个选题产生兴趣的?

A:其实我是看过 MIT 关于 shape analysis 的一个课程,发现自己对几何学的一些东西挺感兴趣的。然后在邓姐姐、朱老师和六老师(Leo的昵称)的鼓励和引导之下,我们决定把这个经常用在 3D 的这个比较几何学的一个 functional map 的一个框架,用到这个 2D 的图像中。

Q:那在你研究的过程中,有让你觉得很有意思的时刻吗?

A:在我实验过程中,我知道大概可以有这样一个方法,理论上来说它是可行的,但实际实验的时候,就会发现它(调不出来)。后来慢慢的,我开始有点知道这个东西该怎么样去操作,比如说要对图本身进行一些预处理,然后效果才会好。这时候我感觉到我好像可以掌控它了,OK,我可以掌控它的一整个训练的过程。这时候让我觉得这个领域其实是蛮有意思的。

Q:果然发表顶会论文没有一帆风顺的,那你觉得在整个发表过程中遇到的最大的困难是什么呢?

A:其实我感觉我遇到的最大的困难是我第一次发这个 paper 。因为是大二暑假做的,我们本来打算投23 年底的CVPR,那段时间赶这个 paper 非常的赶。因为我是第一次投顶会,预留的时间太少了,那段时间感觉有很多实验要做,比较手忙脚乱,我感觉那个是遇到最大的困难。

Q:那你是怎么解决的呢?当时是不是感觉像至暗时刻?

A:倒也没有,主要是因为大家都没有放弃。23年投CVPR时,第二天下午 4 点要截稿了,但前一天晚上其实还没有写完。我当时比较焦虑,但是邓姐姐跟我说你不要焦虑,你再想一想,我们一起把这个 paper 写完,把这个实验做掉,这是我现在想来都非常感动的,因为我毕竟只是实习生而已嘛。但大家即使到了最后的时候,也还是在不断的鼓励我。其实,我们第一次投了 CVPR 并没有中,但大家还是对我非常支持。邓姐姐马上带着我再投了一次ECCV,然后就中了。

Q:哇,有一个好的团队真的很重要!

A:对,所以我也一直没有放弃,继续去理解这个 functional map 这个东西。因为我们第一次被拒稿的时候,我明显感觉是我们这个实验的结果本身不是特别的好。所以我后来不断地去复盘,更加深入地了解这个东西,包括以前的工作设计,在这个 2D 上把几何和它们给结合在一起。在不断的尝试之后,我才把这个实验给做好的。通过这两次的投稿,除了几何学的知识外,我还对科研这个东西有了新的认知。当以后遇到一些问题的时候,我也会觉得没有关系,可能我再试一试,然后我就成了。很多问题它不是一个个离散的现象和点,过去的这一年多,对于我来说,是有很大的心态上的改变的。

Q:这真是非常好的收获呀!现在内耗这个词很火,你实验过程中不内耗嘛?尤其是不太成功的时候。

A:我有点想说这个,我是t人,所以我会觉得,比如说情绪上的一些波动,可能是因为生理上没有休息好引起的。所以我觉得如果比较内耗,就应该多睡觉,吃点好的,这样的话人也会变得阳光开朗起来。还有一件事情,我觉得还挺鼓励我的,就是我以前上过一个课叫地震概论,老师讲过一句话,人是波动函数,是没有办法一直都保持在一个波峰的状态。所以当我觉得我自己有点 down 的时候,我就会比较耐心地等待自己好转。比如我现在11点半就睡觉哈哈,今早还吃了星巴克的芋泥巴斯克。

Q:谢谢程同学接受我们的采访,非常感谢呀,祝你未来学业顺利!

References

[1] A tale of two features: Stable diffusion complements dino for zero-shot semantic correspondence. In: arXiv preprint arXiv:2305.15347 (2023)

[2] Min, J., Lee, J., Ponce, J., Cho, M.: Spair-71k: A large-scale benchmark for semantic correspondence. arXiv preprint arXiv:1908.10543 (2019)

[3] Functional maps: a flexible representation of maps between shapes. In: ACM TOG 31(4), 1–11(2012)

[4] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)

作者程歆乐
来源:公众号【北京大学人工智能研究院】
llustration From IconScout By IconScout Store


-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章