本文介绍了北京大学人工智能研究院朱毅鑫助理教授团队与斯坦福大学Leonidas Guibas团队联合在 ECCV 2024 会议上发表的论文,题为Zero-Shot Image Feature Consensus with Deep Functional Maps。 该论文提出了一种新颖的自监督框架,用于从预训练特征中推导对应的Functional Maps。该方法的核心是优化一个Functional Map,用于建立整体对象之间的关系,突破了传统的逐像素对应搜索方法。该技术有效揭示了大规模主干网络潜在的对应能力。 本文第一作者是北京大学人工智能研究院实习生程歆乐,通讯作者为斯坦福大学博士生邓丛悦、北京大学朱毅鑫助理教授、斯坦福大学Leonidas Guibas教授。论文作者还包括斯坦福大学博士后Adam W. Harley。
本文第一作者是北京大学人工智能研究院实习生程歆乐,通讯作者为斯坦福大学博士生邓丛悦、北京大学朱毅鑫助理教授、斯坦福大学Leonidas Guibas教授。论文作者还包括斯坦福大学博士后Adam W. Harley。
论文标题:
Zero-Shot Image Feature Consensus with Deep Functional Maps
论文链接:
https://arxiv.org/abs/2403.12038
一、概述
图1:概述。左图:给定两组特征,,我们使用计算拉普拉斯特征函数基,并利用对Functional Map施加正则化。该方法通过在谱域中优化从一组特征到另一组特征的映射,以实现两者的一致性。右图:通过更好地理解图像的全局结构,我们的方法能够以零样本的方式生成更平滑且更精确的对应关系。
识别图像对应关系是中级计算机视觉中的关键任务。近年来,大规模视觉模型在生成式或判别式任务上的进展显示出处理密集对应关系的潜力。传统方法通过计算图像块之间的特征相似性来匹配最近邻,但这些模型常难以保持全局结构,因最近邻搜索过程中出现的扭曲和不连续性。尽管现有方法试图通过融合不同层的特征来缓解这一问题,但无法根本解决对应图缺乏结构的核心问题。
为了解决这个问题,我们借助来自计算机图形学的Functional Maps [3] 概念。与逐点对应不同,Functional Maps通过线性映射捕捉全局结构,特别适合处理变形和对齐任务。我们提出了从像素空间到函数空间的转变,将这一概念引入图像对应领域,从而提高方法的连贯性和效果。
具体而言,我们通过优化一个基于特征图的线性Functional Map,利用第二组特征图作为几何正则化。这一过程是无监督的,不依赖传统的像素间匹配。此外,我们还引入了transformer模块,以增强对部分遮挡和形状匹配的鲁棒性。
我们的方法在多个网络上进行了评估,显示出在匹配准确性、平滑度等方面的一致改进。尤其是在形状变化、视角变化和遮挡等复杂情况下,我们的框架表现出卓越的对应效果。总之,我们的主要贡献是开发了一种零样本框架,通过优化Functional Maps从预训练特征中推导对应关系。这种方法不仅生成了更加平滑和准确的对应关系,还提高了全局连贯性。
二、研究方法
2.1 从视觉特征中构建Functional Maps
图2:图像拉普拉斯的特征函数。我们可视化了图拉普拉斯算子对应的前5个最小特征值 λ1, ···, λ5(低频)以及 λ10, λ20, λ50(高频)的特征函数。
2.2 用视觉特征添加正则化项
2.3 添加对角化约束
2.4 添加双射约束
2.5 总的优化目标函数
三、实验结果
3.1 稠密对应关系
图3:SPair-71k[2]数据集上的稠密对应关系
3.2 稀疏对应关系
图4:SPair-71k数据集上的稀疏对应关系
四、总结
研究背后的故事
Q:欢迎歆乐,恭喜你成功在ECCV 2024 会议上成功发表论文,你是怎么对这个选题产生兴趣的?
A:其实我是看过 MIT 关于 shape analysis 的一个课程,发现自己对几何学的一些东西挺感兴趣的。然后在邓姐姐、朱老师和六老师(Leo的昵称)的鼓励和引导之下,我们决定把这个经常用在 3D 的这个比较几何学的一个 functional map 的一个框架,用到这个 2D 的图像中。
Q:那在你研究的过程中,有让你觉得很有意思的时刻吗?
A:在我实验过程中,我知道大概可以有这样一个方法,理论上来说它是可行的,但实际实验的时候,就会发现它(调不出来)。后来慢慢的,我开始有点知道这个东西该怎么样去操作,比如说要对图本身进行一些预处理,然后效果才会好。这时候我感觉到我好像可以掌控它了,OK,我可以掌控它的一整个训练的过程。这时候让我觉得这个领域其实是蛮有意思的。
Q:果然发表顶会论文没有一帆风顺的,那你觉得在整个发表过程中遇到的最大的困难是什么呢?
A:其实我感觉我遇到的最大的困难是我第一次发这个 paper 。因为是大二暑假做的,我们本来打算投23 年底的CVPR,那段时间赶这个 paper 非常的赶。因为我是第一次投顶会,预留的时间太少了,那段时间感觉有很多实验要做,比较手忙脚乱,我感觉那个是遇到最大的困难。
Q:那你是怎么解决的呢?当时是不是感觉像至暗时刻?
A:倒也没有,主要是因为大家都没有放弃。23年投CVPR时,第二天下午 4 点要截稿了,但前一天晚上其实还没有写完。我当时比较焦虑,但是邓姐姐跟我说你不要焦虑,你再想一想,我们一起把这个 paper 写完,把这个实验做掉,这是我现在想来都非常感动的,因为我毕竟只是实习生而已嘛。但大家即使到了最后的时候,也还是在不断的鼓励我。其实,我们第一次投了 CVPR 并没有中,但大家还是对我非常支持。邓姐姐马上带着我再投了一次ECCV,然后就中了。
Q:哇,有一个好的团队真的很重要!
A:对,所以我也一直没有放弃,继续去理解这个 functional map 这个东西。因为我们第一次被拒稿的时候,我明显感觉是我们这个实验的结果本身不是特别的好。所以我后来不断地去复盘,更加深入地了解这个东西,包括以前的工作设计,在这个 2D 上把几何和它们给结合在一起。在不断的尝试之后,我才把这个实验给做好的。通过这两次的投稿,除了几何学的知识外,我还对科研这个东西有了新的认知。当以后遇到一些问题的时候,我也会觉得没有关系,可能我再试一试,然后我就成了。很多问题它不是一个个离散的现象和点,过去的这一年多,对于我来说,是有很大的心态上的改变的。
Q:这真是非常好的收获呀!现在内耗这个词很火,你实验过程中不内耗嘛?尤其是不太成功的时候。
A:我有点想说这个,我是t人,所以我会觉得,比如说情绪上的一些波动,可能是因为生理上没有休息好引起的。所以我觉得如果比较内耗,就应该多睡觉,吃点好的,这样的话人也会变得阳光开朗起来。还有一件事情,我觉得还挺鼓励我的,就是我以前上过一个课叫地震概论,老师讲过一句话,人是波动函数,是没有办法一直都保持在一个波峰的状态。所以当我觉得我自己有点 down 的时候,我就会比较耐心地等待自己好转。比如我现在11点半就睡觉哈哈,今早还吃了星巴克的芋泥巴斯克。
Q:谢谢程同学接受我们的采访,非常感谢呀,祝你未来学业顺利!
References
[1] A tale of two features: Stable diffusion complements dino for zero-shot semantic correspondence. In: arXiv preprint arXiv:2305.15347 (2023)
[2] Min, J., Lee, J., Ponce, J., Cho, M.: Spair-71k: A large-scale benchmark for semantic correspondence. arXiv preprint arXiv:1908.10543 (2019)
[3] Functional maps: a flexible representation of maps between shapes. In: ACM TOG 31(4), 1–11(2012)
[4] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)
作者:程歆乐 来源:公众号【北京大学人工智能研究院】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。