ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

创业 2024-11-06 08:22 北京

本文介绍了北京大学人工智能研究院朱毅鑫助理教授团队与斯坦福大学Leonidas Guibas团队联合在 ECCV 2024 会议上发表的论文，题为Zero-Shot Image Feature Consensus with Deep Functional Maps。
该论文提出了一种新颖的自监督框架，用于从预训练特征中推导对应的Functional Maps。该方法的核心是优化一个Functional Map，用于建立整体对象之间的关系，突破了传统的逐像素对应搜索方法。该技术有效揭示了大规模主干网络潜在的对应能力。
本文第一作者是北京大学人工智能研究院实习生程歆乐，通讯作者为斯坦福大学博士生邓丛悦、北京大学朱毅鑫助理教授、斯坦福大学Leonidas Guibas教授。论文作者还包括斯坦福大学博士后Adam W. Harley。

论文标题：
Zero-Shot Image Feature Consensus with Deep Functional Maps
论文链接：
https://arxiv.org/abs/2403.12038

一、概述

图1：概述。左图：给定两组特征，，我们使用计算拉普拉斯特征函数基，并利用对Functional Map施加正则化。该方法通过在谱域中优化从一组特征到另一组特征的映射，以实现两者的一致性。右图：通过更好地理解图像的全局结构，我们的方法能够以零样本的方式生成更平滑且更精确的对应关系。

识别图像对应关系是中级计算机视觉中的关键任务。近年来，大规模视觉模型在生成式或判别式任务上的进展显示出处理密集对应关系的潜力。传统方法通过计算图像块之间的特征相似性来匹配最近邻，但这些模型常难以保持全局结构，因最近邻搜索过程中出现的扭曲和不连续性。尽管现有方法试图通过融合不同层的特征来缓解这一问题，但无法根本解决对应图缺乏结构的核心问题。

为了解决这个问题，我们借助来自计算机图形学的Functional Maps [3] 概念。与逐点对应不同，Functional Maps通过线性映射捕捉全局结构，特别适合处理变形和对齐任务。我们提出了从像素空间到函数空间的转变，将这一概念引入图像对应领域，从而提高方法的连贯性和效果。

具体而言，我们通过优化一个基于特征图的线性Functional Map，利用第二组特征图作为几何正则化。这一过程是无监督的，不依赖传统的像素间匹配。此外，我们还引入了transformer模块，以增强对部分遮挡和形状匹配的鲁棒性。

我们的方法在多个网络上进行了评估，显示出在匹配准确性、平滑度等方面的一致改进。尤其是在形状变化、视角变化和遮挡等复杂情况下，我们的框架表现出卓越的对应效果。总之，我们的主要贡献是开发了一种零样本框架，通过优化Functional Maps从预训练特征中推导对应关系。这种方法不仅生成了更加平滑和准确的对应关系，还提高了全局连贯性。

二、研究方法

给定一对图像 M 和 N，我们的设置包括两个不同的逐像素特征提取网络，生成两组特征：, 和 , 。例如，和可以是 DINOv2 [4] 特征，而和则可以是 Stable Diffusion 特征。我们方法的核心是利用和计算拉普拉斯特征函数基，并使用和在优化Functional Map过程中引入正则化。

2.1 从视觉特征中构建Functional Maps

对于维度为 (h, w) 的图像表示，其中 h 是高度，w 是宽度，我们将其视为由 h×w 个节点组成的网格图。对图的边应用权重：

然后计算其图拉普拉斯矩阵 ∆M，并使用其特征向量作为基函数。

图2：图像拉普拉斯的特征函数。我们可视化了图拉普拉斯算子对应的前5个最小特征值 λ1, ···, λ5（低频）以及 λ10, λ20, λ50（高频）的特征函数。

2.2 用视觉特征添加正则化项

对于第二组特征和，我们将其作为描述符函数，并对施加约束，使得

2.3 添加对角化约束

特征值的大小表明其对应特征函数的频率，具有相似频率的特征函数更有可能是对应的。我们因此引入一个对角化正则项：

2.4 添加双射约束

这可以被理解为Cycle Consistency正则化的一种特殊情况。

2.5 总的优化目标函数

三、实验结果

3.1 稠密对应关系

图3：SPair-71k[2]数据集上的稠密对应关系

图3展示了使用 DINOv2-ViT-B/14 和 Stable Diffusion 网络计算的密集对应关系的定性结果。我们并列比较了使用预归一化拼接 [1] 的特征融合结果（左列）和我们的方法（右列）。在所有这些例子中，我们的框架提供了更平滑、更一致的映射，并具备全局结构感知能力。

3.2 稀疏对应关系

图4：SPair-71k数据集上的稀疏对应关系

图4展示了稀疏对应关系的匹配结果。将我们的方法与使用特征拼接获得的结果并列比较，在这些具有挑战性的场景中，我们的方法始终表现出良好的鲁棒性。

四、总结

我们的工作利用了Functional Maps生成逐点准确且全局一致的对应关系。尽管方法简单，但它在图像对的零样本推理中显著提升了匹配结果，无需额外的监督或特定任务的训练。

研究背后的故事

Q：欢迎歆乐，恭喜你成功在ECCV 2024 会议上成功发表论文，你是怎么对这个选题产生兴趣的？

A：其实我是看过 MIT 关于 shape analysis 的一个课程，发现自己对几何学的一些东西挺感兴趣的。然后在邓姐姐、朱老师和六老师（Leo的昵称）的鼓励和引导之下，我们决定把这个经常用在 3D 的这个比较几何学的一个 functional map 的一个框架，用到这个 2D 的图像中。

Q：那在你研究的过程中，有让你觉得很有意思的时刻吗？

A：在我实验过程中，我知道大概可以有这样一个方法，理论上来说它是可行的，但实际实验的时候，就会发现它（调不出来）。后来慢慢的，我开始有点知道这个东西该怎么样去操作，比如说要对图本身进行一些预处理，然后效果才会好。这时候我感觉到我好像可以掌控它了，OK，我可以掌控它的一整个训练的过程。这时候让我觉得这个领域其实是蛮有意思的。

Q：果然发表顶会论文没有一帆风顺的，那你觉得在整个发表过程中遇到的最大的困难是什么呢？

A：其实我感觉我遇到的最大的困难是我第一次发这个 paper 。因为是大二暑假做的，我们本来打算投23 年底的CVPR，那段时间赶这个 paper 非常的赶。因为我是第一次投顶会，预留的时间太少了，那段时间感觉有很多实验要做，比较手忙脚乱，我感觉那个是遇到最大的困难。

Q：那你是怎么解决的呢？当时是不是感觉像至暗时刻？

A：倒也没有，主要是因为大家都没有放弃。23年投CVPR时，第二天下午 4 点要截稿了，但前一天晚上其实还没有写完。我当时比较焦虑，但是邓姐姐跟我说你不要焦虑，你再想一想，我们一起把这个 paper 写完，把这个实验做掉，这是我现在想来都非常感动的，因为我毕竟只是实习生而已嘛。但大家即使到了最后的时候，也还是在不断的鼓励我。其实，我们第一次投了 CVPR 并没有中，但大家还是对我非常支持。邓姐姐马上带着我再投了一次ECCV，然后就中了。

Q：哇，有一个好的团队真的很重要！

A：对，所以我也一直没有放弃，继续去理解这个 functional map 这个东西。因为我们第一次被拒稿的时候，我明显感觉是我们这个实验的结果本身不是特别的好。所以我后来不断地去复盘，更加深入地了解这个东西，包括以前的工作设计，在这个 2D 上把几何和它们给结合在一起。在不断的尝试之后，我才把这个实验给做好的。通过这两次的投稿，除了几何学的知识外，我还对科研这个东西有了新的认知。当以后遇到一些问题的时候，我也会觉得没有关系，可能我再试一试，然后我就成了。很多问题它不是一个个离散的现象和点，过去的这一年多，对于我来说，是有很大的心态上的改变的。

Q：这真是非常好的收获呀！现在内耗这个词很火，你实验过程中不内耗嘛？尤其是不太成功的时候。

A：我有点想说这个，我是t人，所以我会觉得，比如说情绪上的一些波动，可能是因为生理上没有休息好引起的。所以我觉得如果比较内耗，就应该多睡觉，吃点好的，这样的话人也会变得阳光开朗起来。还有一件事情，我觉得还挺鼓励我的，就是我以前上过一个课叫地震概论，老师讲过一句话，人是波动函数，是没有办法一直都保持在一个波峰的状态。所以当我觉得我自己有点 down 的时候，我就会比较耐心地等待自己好转。比如我现在11点半就睡觉哈哈，今早还吃了星巴克的芋泥巴斯克。

Q：谢谢程同学接受我们的采访，非常感谢呀，祝你未来学业顺利！

References

[1] A tale of two features: Stable diffusion complements dino for zero-shot semantic correspondence. In: arXiv preprint arXiv:2305.15347 (2023)

[2] Min, J., Lee, J., Ponce, J., Cho, M.: Spair-71k: A large-scale benchmark for semantic correspondence. arXiv preprint arXiv:1908.10543 (2019)

[3] Functional maps: a flexible representation of maps between shapes. In: ACM TOG 31(4), 1–11(2012)

[4] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)

作者：程歆乐
来源：公众号【北京大学人工智能研究院】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515145&idx=2&sn=3a62b7c7b92b62459c40fd2b3c886131

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉