WACV 2025 | 多任务学习提升Visual Anagram生成

创业科技 2024-12-13 08:22 北京

本文介绍了来自清华大学智能产业研究院的研究团队提出的基于预训练文生图扩散模型结合多任务学习方法的生成Visual Anagram的方法，此方法无需训练/微调现有模型，并解决了已有方法存在的概念分离与主导等问题，在此生成任务上取得新的最佳性能。

论文题目：
Diffusion-based Visual Anagram as Multi-task Learning
论文链接：
https://arxiv.org/abs/2412.02693
代码链接：
https://github.com/Pixtella/Anagram-MTL

一、研究背景与动机

视觉回文（Visual Anagram）是一类特殊的图像，在不同角度下，他们看起来所呈现的内容可能完全不同，这类视幻觉在很久以前就得到了艺术家、哲学家以及科学家的关注与研究。

早期由艺术家手工创作的Visual Anagram代表包括1892刊载于德国幽默杂志Fliegende Blät ter的素描画Kaninchen und Ente，这幅画正着看像一只嘴巴朝左的鸭子，但如果将其旋转45度，它又像一只兔子，原先的鸭嘴部分成了兔子耳朵。

Kaninchen und Ente

另一个代表是意大利文艺复兴时期的矫饰主义代表画家朱塞佩·阿尔钦博托（Giuseppe Arcimboldo）的油画作品The Fruit Basket，它正着看像是一个果篮，但倒过来时，则呈现为一个人的面部。

这些画作在不同的视角或几何变换下生成多重意象，而这些意象需要在一幅图像中协调统一。

最近，基于预训练扩散模型生成Visual Anagram的方法被提出[1]，该方法将含噪图像经过不同视角变换后分别输入到扩散模型中，然后将预测出的噪声取平均后进行去噪，此方法可以成功生成一些Visual Anagram。

现有的基于扩散模型生成Visual Anagram方法示意[1]

但是，由于此方法对去噪过程缺少显式的控制，较容易出现两类失败情形：概念分离（Concept Segregation）和概念主导（Concept Domination）。概念分离指的是不同视角下的概念被独立地生成，未能实现真正的图像一体化；而概念主导则是某些对象显著压制了其他对象的表达。这些问题使得现有方法难以生成满足要求的高质量Visual Anagram。

现有方法的失败案例。左：概念分离，兔子和小提琴被独立地生成在了图像的不同区域而未达成一幅图像中的协调统一；右：概念主导，生成的图像被概念“猫”主导，没能在另一个视角下表达“船”。

在本研究中，为解决上述问题，研究团队将Visual Anagram的生成建模为一个多任务学习问题，并设计了抗分离优化（Anti-Segregation Optimization）、噪声向量平衡（Noise Vector Balancing）、噪声方差修正（Noise Variance Rectification）三项核心技术。

实验结果表明，该方法在多项定量和定性评估指标上均显著优于现有的基线方法，以及在生成更复杂的三视角Visual Anagram时，展示出了更高的灵活性和一致性。

二、方法

算法总览：在每个去噪步骤中，各视角下的中间图像与对应文本提示先一起通过扩散模型以及一个CLIP模型，随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。

问题定义：问题的目标是利用现成的文生图扩散模型生成Visual Anagram。形式化地，给定一组文本提示及其对应的视角，期望生成一幅图像，使其在每个视角下与相应的文本提示词匹配。

2.1 抗分离优化

在多任务学习（Multi-task Learning）中，单一模型被训练来同时解决多个任务，这是通过在模型中共享表征以利用任务之间的相似性达成的。类似地，在Visual Anagram生成中，不同文本提示中的概念（Concept）被期望共享同一幅图像。

抗分离优化旨在解决概念分离问题。研究团队设计了一种推理时损失项（Inference-time loss term），调整中间图像以鼓励不同视角下文本提示词与图像的交叉注意力图（Cross-attention maps）重叠。损失项的计算公式如下：

其中，遍历注意力图中的所有像素点，表示在时间步时，像素点处与来自概念的所有令牌（token）的注意力分数之和，是视角总数，是一个用于控制目标重叠比例的超参数。

在每个去噪步骤之后，使用此损失项通过单步梯度下降调整图像：

其中，控制调整力度。更新后的图像将传递到下一个去噪步骤。

抗分离优化技术通过促进注意力图重叠进而鼓励所生成概念的重叠，从而有效地防止了概念的分离，进而提高Visual Anagram生成质量。

抗分离优化：定性结果。应用抗分离优化后，去噪过程找到了两个视角下的生成任务的共性，体现为交集更大的注意力空间分配，最终实现单一图像中更高程度的概念统一和画面协调性。

2.2 噪声向量平衡

多任务学习中的一个常见挑战是任务间梯度的不平衡问题，其中某些任务可能主导整个学习过程。为了解决这一问题，GradNorm[2]提出可以实时衡量每个任务的训练进展，并为进展较少的任务分配更高的梯度权重。

受此启发，研究团队提出了一种基于任务完成度的噪声向量权重分配方法。具体来说，将文本提示及其对应的含噪图像分别输入到CLIP文本编码器和在含噪图像上训练过的CLIP图像编码器中。然后，把图像与文本编码的余弦相似度作为任务完成度评分，这个评分将用于组合噪声向量时各向量的赋权。

赋权和组合过程的公式如下：

1. 计算每个视角的任务完成度评分（余弦相似度）：

2. 计算每个视角的权重系数：

3. 系数归一化：

4. 组合重赋权后的噪声向量：

其中，和分别代表CLIP文本编码器和CLIP图像编码器，为视角的下标，表示视角变换函数，是视角的文本提示，是视角在时间步的噪声预测，是去噪步骤的总数。重赋权后的噪声向量将被用来计算下一个图像。

直观上，生成任务更接近完成的视角的噪声向量会被赋予较低的权重，防止它在去噪过程中占据主导地位。通过这种方式，噪声向量平衡技术有效地平衡了不同视角的生成任务的进度，提高Visual Anagram的整体质量。

噪声向量平衡：定性结果。基线方法生成的图像被概念“鹿”主导，而几乎没有体现“鸟”，应用提出的噪声向量平衡技术后，鸟的眼睛、尾巴上的羽毛、腿和爪子等细节被成功地生成。

2.3 噪声方差修正

研究团队观察到，尽管每个视角的噪声向量估计被期望服从标准正态分布，但在Visual Anagram的生成中，噪声向量直接平均后可能不再保持这些统计属性，这可能破坏整个去噪过程。因此，研究团队提出了一种矫正方法，通过施加一个比例因子来调整组合后的噪声向量，使其方差呈现标准方差。

具体步骤和公式如下：

1. 基本假设：每个视角下预测所得噪声向量遵循标准高斯分布。

2. 因此，对于重赋权后的组合噪声向量中的每个元素，其期望值为零：

3. 然而，方差不一定为一。为了解决这个问题，研究者们提出通过一个比例因子来矫正组合噪声向量，使得方差为单位方差。

4. 由此可得到比例因子的计算公式：

5. 其中，协方差项等于它们的相关系数，因为和都遵循标准高斯分布。

6. 根据大数定律，可以近似协方差项为：

7. 最后，通过将估计的协方差项代入，计算出所需的比例因子，并将组合噪声向量乘以这个比例因子进行矫正。

通过这种噪声方差矫正方法，噪声的关键统计属性得以被保持，由此提高整体的图像生成质量。

噪声方差修正：定性结果。应用该技术后，所生成图像的质量更优。

三、实验

研究团队进行了全面的定性、定量以及消融实验。对于定量实验，在二视角、三视角的设定下，以CIFAR-10数据集中10类概念的相互组合作文文本提示，令所有参测方法对每组提示词生成10张图像，使用最差视角对齐度（Worst Alignment Score）、隐藏度（Concealment Score）、平均视角对齐度（Average Alignment Score）三个定量指标评价所生成的Visual Anagrams的质量。

3.1 定量结果

定量结果：研究团队提出的方法在所测指标上优于已有方法。

3.2 消融实验

消融实验：抗分离优化（Anti-Segregation Optimization）、噪声向量平衡（Noise Vector Balancing）、噪声方差修正（Noise Variance Rectification）三项核心技术均对提升定量结果有效。

3.3 定性结果

定性结果：研究团队提出的方法可以生成视觉效果更优的Visual Anagram。

四、总结

此项研究从多任务学习领域汲取灵感，设计三项核心技术，解决了现有方法的概念分离与概念主导两大问题，并从数学上修正了去噪过程，进而在预训练图生文扩散模型生成Visual Anagram这一问题上取得新的最优性能。

此外，基于扩散模型生成Visual Anagram的研究，不仅为计算机视觉领域提供了创新的生成方法，也为艺术创作、认知科学研究等领域提供了新的思路和工具。期待未来此类研究能为生成式模型的多模态融合与跨领域应用提供新的技术支持和理论框架。

参考文献

[1] Geng, Daniel, Inbum Park, and Andrew Owens. “Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models,” 24154–63, 2024. https://openaccess.thecvf.com/content/CVPR2024/html/Geng_Visual_Anagrams_Generating_Multi-View_Optical_Illusions_with_Diffusion_Models_CVPR_2024_paper.html.

[2] Chen, Zhao, Vijay Badrinarayanan, Chen-Yu Lee, and Andrew Rabinovich. “GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks.” In Proceedings of the 35th International Conference on Machine Learning, 794–803. PMLR, 2018.

https://proceedings.mlr.press/v80/chen18a.html.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

WACV 2025 | 多任务学习提升Visual Anagram生成

一、研究背景与动机

Kaninchen und Ente

现有的基于扩散模型生成Visual Anagram方法示意[1]

现有方法的失败案例。左：概念分离，兔子和小提琴被独立地生成在了图像的不同区域而未达成一幅图像中的协调统一；右：概念主导，生成的图像被概念“猫”主导，没能在另一个视角下表达“船”。

算法总览：在每个去噪步骤中，各视角下的中间图像 与对应文本提示先一起通过扩散模型以及一个CLIP模型，随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。

2.1 抗分离优化

抗分离优化：定性结果。应用抗分离优化后，去噪过程找到了两个视角下的生成任务的共性，体现为交集更大的注意力空间分配，最终实现单一图像中更高程度的概念统一和画面协调性。

2.2 噪声向量平衡

噪声向量平衡：定性结果。基线方法生成的图像被概念“鹿”主导，而几乎没有体现“鸟”，应用提出的噪声向量平衡技术后，鸟的眼睛、尾巴上的羽毛、腿和爪子等细节被成功地生成。

2.3 噪声方差修正

噪声方差修正：定性结果。应用该技术后，所生成图像的质量更优。

三、实验

3.1 定量结果

定量结果：研究团队提出的方法在所测指标上优于已有方法。

3.2 消融实验

消融实验：抗分离优化（Anti-Segregation Optimization）、噪声向量平衡（Noise Vector Balancing）、噪声方差修正（Noise Variance Rectification）三项核心技术均对提升定量结果有效。

3.3 定性结果

定性结果：研究团队提出的方法可以生成视觉效果更优的Visual Anagram。

四、总结

参考文献

算法总览：在每个去噪步骤中，各视角下的中间图像与对应文本提示先一起通过扩散模型以及一个CLIP模型，随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。