本文介绍了来自清华大学智能产业研究院的研究团队提出的基于预训练文生图扩散模型结合多任务学习方法的生成Visual Anagram的方法,此方法无需训练/微调现有模型,并解决了已有方法存在的概念分离与主导等问题,在此生成任务上取得新的最佳性能。
论文题目:
Diffusion-based Visual Anagram as Multi-task Learning
论文链接:
https://arxiv.org/abs/2412.02693
代码链接:
https://github.com/Pixtella/Anagram-MTL
一、研究背景与动机
视觉回文(Visual Anagram)是一类特殊的图像,在不同角度下,他们看起来所呈现的内容可能完全不同,这类视幻觉在很久以前就得到了艺术家、哲学家以及科学家的关注与研究。
早期由艺术家手工创作的Visual Anagram代表包括1892刊载于德国幽默杂志Fliegende Blät ter的素描画Kaninchen und Ente,这幅画正着看像一只嘴巴朝左的鸭子,但如果将其旋转45度,它又像一只兔子,原先的鸭嘴部分成了兔子耳朵。
Kaninchen und Ente
这些画作在不同的视角或几何变换下生成多重意象,而这些意象需要在一幅图像中协调统一。
现有的基于扩散模型生成Visual Anagram方法示意[1]
现有方法的失败案例。左:概念分离,兔子和小提琴被独立地生成在了图像的不同区域而未达成一幅图像中的协调统一;右:概念主导,生成的图像被概念“猫”主导,没能在另一个视角下表达“船”。
在本研究中,为解决上述问题,研究团队将Visual Anagram的生成建模为一个多任务学习问题,并设计了抗分离优化(Anti-Segregation Optimization)、噪声向量平衡(Noise Vector Balancing)、噪声方差修正(Noise Variance Rectification)三项核心技术。
实验结果表明,该方法在多项定量和定性评估指标上均显著优于现有的基线方法,以及在生成更复杂的三视角Visual Anagram时,展示出了更高的灵活性和一致性。
二、方法
算法总览:在每个去噪步骤中,各视角下的中间图像 与对应文本提示先一起通过扩散模型以及一个CLIP模型,随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。
2.1 抗分离优化
在多任务学习(Multi-task Learning)中,单一模型被训练来同时解决多个任务,这是通过在模型中共享表征以利用任务之间的相似性达成的。类似地,在Visual Anagram生成中,不同文本提示中的概念(Concept)被期望共享同一幅图像。
抗分离优化旨在解决概念分离问题。研究团队设计了一种推理时损失项(Inference-time loss term),调整中间图像以鼓励不同视角下文本提示词与图像的交叉注意力图(Cross-attention maps)重叠。损失项的计算公式如下:
在每个去噪步骤之后,使用此损失项通过单步梯度下降调整图像:
抗分离优化技术通过促进注意力图重叠进而鼓励所生成概念的重叠,从而有效地防止了概念的分离,进而提高Visual Anagram生成质量。
抗分离优化:定性结果。应用抗分离优化后,去噪过程找到了两个视角下的生成任务的共性,体现为交集更大的注意力空间分配,最终实现单一图像中更高程度的概念统一和画面协调性。
2.2 噪声向量平衡
多任务学习中的一个常见挑战是任务间梯度的不平衡问题,其中某些任务可能主导整个学习过程。为了解决这一问题,GradNorm[2]提出可以实时衡量每个任务的训练进展,并为进展较少的任务分配更高的梯度权重。
受此启发,研究团队提出了一种基于任务完成度的噪声向量权重分配方法。具体来说,将文本提示及其对应的含噪图像分别输入到CLIP文本编码器和在含噪图像上训练过的CLIP图像编码器中。然后,把图像与文本编码的余弦相似度作为任务完成度评分,这个评分将用于组合噪声向量时各向量的赋权。
赋权和组合过程的公式如下:
1. 计算每个视角的任务完成度评分(余弦相似度):
2. 计算每个视角的权重系数:
3. 系数归一化:
直观上,生成任务更接近完成的视角的噪声向量会被赋予较低的权重,防止它在去噪过程中占据主导地位。通过这种方式,噪声向量平衡技术有效地平衡了不同视角的生成任务的进度,提高Visual Anagram的整体质量。
噪声向量平衡:定性结果。基线方法生成的图像被概念“鹿”主导,而几乎没有体现“鸟”,应用提出的噪声向量平衡技术后,鸟的眼睛、尾巴上的羽毛、腿和爪子等细节被成功地生成。
2.3 噪声方差修正
研究团队观察到,尽管每个视角的噪声向量估计被期望服从标准正态分布,但在Visual Anagram的生成中,噪声向量直接平均后可能不再保持这些统计属性,这可能破坏整个去噪过程。因此,研究团队提出了一种矫正方法,通过施加一个比例因子来调整组合后的噪声向量,使其方差呈现标准方差。
具体步骤和公式如下:
6. 根据大数定律,可以近似协方差项为:
通过这种噪声方差矫正方法,噪声的关键统计属性得以被保持,由此提高整体的图像生成质量。
噪声方差修正:定性结果。应用该技术后,所生成图像的质量更优。
三、实验
3.1 定量结果
定量结果:研究团队提出的方法在所测指标上优于已有方法。
3.2 消融实验
消融实验:抗分离优化(Anti-Segregation Optimization)、噪声向量平衡(Noise Vector Balancing)、噪声方差修正(Noise Variance Rectification)三项核心技术均对提升定量结果有效。
3.3 定性结果
定性结果:研究团队提出的方法可以生成视觉效果更优的Visual Anagram。
四、总结
此项研究从多任务学习领域汲取灵感,设计三项核心技术,解决了现有方法的概念分离与概念主导两大问题,并从数学上修正了去噪过程,进而在预训练图生文扩散模型生成Visual Anagram这一问题上取得新的最优性能。
此外,基于扩散模型生成Visual Anagram的研究,不仅为计算机视觉领域提供了创新的生成方法,也为艺术创作、认知科学研究等领域提供了新的思路和工具。期待未来此类研究能为生成式模型的多模态融合与跨领域应用提供新的技术支持和理论框架。
参考文献
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。