极市导读
本文介绍了一种无需微调的推理范式FreeScale,它通过融合不同尺度的信息,使预训练的扩散模型能够生成高分辨率的图像和视频。FreeScale首次实现了8K分辨率图像的生成,并在图像和视频生成任务中显著提升了高分辨率生成的能力,同时解决了高分辨率生成中的重复模式问题。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
文章链接:https://arxiv.org/pdf/2412.09626
项目链接:http://haonanqiu.com/projects/FreeScale.html
亮点直击
提出了 FreeScale,一种无需微调的推理范式,通过融合不同尺度的信息,使预训练的扩散模型能够生成生动的高分辨率结果。 在文本生成图像模型和文本生成视频模型上对该方法进行了实证评估,证明了其有效性。 首次实现了8K分辨率图像的生成。与其他最新的无需微调方法相比,FreeScale 以更少的推理时间获得了更高质量的视觉效果。
总结速览
解决的问题
当前的视觉扩散模型由于高分辨率数据缺乏和计算资源限制,仅能在有限分辨率下训练,难以生成高保真图像或视频。在生成高于训练分辨率的内容时,模型容易引入高频信息,导致重复模式和低质量内容。
提出的方案
FreeScale 是一种无需微调(tuning-free)的推理范式,通过尺度融合(scale fusion)实现高分辨率视觉内容生成。它通过处理不同感受野尺度的信息,并提取所需的频率成分进行融合,从而克服高频信息引发的重复模式问题。
应用的技术
多尺度信息处理:对不同感受的尺度信息进行提取和处理。 频率成分提取与融合:提取并融合目标频率成分,优化高分辨率生成质量。
达到的效果
在图像和视频生成任务中显著扩展了高分辨率生成的能力。 首次实现了8K分辨率图像的生成,相较于现有最优方法表现更优。 通过无调参方式解决了高分辨率生成中的重复模式问题,提升了生成内容的质量与保真度。
8K效果
方法
定制化的自级联超分辨率
直接生成高分辨率结果容易导致重复对象的出现,破坏原本良好的视觉结构。为了解决这一问题,采用了来自先前研究[13, 14]的自级联超分辨率框架,该框架通过逐步增加生成结果的分辨率来实现高质量的视觉输出。
其中, 表示带噪的中间潜变量, 表示分辨率级别(1代表原始分辨率,2代表高度和宽度的两倍), 是一个上采样操作。通过这种方式, 该框架可以在低分辨率下生成合理的视觉结构, 并在生成高分辨率结果时保持这种结构。
对于 有两种选择:直接在潜变量空间上采样 或在RGB空间上采样( , 其中 和 分别是预训练VAE的编码器和解码器)。在RGB空间上采样更符合人类的预期,但会引入一些模糊效果。通过实验证明,这些模糊会影响视频生成的质量,但有助于在图像生成中抑制冗余的高频信息。因此, 我们在高分辨率图像生成中采用RGB空间上采样, 而在高分辨率视频生成中采用潜变量空间上采样。
细节级别的灵活控制
与超分辨率任务不同,FreeScale 会随着分辨率的增加不断添加更多细节。当所有合理的细节都已生成时,这种行为可能会影响生成质量。为了控制新增细节的级别,我们将我们将 修改为 ,其中
其中, 是一个带有缩放因子 的缩放余弦衰减因子。
即使在同一张图像中, 不同区域的细节级别也会有所不同。为了实现更灵活的控制, 可以是一个二维张量, 允许空间上的变化。在这种情况下, 用户可以根据在前一过程中计算的 , 为不同语义区域分配不同的值。
受约束的膨胀卷积
ScaleCrafter 发现,导致对象重复问题的主要原因是卷积感受野的限制,并提出使用膨胀卷积来解决该问题。
给定一个隐藏特征图 、一个卷积核 和带有膨胀因子 的膨胀操作 , 膨胀卷积可以表示为:
其中, 和 是用于索引特征或卷积核的空间位置,⊛表示卷积操作。
为了避免灾难性的质量下降,ScaleCrafter仅将膨胀卷积应用于 UNet 的部分层,仍保留了多个上采样块(up-blocks)。然而,在上采样块的层中使用膨胀卷积会导致生成许多混乱的纹理。因此,与以往的工作不同,仅在下采样块(down-blocks)和中间块(mid-blocks)的层中应用膨胀卷积。此外,在最后几个时间步中,结果的细节被渲染,而视觉结构几乎固定。因此,在最后几个时间步中使用原始卷积。
尺度融合
虽然定制化的自级联超分辨率和受约束的膨胀卷积能够保持粗略的视觉结构,并有效生成 分辨率的图像,但生成 分辨率的图像仍会出现伪影,例如局部重复(如额外的眼睛或鼻子)。这一问题的根源在于膨胀卷积削弱了对局部特征的关注。DemoFusion通过使用局部块操作增强局部关注解决了这个问题。然而, 尽管局部块操作缓解了局部重复问题, 却在全局范围内引入了小对象的重复。
为结合两种策略的优势,本文设计了尺度融合(Scale Fusion),通过融合不同感受野尺度的信息,实现局部和全局细节的平衡增强。
对于全局信息的提取,采用了全局自注意力特征。原因在于,自注意力层基于相似性增强了块信息,使后续的交叉注意力层更容易将语义聚合成完整的对象。这可以表述为:
其中, 。
在此公式中, 查询 、键 和值 是通过线性层 从 计算得到的, 而 是自注意力的缩放系数。
随后, 自注意力层独立应用于这些局部潜在表示上, 计算为 。然后, 将 重构为原始大小, 并对重叠部分取平均, 得到 ,其中 表示重构过程。
关于局部信息的提取
遵循之前的研究工作 [2, 13, 37],通过局部计算自注意力以增强局部关注。具体而言,首先应用一个偏移裁剪采样,在每个自注意力层之前获得一系列局部潜在表示:
其中
和 分别代表垂直和水平的步幅。
随后,自注意力层独立应用于这些局部潜在表示上,计算为:
所得输出
被映射回原始位置,并对重叠部分取平均,形成:
其中 表示重构过程。
虽然倾向于生成更好的局部结果,但它可能在全局范围内引入意外的小对象重复。这些伪影主要来源于分散的高频信号,而这些信号本应通过全局采样被聚集到正确的区域。
因此, 用来自全局层级 的高频信号替换局部表示中的高频信号:
其中表示高频信号提取操作。
在这里, G 是通过高斯模糊实现的低通滤波器, 表达式 的作用是对 实现高通滤波。
实验
实验设置
实验条件
基于开源文本到图像扩散模型 SDXL 和开源文本到视频扩散模型 VideoCrafter2 进行了实验。考虑到计算资源限制,在图像生成实验中评估了 和 分辨率,视频生成实验中则评估了 640 分辨率。所有实验均使用单张 A800 GPU 完成。
数据集
在 LAION-5B 数据集中随机抽取 1024 条描述语句来评估图像生成性能。为了更贴近人类的审美偏好,我们从 LAION-Aesthetics-V2-6.5plus 数据集中随机选择提示语进行图像生成评估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一个子集,包含高视觉质量的图像,这些图像在美学预测模型中的评分达到 6.5 或更高。
在视频生成评估中,从 WebVid-10M 数据集中随机抽取 512 条描述语句。
评价指标
由于高分辨率推理方法旨在保持原始分辨率输出的质量,我们计算了原始低分辨率图像/视频与对应高分辨率输出之间的所有指标。
图像质量评估:我们报告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比较之前需要将图像调整到 的尺寸,这一操作可能会导致高分辨率图像的质量损失。因此,受前人研究 [8] 启发,我们使用裁剪的局部区域计算这些指标,称为 FIDc 和 KIDc。 视频质量评估:我们使用 Frechet Video Distance (FVD) 来评估视频生成的质量。 动态性和美学质量:从 VBench中测试了动态程度和美学质量,用以评估视频的动态性和视觉吸引力。
高分辨率图像生成
将 FreeScale 与其他高分辨率图像生成方法进行了对比,包括:
SDXL 直接推理 (SDXL-DI) ScaleCrafter DemoFusion FouriScale
若兼容,采用 FreeU 作为后处理方法。
定性比较
定性比较结果如下图 3 所示。观察到以下现象:
直接生成(SDXL-DI) 通常会导致多个重复对象,并且原始视觉结构丢失。 ScaleCrafter 容易产生局部重复现象。 DemoFusion 生成的画面中常伴有孤立的小物体。 FouriScale 对于某些描述,会大幅改变生成图像的风格。
相比之下,FreeScale 能够生成高质量图像,避免任何意外的重复现象。
定量比较
定量结果进一步证实了 FreeScale 的优越性。如下表 1 所示:
SDXL-DI 在 FIDc 和 KIDc 指标上表现最佳。这是因为 SDXL-DI 倾向于生成多个重复对象,并且裁剪区域可能更接近参考图像。然而,这种行为会牺牲视觉结构的完整性,因此在分辨率为 的场景下,SDXL-DI 在 FID 和 KID 指标上表现最差。 总体上,FreeScale 在所有与质量相关的指标上都取得了最佳或次优成绩,并且额外的时间成本可以忽略不计。
灵活细节控制
此外,FreeScale 提供了对生成结果中细节级别的灵活控制。下图 4 展示了对不同语义区域调整细节级别的示例。
在获得放大后的 1× 结果后,我们可以轻松计算语义mask,并在公式 4 中为每个区域分配不同的值。如下图 4 所示,在 Griffons 区域增加权重系数,而在其他区域降低权重系数时,生成结果会更加优异。
高分辨率视频生成
将 FreeScale 与其他无需调优的高分辨率视频生成方法进行了对比,包括:
VideoCrafter2 直接推理 (VC2-DI) ScaleCrafter DemoFusion
由于 FouriScale 结合的 FreeU 在视频生成中表现不佳,因此未进行评估。如下图 5 所示,VC2-DI 和 ScaleCrafter 的行为与它们在图像生成中的表现相似,分别倾向于生成重复的完整对象和局部部分。然而,DemoFusion 在视频生成中表现完全不可预期。其 Dilated Sampling 机制导致所有帧中出现奇怪的图案,而 Skip Residual 操作则使整个视频模糊不清。相比之下,FreeScale 能有效生成高分辨率的视频,且保真度高。下表 3 显示,我们的方法在推理时间较短的情况下取得了最佳的 FVD 分数。更多定量评估可以参考补充材料。
消融实验
FreeScale 主要由三个组件组成:
定制自级联上采样 限制性膨胀卷积 尺度融合
为了直观展示这三个组件的有效性,我们对 SDXL 生成的 和 图像进行了消融实验。首先,展示了在 RGB 空间进行上采样的优势。如下图 6 所示,在潜在空间进行上采样会在狮子眼睛中引入一定的伪影。接着,在上块中膨胀卷积或去除尺度融合会导致生成结果中出现一些杂乱的纹理,这些是由于小范围重复问题引起的。下表 2 显示,在所有实验设置中,我们最终的 FreeScale 在质量相关的指标上都取得了更好的成绩。
结论
FreeScale,一种无需调优的推理范式,旨在增强预训练扩散模型在高分辨率生成中的能力。通过利用多尺度融合和选择性频率提取,FreeScale 有效解决了高分辨率生成中常见的问题,如重复模式和质量退化。实验结果表明,FreeScale 在图像和视频生成中都表现出色,超越了现有方法的视觉质量,同时在推理时间上也具有显著优势。与以前的方法相比,FreeScale 不仅消除了各种形式的视觉重复,而且确保了生成图像中的细节清晰和结构一致性。最终,FreeScale 实现了前所未有的8k 分辨率图像生成。
参考文献
[1] FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货