首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

科技 2024-12-19 22:01 广东

↑ 点击蓝字关注极市平台

作者丨AI生成未来

来源丨AI生成未来

编辑丨极市平台

极市导读

本文介绍了一种无需微调的推理范式FreeScale，它通过融合不同尺度的信息，使预训练的扩散模型能够生成高分辨率的图像和视频。FreeScale首次实现了8K分辨率图像的生成，并在图像和视频生成任务中显著提升了高分辨率生成的能力，同时解决了高分辨率生成中的重复模式问题。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

文章链接：https://arxiv.org/pdf/2412.09626

项目链接：http://haonanqiu.com/projects/FreeScale.html

亮点直击
提出了 FreeScale，一种无需微调的推理范式，通过融合不同尺度的信息，使预训练的扩散模型能够生成生动的高分辨率结果。
在文本生成图像模型和文本生成视频模型上对该方法进行了实证评估，证明了其有效性。
首次实现了8K分辨率图像的生成。与其他最新的无需微调方法相比，FreeScale 以更少的推理时间获得了更高质量的视觉效果。

总结速览

解决的问题

当前的视觉扩散模型由于高分辨率数据缺乏和计算资源限制，仅能在有限分辨率下训练，难以生成高保真图像或视频。在生成高于训练分辨率的内容时，模型容易引入高频信息，导致重复模式和低质量内容。

提出的方案

FreeScale 是一种无需微调（tuning-free）的推理范式，通过尺度融合（scale fusion）实现高分辨率视觉内容生成。它通过处理不同感受野尺度的信息，并提取所需的频率成分进行融合，从而克服高频信息引发的重复模式问题。

应用的技术

多尺度信息处理：对不同感受的尺度信息进行提取和处理。
频率成分提取与融合：提取并融合目标频率成分，优化高分辨率生成质量。

达到的效果

在图像和视频生成任务中显著扩展了高分辨率生成的能力。
首次实现了8K分辨率图像的生成，相较于现有最优方法表现更优。
通过无调参方式解决了高分辨率生成中的重复模式问题，提升了生成内容的质量与保真度。

8K效果

方法

定制化的自级联超分辨率

直接生成高分辨率结果容易导致重复对象的出现，破坏原本良好的视觉结构。为了解决这一问题，采用了来自先前研究[13, 14]的自级联超分辨率框架，该框架通过逐步增加生成结果的分辨率来实现高质量的视觉输出。

其中，表示带噪的中间潜变量，表示分辨率级别（1代表原始分辨率，2代表高度和宽度的两倍），是一个上采样操作。通过这种方式, 该框架可以在低分辨率下生成合理的视觉结构, 并在生成高分辨率结果时保持这种结构。

对于有两种选择：直接在潜变量空间上采样或在RGB空间上采样（ , 其中和分别是预训练VAE的编码器和解码器）。在RGB空间上采样更符合人类的预期，但会引入一些模糊效果。通过实验证明，这些模糊会影响视频生成的质量，但有助于在图像生成中抑制冗余的高频信息。因此, 我们在高分辨率图像生成中采用RGB空间上采样, 而在高分辨率视频生成中采用潜变量空间上采样。

细节级别的灵活控制

与超分辨率任务不同，FreeScale 会随着分辨率的增加不断添加更多细节。当所有合理的细节都已生成时，这种行为可能会影响生成质量。为了控制新增细节的级别，我们将我们将修改为，其中

其中, 是一个带有缩放因子的缩放余弦衰减因子。

即使在同一张图像中, 不同区域的细节级别也会有所不同。为了实现更灵活的控制, 可以是一个二维张量, 允许空间上的变化。在这种情况下, 用户可以根据在前一过程中计算的 , 为不同语义区域分配不同的值。

受约束的膨胀卷积

ScaleCrafter 发现，导致对象重复问题的主要原因是卷积感受野的限制，并提出使用膨胀卷积来解决该问题。

给定一个隐藏特征图、一个卷积核和带有膨胀因子的膨胀操作 , 膨胀卷积可以表示为:

其中, 和是用于索引特征或卷积核的空间位置，⊛表示卷积操作。

为了避免灾难性的质量下降，ScaleCrafter仅将膨胀卷积应用于 UNet 的部分层，仍保留了多个上采样块（up-blocks）。然而，在上采样块的层中使用膨胀卷积会导致生成许多混乱的纹理。因此，与以往的工作不同，仅在下采样块（down-blocks）和中间块（mid-blocks）的层中应用膨胀卷积。此外，在最后几个时间步中，结果的细节被渲染，而视觉结构几乎固定。因此，在最后几个时间步中使用原始卷积。

尺度融合

虽然定制化的自级联超分辨率和受约束的膨胀卷积能够保持粗略的视觉结构，并有效生成分辨率的图像，但生成分辨率的图像仍会出现伪影，例如局部重复（如额外的眼睛或鼻子）。这一问题的根源在于膨胀卷积削弱了对局部特征的关注。DemoFusion通过使用局部块操作增强局部关注解决了这个问题。然而, 尽管局部块操作缓解了局部重复问题, 却在全局范围内引入了小对象的重复。

为结合两种策略的优势，本文设计了尺度融合（Scale Fusion），通过融合不同感受野尺度的信息，实现局部和全局细节的平衡增强。

对于全局信息的提取，采用了全局自注意力特征。原因在于，自注意力层基于相似性增强了块信息，使后续的交叉注意力层更容易将语义聚合成完整的对象。这可以表述为：

其中, 。

在此公式中, 查询、键和值是通过线性层从计算得到的, 而是自注意力的缩放系数。

随后, 自注意力层独立应用于这些局部潜在表示上, 计算为。然后, 将重构为原始大小, 并对重叠部分取平均, 得到，其中表示重构过程。

关于局部信息的提取

遵循之前的研究工作 [2, 13, 37]，通过局部计算自注意力以增强局部关注。具体而言，首先应用一个偏移裁剪采样，在每个自注意力层之前获得一系列局部潜在表示：

其中

和分别代表垂直和水平的步幅。

随后，自注意力层独立应用于这些局部潜在表示上，计算为：

所得输出

被映射回原始位置，并对重叠部分取平均，形成：

其中表示重构过程。

虽然倾向于生成更好的局部结果，但它可能在全局范围内引入意外的小对象重复。这些伪影主要来源于分散的高频信号，而这些信号本应通过全局采样被聚集到正确的区域。

因此, 用来自全局层级的高频信号替换局部表示中的高频信号:

其中表示高频信号提取操作。

在这里, G 是通过高斯模糊实现的低通滤波器, 表达式的作用是对实现高通滤波。

实验

实验设置

实验条件
基于开源文本到图像扩散模型 SDXL 和开源文本到视频扩散模型 VideoCrafter2 进行了实验。考虑到计算资源限制，在图像生成实验中评估了和分辨率，视频生成实验中则评估了 640 分辨率。所有实验均使用单张 A800 GPU 完成。

数据集
在 LAION-5B 数据集中随机抽取 1024 条描述语句来评估图像生成性能。为了更贴近人类的审美偏好，我们从 LAION-Aesthetics-V2-6.5plus 数据集中随机选择提示语进行图像生成评估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一个子集，包含高视觉质量的图像，这些图像在美学预测模型中的评分达到 6.5 或更高。

在视频生成评估中，从 WebVid-10M 数据集中随机抽取 512 条描述语句。

评价指标
由于高分辨率推理方法旨在保持原始分辨率输出的质量，我们计算了原始低分辨率图像/视频与对应高分辨率输出之间的所有指标。

图像质量评估：我们报告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比较之前需要将图像调整到的尺寸，这一操作可能会导致高分辨率图像的质量损失。因此，受前人研究 [8] 启发，我们使用裁剪的局部区域计算这些指标，称为 FIDc 和 KIDc。
视频质量评估：我们使用 Frechet Video Distance (FVD) 来评估视频生成的质量。
动态性和美学质量：从 VBench中测试了动态程度和美学质量，用以评估视频的动态性和视觉吸引力。

高分辨率图像生成

将 FreeScale 与其他高分辨率图像生成方法进行了对比，包括：

SDXL 直接推理 (SDXL-DI)
ScaleCrafter
DemoFusion
FouriScale

若兼容，采用 FreeU 作为后处理方法。

定性比较

定性比较结果如下图 3 所示。观察到以下现象：

直接生成（SDXL-DI） 通常会导致多个重复对象，并且原始视觉结构丢失。
ScaleCrafter 容易产生局部重复现象。
DemoFusion 生成的画面中常伴有孤立的小物体。
FouriScale 对于某些描述，会大幅改变生成图像的风格。

相比之下，FreeScale 能够生成高质量图像，避免任何意外的重复现象。

定量比较

定量结果进一步证实了 FreeScale 的优越性。如下表 1 所示：

SDXL-DI 在 FIDc 和 KIDc 指标上表现最佳。这是因为 SDXL-DI 倾向于生成多个重复对象，并且裁剪区域可能更接近参考图像。然而，这种行为会牺牲视觉结构的完整性，因此在分辨率为的场景下，SDXL-DI 在 FID 和 KID 指标上表现最差。
总体上，FreeScale 在所有与质量相关的指标上都取得了最佳或次优成绩，并且额外的时间成本可以忽略不计。

灵活细节控制

此外，FreeScale 提供了对生成结果中细节级别的灵活控制。下图 4 展示了对不同语义区域调整细节级别的示例。

在获得放大后的 1× 结果后，我们可以轻松计算语义mask，并在公式 4 中为每个区域分配不同的值。如下图 4 所示，在 Griffons 区域增加权重系数，而在其他区域降低权重系数时，生成结果会更加优异。

高分辨率视频生成

将 FreeScale 与其他无需调优的高分辨率视频生成方法进行了对比，包括：

VideoCrafter2 直接推理 (VC2-DI)
ScaleCrafter
DemoFusion

由于 FouriScale 结合的 FreeU 在视频生成中表现不佳，因此未进行评估。如下图 5 所示，VC2-DI 和 ScaleCrafter 的行为与它们在图像生成中的表现相似，分别倾向于生成重复的完整对象和局部部分。然而，DemoFusion 在视频生成中表现完全不可预期。其 Dilated Sampling 机制导致所有帧中出现奇怪的图案，而 Skip Residual 操作则使整个视频模糊不清。相比之下，FreeScale 能有效生成高分辨率的视频，且保真度高。下表 3 显示，我们的方法在推理时间较短的情况下取得了最佳的 FVD 分数。更多定量评估可以参考补充材料。

消融实验

FreeScale 主要由三个组件组成：

定制自级联上采样
限制性膨胀卷积
尺度融合

为了直观展示这三个组件的有效性，我们对 SDXL 生成的和图像进行了消融实验。首先，展示了在 RGB 空间进行上采样的优势。如下图 6 所示，在潜在空间进行上采样会在狮子眼睛中引入一定的伪影。接着，在上块中膨胀卷积或去除尺度融合会导致生成结果中出现一些杂乱的纹理，这些是由于小范围重复问题引起的。下表 2 显示，在所有实验设置中，我们最终的 FreeScale 在质量相关的指标上都取得了更好的成绩。

结论

FreeScale，一种无需调优的推理范式，旨在增强预训练扩散模型在高分辨率生成中的能力。通过利用多尺度融合和选择性频率提取，FreeScale 有效解决了高分辨率生成中常见的问题，如重复模式和质量退化。实验结果表明，FreeScale 在图像和视频生成中都表现出色，超越了现有方法的视觉质量，同时在推理时间上也具有显著优势。与以前的方法相比，FreeScale 不仅消除了各种形式的视觉重复，而且确保了生成图像中的细节清晰和结构一致性。最终，FreeScale 实现了前所未有的8k 分辨率图像生成。

参考文献

[1] FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉