点击上方卡片,关注“AI学术工坊”公众号
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
超分辨图像无限生成!清华甩出Inf-DiT:Diffusion Transformer 任意分辨率上采样
论文地址:https://arxiv.org/pdf/2405.04312
项目地址:https://github.com/THUDM/Inf-DiT
在这个模块的基础上,作者使用 DiT 的架构,并逐渐执行上采样,最终开发了一个无限的超分辨率模型 Inf-DiT,能够对各种形状和分辨率的图像进行上采样。综合实验表明,Inf-DiT 在生成超高分辨率图像方面取得了 SOTA 性能。与常用的 UNet 结构相比,Inf-DiT 在生成 4096×4096 图像时可以节省超过5倍显存。
因此,使用 Transformer 进行图像超分辨已经成为计算机视觉领域的一个关键研究方向,为技术突破带来了全新视角。为了助力研究者迅速获取研究思路,我们精心整理了 22 篇结合 Transformer 和图像超分辨的论文,这些论文都是近期发表且附带代码的。
需要的同学扫码添加我
回复“超分辨率”即可全部领取
三篇论文解析:
1、Activating More Pixels in Image Super-Resolution Transformer
方法
这篇论文提出了一种新的混合注意力Transformer(Hybrid Attention Transformer,简称 HAT),用于单图像超分辨率(Super-Resolution,简称 SR)。HAT 结合了通道注意力和基于窗口的自注意力机制,利用它们的互补优势,即全局统计信息的利用和强大的局部拟合能力。此外,为了更好地聚合跨窗口信息,论文还引入了一个重叠的交叉注意力模块(Overlapping Cross-Attention Module,简称 OCAB),以增强邻近窗口特征之间的交互。在训练阶段,论文还采用了同任务预训练策略(same-task pre-training strategy),以进一步挖掘模型的潜力。
具体方法如下:
使用一个卷积层进行浅层特征提取。 利用一系列残差混合注意力组(Residual Hybrid Attention Groups,简称 RHAG)和一个 3x3 卷积层进行深层特征提取。 通过全局残差连接融合浅层和深层特征,并通过重建模块重建高分辨率结果。 在 RHAG 中,每个混合注意力块(Hybrid Attention Block,简称 HAB)包含一个通道注意力块(Channel Attention Block,简称 CAB)、一个重叠交叉注意力块(OCAB)和一个带有残差连接的 3x3 卷积层。 CAB 由两个标准的卷积层和一个通道注意力模块组成,用于增强网络的表示能力。 OCAB 通过使用不同的窗口大小来划分输入特征,以建立跨窗口连接并增强代表性。
创新点
提出了混合注意力Transformer(HAT),这是一种新的网络结构,它结合了通道注意力和自注意力机制,以激活更多的输入像素,从而实现更好的重建效果。 引入了重叠交叉注意力模块(OCAB),以直接建立跨窗口连接,并增强窗口内自注意力的特征表示能力。 提出了一种有效的同任务预训练策略,通过在大规模数据集上进行预训练,进一步挖掘模型的潜力,并展示了大规模数据预训练对于任务的重要性。 通过实验验证了所提出模块的有效性,并在多个基准数据集上取得了显著的性能提升,超越了现有的最先进方法。
2、Deep RAW Image Super-Resolution: A NTIRE 2024 Challenge Survey
方法
这篇论文是关于NTIRE 2024 RAW图像超分辨率挑战赛的综述,它概述了提出的解决方案和结果。挑战赛的目标是将RAW Bayer图像放大2倍,同时考虑未知的退化,如噪声和模糊。论文中回顾了挑战赛的前五名提交方案,并提供了它们的表现作为当前RAW图像超分辨率领域技术水平的参考。
具体的解决方案包括:
Samsung团队提出的两阶段网络,使用Focal Pixel Loss进行优化。 XiaomiMMAI团队提出的基于HAT的双分支网络,采用任务逐项和逐步训练方法。 USTC604团队提出的基于Transformer的网络,名为RBSFormer。 McMaster团队提出的考虑多传感器获取的算法,直接从4通道RAW数据中学习。 NUDT RSR团队提出的基于SAFMN的模型,结合了空间域和频域信息。
创新点
提出了针对RAW图像的超分辨率挑战赛,这是一个相对较少被探索的领域,对于现代图像信号处理(ISP)流程具有重要意义。 介绍了一种新的损失函数Focal Pixel Loss,用于处理信号退化函数的非均匀效应。 XiaomiMMAI团队提出了一种新颖的训练方法,包括任务逐项和逐步训练,以解决RAW图像超分辨率中的去噪、去模糊和超分辨率任务。 USTC604团队提出了一种基于Transformer的网络,该网络能够捕捉像素之间的长期相互作用。 McMaster团队提出了一种混合模型,结合了SwinFSR和简单的CNN层,用于处理RAW图像的超分辨率。 NUDT RSR团队提出了一种空间自适应特征调制方法,结合了频率域和空间域的信息,用于RAW图像的超分辨率。 论文还提供了一个关于RAW图像超分辨率的数据集,这对于研究和开发新的算法非常有价值。
3、Dual Aggregation Transformer for Image Super-Resolution
方法
这篇论文提出了一种新的Transformer模型,名为Dual Aggregation Transformer(DAT),用于图像超分辨率(SR)。DAT通过在空间和通道维度上进行特征聚合,以获得强大的表示能力。
具体方法如下:
交替应用空间窗口自注意力(SW-SA)和通道自注意力(CW-SA)在连续的Transformer块中,以捕获两个维度的特征并实现跨块特征聚合。 提出了自适应交互模块(Adaptive Interaction Module, AIM),它包含空间交互(S-I)和通道交互(C-I)两种操作,用于在两个分支之间交换信息,增强两个自注意力机制的建模能力。 设计了空间门控前馈网络(Spatial-Gate Feed-Forward Network, SGFN),通过在两个全连接层之间引入空间门控(SG)模块,为前馈网络补充额外的非线性空间信息。 整体网络由浅层特征提取、深层特征提取和图像重建三个模块组成,其中深层特征提取模块由多个残差组(RGs)堆叠而成,每个RG包含多个DATBs。
创新点
提出了DAT模型,该模型通过在空间和通道维度上交替使用自注意力机制,实现了跨块特征聚合,这是对传统Transformer模型的创新。 AIM模块的引入,使得DAT能够在单个自注意力模块内聚合空间和通道信息,增强了模型的表示能力。 SGFN的设计,通过引入空间门控机制,为前馈网络补充了空间信息,缓解了通道冗余问题,提高了特征表达能力。 DAT模型在保持较低复杂度和模型大小的同时,实现了对现有方法的性能超越,这表明了该模型在效率和效果之间的良好平衡。