图像超分辨:清华甩出Inf-DiT:Diffusion Transformer 任意分辨率上采样,可节省超过5倍显存!

2024-11-06 12:49   安徽  


点击上方卡片,关注“AI学术工坊”公众号

各种重磅干货,第一时间送达

超分辨图像无限生成!清华甩出Inf-DiT:Diffusion Transformer 任意分辨率上采样

论文地址:https://arxiv.org/pdf/2405.04312

项目地址:https://github.com/THUDM/Inf-DiT

在这个模块的基础上,作者使用 DiT 的架构,并逐渐执行上采样,最终开发了一个无限的超分辨率模型 Inf-DiT,能够对各种形状和分辨率的图像进行上采样。综合实验表明,Inf-DiT 在生成超高分辨率图像方面取得了 SOTA 性能。与常用的 UNet 结构相比,Inf-DiT 在生成 4096×4096 图像时可以节省超过5倍显存。

因此,使用 Transformer 进行图像超分辨已经成为计算机视觉领域的一个关键研究方向,为技术突破带来了全新视角。为了助力研究者迅速获取研究思路,我们精心整理了 22 篇结合 Transformer 和图像超分辨的论文,这些论文都是近期发表且附带代码的。


需要的同学扫码添加我

回复“超分辨率”即可全部领取


三篇论文解析:

1、Activating More Pixels in Image Super-Resolution Transformer

方法

这篇论文提出了一种新的混合注意力Transformer(Hybrid Attention Transformer,简称 HAT),用于单图像超分辨率(Super-Resolution,简称 SR)。HAT 结合了通道注意力和基于窗口的自注意力机制,利用它们的互补优势,即全局统计信息的利用和强大的局部拟合能力。此外,为了更好地聚合跨窗口信息,论文还引入了一个重叠的交叉注意力模块(Overlapping Cross-Attention Module,简称 OCAB),以增强邻近窗口特征之间的交互。在训练阶段,论文还采用了同任务预训练策略(same-task pre-training strategy),以进一步挖掘模型的潜力。

unsetunset具体方法如下:unsetunset
  • 使用一个卷积层进行浅层特征提取。
  • 利用一系列残差混合注意力组(Residual Hybrid Attention Groups,简称 RHAG)和一个 3x3 卷积层进行深层特征提取。
  • 通过全局残差连接融合浅层和深层特征,并通过重建模块重建高分辨率结果。
  • 在 RHAG 中,每个混合注意力块(Hybrid Attention Block,简称 HAB)包含一个通道注意力块(Channel Attention Block,简称 CAB)、一个重叠交叉注意力块(OCAB)和一个带有残差连接的 3x3 卷积层。
  • CAB 由两个标准的卷积层和一个通道注意力模块组成,用于增强网络的表示能力。
  • OCAB 通过使用不同的窗口大小来划分输入特征,以建立跨窗口连接并增强代表性。

创新点

  • 提出了混合注意力Transformer(HAT),这是一种新的网络结构,它结合了通道注意力和自注意力机制,以激活更多的输入像素,从而实现更好的重建效果。
  • 引入了重叠交叉注意力模块(OCAB),以直接建立跨窗口连接,并增强窗口内自注意力的特征表示能力。
  • 提出了一种有效的同任务预训练策略,通过在大规模数据集上进行预训练,进一步挖掘模型的潜力,并展示了大规模数据预训练对于任务的重要性。
  • 通过实验验证了所提出模块的有效性,并在多个基准数据集上取得了显著的性能提升,超越了现有的最先进方法。

2、Deep RAW Image Super-Resolution: A NTIRE 2024 Challenge Survey

方法

这篇论文是关于NTIRE 2024 RAW图像超分辨率挑战赛的综述,它概述了提出的解决方案和结果。挑战赛的目标是将RAW Bayer图像放大2倍,同时考虑未知的退化,如噪声和模糊。论文中回顾了挑战赛的前五名提交方案,并提供了它们的表现作为当前RAW图像超分辨率领域技术水平的参考。

unsetunset具体的解决方案包括:unsetunset
  • Samsung团队提出的两阶段网络,使用Focal Pixel Loss进行优化。
  • XiaomiMMAI团队提出的基于HAT的双分支网络,采用任务逐项和逐步训练方法。
  • USTC604团队提出的基于Transformer的网络,名为RBSFormer。
  • McMaster团队提出的考虑多传感器获取的算法,直接从4通道RAW数据中学习。
  • NUDT RSR团队提出的基于SAFMN的模型,结合了空间域和频域信息。

创新点

  • 提出了针对RAW图像的超分辨率挑战赛,这是一个相对较少被探索的领域,对于现代图像信号处理(ISP)流程具有重要意义。
  • 介绍了一种新的损失函数Focal Pixel Loss,用于处理信号退化函数的非均匀效应。
  • XiaomiMMAI团队提出了一种新颖的训练方法,包括任务逐项和逐步训练,以解决RAW图像超分辨率中的去噪、去模糊和超分辨率任务。
  • USTC604团队提出了一种基于Transformer的网络,该网络能够捕捉像素之间的长期相互作用。
  • McMaster团队提出了一种混合模型,结合了SwinFSR和简单的CNN层,用于处理RAW图像的超分辨率。
  • NUDT RSR团队提出了一种空间自适应特征调制方法,结合了频率域和空间域的信息,用于RAW图像的超分辨率。
  • 论文还提供了一个关于RAW图像超分辨率的数据集,这对于研究和开发新的算法非常有价值。

需要的同学扫码添加我

回复“超分辨率”即可全部领取


3、Dual Aggregation Transformer for Image Super-Resolution

方法

这篇论文提出了一种新的Transformer模型,名为Dual Aggregation Transformer(DAT),用于图像超分辨率(SR)。DAT通过在空间和通道维度上进行特征聚合,以获得强大的表示能力。

unsetunset具体方法如下:unsetunset
  • 交替应用空间窗口自注意力(SW-SA)和通道自注意力(CW-SA)在连续的Transformer块中,以捕获两个维度的特征并实现跨块特征聚合。
  • 提出了自适应交互模块(Adaptive Interaction Module, AIM),它包含空间交互(S-I)和通道交互(C-I)两种操作,用于在两个分支之间交换信息,增强两个自注意力机制的建模能力。
  • 设计了空间门控前馈网络(Spatial-Gate Feed-Forward Network, SGFN),通过在两个全连接层之间引入空间门控(SG)模块,为前馈网络补充额外的非线性空间信息。
  • 整体网络由浅层特征提取、深层特征提取和图像重建三个模块组成,其中深层特征提取模块由多个残差组(RGs)堆叠而成,每个RG包含多个DATBs。

创新点

  • 提出了DAT模型,该模型通过在空间和通道维度上交替使用自注意力机制,实现了跨块特征聚合,这是对传统Transformer模型的创新。
  • AIM模块的引入,使得DAT能够在单个自注意力模块内聚合空间和通道信息,增强了模型的表示能力。
  • SGFN的设计,通过引入空间门控机制,为前馈网络补充了空间信息,缓解了通道冗余问题,提高了特征表达能力。
  • DAT模型在保持较低复杂度和模型大小的同时,实现了对现有方法的性能超越,这表明了该模型在效率和效果之间的良好平衡。

需要的同学扫码添加我

回复“超分辨率”即可全部领取


点击上方卡片,关注“AI学术工坊”公众号

各种重磅干货,第一时间送达




AI学术工坊
分享最新AI资源
 最新文章