图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

2024-11-06 12:49 安徽

点击上方卡片，关注“AI学术工坊”公众号

各种重磅干货，第一时间送达

超分辨图像无限生成！清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样

论文地址：https://arxiv.org/pdf/2405.04312

项目地址：https://github.com/THUDM/Inf-DiT

在这个模块的基础上，作者使用 DiT 的架构，并逐渐执行上采样，最终开发了一个无限的超分辨率模型 Inf-DiT，能够对各种形状和分辨率的图像进行上采样。综合实验表明，Inf-DiT 在生成超高分辨率图像方面取得了 SOTA 性能。与常用的 UNet 结构相比，Inf-DiT 在生成 4096×4096 图像时可以节省超过5倍显存。

因此，使用 Transformer 进行图像超分辨已经成为计算机视觉领域的一个关键研究方向，为技术突破带来了全新视角。为了助力研究者迅速获取研究思路，我们精心整理了 22 篇结合 Transformer 和图像超分辨的论文，这些论文都是近期发表且附带代码的。

需要的同学扫码添加我

回复“超分辨率”即可全部领取

三篇论文解析：

1、Activating More Pixels in Image Super-Resolution Transformer

方法

这篇论文提出了一种新的混合注意力Transformer（Hybrid Attention Transformer，简称 HAT），用于单图像超分辨率（Super-Resolution，简称 SR）。HAT 结合了通道注意力和基于窗口的自注意力机制，利用它们的互补优势，即全局统计信息的利用和强大的局部拟合能力。此外，为了更好地聚合跨窗口信息，论文还引入了一个重叠的交叉注意力模块（Overlapping Cross-Attention Module，简称 OCAB），以增强邻近窗口特征之间的交互。在训练阶段，论文还采用了同任务预训练策略（same-task pre-training strategy），以进一步挖掘模型的潜力。

unsetunset具体方法如下：unsetunset

使用一个卷积层进行浅层特征提取。
利用一系列残差混合注意力组（Residual Hybrid Attention Groups，简称 RHAG）和一个 3x3 卷积层进行深层特征提取。
通过全局残差连接融合浅层和深层特征，并通过重建模块重建高分辨率结果。
在 RHAG 中，每个混合注意力块（Hybrid Attention Block，简称 HAB）包含一个通道注意力块（Channel Attention Block，简称 CAB）、一个重叠交叉注意力块（OCAB）和一个带有残差连接的 3x3 卷积层。
CAB 由两个标准的卷积层和一个通道注意力模块组成，用于增强网络的表示能力。
OCAB 通过使用不同的窗口大小来划分输入特征，以建立跨窗口连接并增强代表性。

创新点

提出了混合注意力Transformer（HAT），这是一种新的网络结构，它结合了通道注意力和自注意力机制，以激活更多的输入像素，从而实现更好的重建效果。
引入了重叠交叉注意力模块（OCAB），以直接建立跨窗口连接，并增强窗口内自注意力的特征表示能力。
提出了一种有效的同任务预训练策略，通过在大规模数据集上进行预训练，进一步挖掘模型的潜力，并展示了大规模数据预训练对于任务的重要性。
通过实验验证了所提出模块的有效性，并在多个基准数据集上取得了显著的性能提升，超越了现有的最先进方法。

2、Deep RAW Image Super-Resolution: A NTIRE 2024 Challenge Survey

方法

这篇论文是关于NTIRE 2024 RAW图像超分辨率挑战赛的综述，它概述了提出的解决方案和结果。挑战赛的目标是将RAW Bayer图像放大2倍，同时考虑未知的退化，如噪声和模糊。论文中回顾了挑战赛的前五名提交方案，并提供了它们的表现作为当前RAW图像超分辨率领域技术水平的参考。

unsetunset具体的解决方案包括：unsetunset

Samsung团队提出的两阶段网络，使用Focal Pixel Loss进行优化。
XiaomiMMAI团队提出的基于HAT的双分支网络，采用任务逐项和逐步训练方法。
USTC604团队提出的基于Transformer的网络，名为RBSFormer。
McMaster团队提出的考虑多传感器获取的算法，直接从4通道RAW数据中学习。
NUDT RSR团队提出的基于SAFMN的模型，结合了空间域和频域信息。

创新点

提出了针对RAW图像的超分辨率挑战赛，这是一个相对较少被探索的领域，对于现代图像信号处理（ISP）流程具有重要意义。
介绍了一种新的损失函数Focal Pixel Loss，用于处理信号退化函数的非均匀效应。
XiaomiMMAI团队提出了一种新颖的训练方法，包括任务逐项和逐步训练，以解决RAW图像超分辨率中的去噪、去模糊和超分辨率任务。
USTC604团队提出了一种基于Transformer的网络，该网络能够捕捉像素之间的长期相互作用。
McMaster团队提出了一种混合模型，结合了SwinFSR和简单的CNN层，用于处理RAW图像的超分辨率。
NUDT RSR团队提出了一种空间自适应特征调制方法，结合了频率域和空间域的信息，用于RAW图像的超分辨率。
论文还提供了一个关于RAW图像超分辨率的数据集，这对于研究和开发新的算法非常有价值。

3、Dual Aggregation Transformer for Image Super-Resolution

方法

这篇论文提出了一种新的Transformer模型，名为Dual Aggregation Transformer（DAT），用于图像超分辨率（SR）。DAT通过在空间和通道维度上进行特征聚合，以获得强大的表示能力。

unsetunset具体方法如下：unsetunset

交替应用空间窗口自注意力（SW-SA）和通道自注意力（CW-SA）在连续的Transformer块中，以捕获两个维度的特征并实现跨块特征聚合。
提出了自适应交互模块（Adaptive Interaction Module, AIM），它包含空间交互（S-I）和通道交互（C-I）两种操作，用于在两个分支之间交换信息，增强两个自注意力机制的建模能力。
设计了空间门控前馈网络（Spatial-Gate Feed-Forward Network, SGFN），通过在两个全连接层之间引入空间门控（SG）模块，为前馈网络补充额外的非线性空间信息。
整体网络由浅层特征提取、深层特征提取和图像重建三个模块组成，其中深层特征提取模块由多个残差组（RGs）堆叠而成，每个RG包含多个DATBs。

创新点

提出了DAT模型，该模型通过在空间和通道维度上交替使用自注意力机制，实现了跨块特征聚合，这是对传统Transformer模型的创新。
AIM模块的引入，使得DAT能够在单个自注意力模块内聚合空间和通道信息，增强了模型的表示能力。
SGFN的设计，通过引入空间门控机制，为前馈网络补充了空间信息，缓解了通道冗余问题，提高了特征表达能力。
DAT模型在保持较低复杂度和模型大小的同时，实现了对现有方法的性能超越，这表明了该模型在效率和效果之间的良好平衡。

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487288&idx=1&sn=6f3a331c82d417cf51406ded555266e7

AI学术工坊

分享最新AI资源

最新文章

别再 “单打独斗”！特征融合技术带领深度学习模型 “组团出道”！

博士招生 | 智能交通、智能网联驾驶方向博士研究生招生(西交利物浦大学)

别让夜间眩光 “闪瞎” 视觉算法！Flare7K++ 带着解决方案闪亮登场

揭秘 LSTM与CNN的完美联姻，论文从此不再愁！

真实到离谱！1000 个如同人类 “克隆” 的个体进入西部世界，AI 相似度达到 85%，细节令人震撼！

CMAE横空出世，在视觉任务中取得惊人成果

多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

博士招生 | 澳门理工大学人工智能药物发现中心招收全奖博士生 (2025年入学)

重大突破！新型自适应程序助力多模态学习，弥补缺失模态性能短板！

从城市到高速，自动驾驶如何重塑交通版图？

Nature发声：“人类亲吻难题” 让LLM原形毕露！各大模型全军覆没，所谓强大的它们，根本不懂推理，仅仅是被高估的工具罢了。

超越传统：新型变换器框架在 WSSS 中展现卓越性能！

别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

绝绝子！VST++ 助力显著性检测，“实力圈粉” 没商量！

别人苦苦训练，HPT 模型0起步却让通用机器人性能 “一骑绝尘”！

3D人体姿势数据为何缺乏语言描述？PoseScript 数据集如何填补这一空白？

仅有少量样本，“小样本学习 + 多模态” 凭啥在 AI 领域风生水起？

博士招生 | 悉尼科技大学(QS世界排名88)招收2025年入学的数据科学/AI方向的博士生和访问学生学者

VSR 模型的 “逆天改命” 术 —— 提示调整，C 位出道！

被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

哈佛突破：新一代AI精准诊断癌症，准确率惊人！

深度全卷积新贵 SegNet 登场，能否打破语义分割现有格局？

高光谱图像恢复大作战，看 Transformer 如何显神通！

大模型微调背后的神秘力量：你了解多少？

博士招生 | 香港科技大学广州-陈煌栒老师招收网络信息物理系统与人工智能的交叉方向的博士/RA

深度揭秘：计算机视觉 + 注意力机制融合，为何成为学术研究新宠

清华团队重磅突破！具身智能 Scaling Law 被破解，GPT 时刻或将来临，宁德时代联创助力

只训练一个GNN已过时？解耦图神经网络：多管齐下的神秘训练策略

时序 + CNN：顶会的 “奇葩” 但超有效的方向！

不可思议！RGBE-Gaze 数据集，让凝视追踪更上一层楼

博士招生 | 中科院物理所李迪组招聘【光学/图像/自动化/人工智能/细胞生物学】博/硕/科研助理

万能涨点&出创新点神器：对比学习！15种创新方法全面汇总

国务院：博士学位论文，不再非写不可

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

EfficientTrain++：一种高效视觉骨干训练的新突破

博士招生 | 福建医科大学健康数据科学博士招生研究方向：医疗大数据与人工智能

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

招生 | 浙江大学吴超老师课题组招收偏计算机方向博士后和科研助理

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

博士招生 | 英国顶尖大学卡迪夫大学招人工智能、机器学习算法及应用全奖博士或联培博士、教师

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

真实世界图像超分辨率：交互式调制如何应对复杂退化挑战？

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉