ECCV 2024 | 加速图像超分辨率网络的像素级分类

文摘   2024-11-21 19:01   中国香港  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Accelerating Image Super-Resolution Networks with Pixel-Level Classification

加速图像超分辨率网络的像素级分类

作者:Jinho Jeong, Jinwoo Kim, Younghyun Jo, Seon Joo Kim

论文链接:https://arxiv.org/abs/2407.21448

源码链接:https://github.com/3587jjh/PCSR

论文创新点

  1. 像素级分类器(Pixel-level Classifier):作者提出了一种名为单图像超分辨率的像素级分类器(PCSR)的新方法,这种方法能够在像素级别动态分配计算资源,与传统的基于块的方法相比,能够更精细地处理图像中不同区域的恢复难度。
  2. 自适应资源分配:PCSR模型包括一个主干网络、一个像素级分类器和一组不同容量的像素级上采样器。这种方法允许在推理过程中在性能和计算成本之间进行平衡,而无需重新训练
  3. 多尺度超分辨率(Multi-scale Super-Resolution):利用LIIF作为上采样器,PCSR模型能够适应不同的尺度因子,这意味着只需要一个模型就能处理多种尺度的超分辨率任务,这与传统方法需要为每个尺度因子单独建模相比,是一个显著的优势。

摘要

近年来,对于有效的超分辨率(SR)技术的需求激增,尤其是对于从2K到8K分辨率的大规模图像。对于基于深度神经网络(DNN)的单图像超分辨率(SISR),由于计算限制,通常需要将图像分解成重叠的块。在这样的块分解方案中,可以根据每个块的难度不同分配计算资源以进一步提高效率,同时保持SR性能。然而,这种方法有一个局限性:在块内均匀分配计算资源,导致包含不同恢复难度像素的块效率降低。为了解决这个问题,我们提出了一种新的方法,称为单图像超分辨率的像素级分类器(PCSR),它旨在自适应地在像素级别分配计算资源。PCSR模型包括一个主干网络、一个像素级分类器和一组不同容量的像素级上采样器。像素级分类器根据其恢复难度将每个像素分配给适当的上采样器,从而优化计算资源的使用。我们的方法允许在推理过程中在性能和计算成本之间平衡,而无需重新训练。我们的实验表明,PCSR在不同背景模型和基准测试中的PSNR-FLOP权衡方面比现有的块分配方法具有优势。

关键词

图像超分辨率、深度学习、像素级分类、计算资源分配

3. 方法

3.1 网络架构

PCSR的概述如图3所示。基于我们之前的讨论,模型由主干网络和一组上采样器组成。此外,我们采用了一个分类器,用于测量HR空间中目标像素的恢复难度。LR输入图像被前馈到主干网络并生成相应的LR特征图。然后,分类器确定每个查询像素的恢复难度,并通过相应的上采样器计算其输出RGB值。

主干网络

我们提出了一种用于高效大图像SR的逐像素计算分配方法。可以使用任何现有的深度SR网络作为我们的主干网络,以适应所需的模型大小。例如,小尺寸的FSRCNN、中等尺寸的CARN、大尺寸的SRResNet,以及其他模型也可以采用。

分类器

我们引入了一个轻量级的分类器,这是一个基于MLP的网络,用于以逐像素的方式获得属于每个上采样器(或类别)的概率。给定一个查询像素坐标,我们的分类器根据分类概率将其分配给相应的上采样器,以预测其RGB值。通过将简单像素适当地分配给较轻的上采样器,而不是较重的上采样器,我们可以节省计算资源,同时最小化性能下降。设LR输入为,其对应的HR为。设为HR Y中每个像素的坐标,为相应的RGB值。首先,使用主干网络从LR输入计算LR特征。然后,给定类别数,分类概率由分类器C获得:
其中是softmax函数。基于MLP的分类器类似于上采样器,主要区别在于其输出维度为。有关详细信息,请参见方程(4)。

上采样器

我们采用LIIF作为我们的上采样器,它适合于像素级处理。我们首先将之前定义的从HR空间标准化到LR空间的坐标。给定LR特征,我们表示为距离最近的(按欧几里得距离)特征,为该特征的相应坐标。然后上采样过程总结为:
其中处的RGB值,是连接操作。我们可以通过查询每个的RGB值并组合它们来获得最终输出ISR。在我们的提出的方法中,可以利用个并行上采样器来处理各种恢复难度(即从重到轻的容量)。

3.2 训练

在训练阶段,我们将查询像素通过所有个上采样器进行前馈,并聚合输出以有效地反向传播梯度,如下所示:
其中处的RGB输出,是查询像素在上采样器中的概率。然后我们利用两种损失函数:重建损失和平均损失,后者与ClassSR中使用的一个类似。重建损失定义为预测输出与目标之间的L1损失。这里,我们将目标视为真实HR补丁和双线性上采样LR输入补丁之间的差异。原因是我们希望分类器即使在非常小的容量下也能很好地执行分类任务,通过强调高频特征。因此,损失可以写成:
其中是双线性上采样LR输入补丁在位置处的RGB值。对于平均损失,我们通过定义损失来鼓励每个类别中像素的均匀分配:
其中是第个HR图像(即批量维度,批量大小为)中的第个像素在第个类别中的概率。这里,我们将每个类别中的概率视为分配给该类别的像素数量。我们的目标是将个像素平均分配给每个类别(或上采样器)。最后,总损失定义为:
由于同时从零开始训练所有模块(即,主干网络、分类器、上采样器)可能导致训练不稳定,我们采用了多阶段训练策略。假设上采样器的容量从递减,模型性能的上限由主干网络和最重的上采样器决定。因此,我们最初只使用重建损失训练。然后,从,重复以下过程:首先,冻结已经训练好的。其次,将连接到主干网络(对于,也新连接)。最后,使用总损失联合训练

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章