【他山之石】重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

科技   2025-01-19 18:01   北京  

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!

前言现有的超分辨率 (SR) 方法使用 L1 或 L2 损失函数,通过均匀采样图像块来平等地优化所有模型权重,而没有考虑数据集不平衡或参数冗余,这限制了它们的性能。为了解决这个问题,本文从统计概率的角度将图像 SR 任务表述为不平衡分布迁移学习问题,并提出了一种即插即用的权重平衡框架 (WBSR) 用于图像 SR,以实现平衡的模型学习,而无需改变原始模型结构或训练数据,开发了一种分层均衡采样 (HES) 策略来解决数据分布不平衡问题,从而从纹理丰富的样本中获得更好的特征表示。为了解决模型优化不平衡问题,提出了一种平衡多样性损失 (BDLoss) 函数,重点关注学习纹理区域,同时忽略平滑区域中的冗余计算。在对 HES 和 BDLoss 进行联合训练以纠正这些不平衡之后,提出了一种梯度投影动态推理策略,以促进推理过程中的准确高效重建。

论文题目

Rethinking Imbalance in Image Super-Resolution for Efficient Inference

1、简介
现实世界中数据分布和模型优化普遍存在的不平衡问题限制了当前图像超分辨率算法的性能,从统计概率的角度将图像超分辨率任务表述为一个不平衡分布迁移学习问题。为了弥合差距,提出了一种即插即用的权重平衡框架,称为 WBSR,以实现平衡的模型学习,而无需额外的计算成本,这在不改变原始模型结构和训练数据的情况下,提高了模型的恢复效果和推理效率,如图 1 (c) 所示,为了解决数据分布不平衡的问题,我们开发了一种分层均衡采样 (HES) 策略,使纹理丰富的样本能够更好地表示特征,从而减轻数据偏差。然后,为了解决模型优化不平衡的问题,提出了一种平衡多样性损失 (BDLoss) 函数,专注于学习纹理区域,同时忽略光滑区域中的冗余计算。在 WBSR 中对 HES 和 BDLoss 进行联合训练以纠正这些不平衡后,提出了一种梯度投影动态推理策略,以促进准确高效的推理。

做出了以下三个关键贡献:

(1)本文首次尝试探索图像超分辨率领域的不平衡问题,并从概率统计的角度给出了合理的分析,即数据分布和模型优化的不平衡限制了算法性能。

(2) 提出了一种基于 HES 和 BDLoss 的即插即用权重平衡框架 WBSR,以在不增加额外计算成本的情况下实现平衡训练,从而在不改变原始模型结构和训练数据的情况下提高模型的恢复效果和推理效率。

(3) 在各种模型、数据集和尺度因子上的大量实验表明,方法在计算成本更低的情况下,实现了与现有方法相当或更好的性能。

2背景

图像超分辨率 (SR) 旨在从低分辨率 (LR) 图像中重建具有更多细节的高分辨率 (HR) 图像。近年来,基于深度学习的图像 SR 方法通过更深的网络模型和大规模训练数据集在重建性能方面取得了显著进展,但这些改进对计算能力和内存资源提出了更高的要求,因此需要更有效的解决方案,各种技术如剪枝、量化、知识蒸馏以及轻量级架构设计,已被广泛研究以加速推理,并满足资源受限平台上部署推理的要求。然而,这些方法依赖于静态网络公平地处理所有输入样本,忽略了不同样本对网络计算成本的不同需求,这限制了模型的表示能力。

相比之下,基于动态神经网络的方法可以动态调整网络结构或参数,降低平均计算成本,近年来成为主流研究方向。这些方法可以根据输入样本的内容在推理过程中自适应地分配具有合适计算成本的网络。尽管这些动态网络解决方案取得了进展,但实际应用仍然受到两个普遍限制的阻碍:

数据分布不平衡。现有的 SR 方法主要使用均匀采样的 LR-HR 图块对来训练模型,而不是使用整张图像,这是由于内存资源的限制。然而,它们忽略了图像中图块内容存在不平衡分布这一基本事实(即,大量易于重建的平滑区域和稀少的难以重建的边缘纹理区域),导致固有的数据偏差。图 1 (a) 显示,容易平坦区域(48.8%)的数量比例远大于坚硬纹理区域(16.6%)。

模型优化不平衡。当前的超分辨率方法通常采用 L1 或 L2 损失函数来平等地对待所有图像块区域并优化每个权重,这缺乏对模型训练的合理优化。由于低分辨率图像中丢失的细节主要存在于边缘和纹理位置,因此模型在处理这些平滑图像块时需要更少的计算资源。因此,现有的超分辨率方法在平坦区域存在冗余计算,这会导致模型在简单区域过拟合,在复杂区域欠拟合,并导致模型计算资源分配不均匀,如图 1 (b) 所示。对于同一图像,优化的RCAN模型在平滑背景区域(绿色框,误差像素仅占0.08%)表现出过拟合,而在纹理前景区域(红色框,误差像素高达52%)表现出明显的欠拟合。

3 理论分析

令 x 和 y 表示 LR 和 HR 图块,L1 损失为例(注意理论适用于 L2),SR 任务的优化目标可以写成

其中 yˆ = fθ(x) 表示使用 SR 模型 fθ 从 LR x 估计的 SR 结果。θ 表示模型参数。pdata 表示数据分布空间。其目标是将整个数据集中预测图像与真实图像之间的所有绝对误差最小化。基于训练集分布不平衡而独立测试集平衡的自然假设 ,设定训练数据和测试数据分别来自不同的联合数据分布 ptrain(x, y) 和 pbal(x, y)由于超分辨率任务中固定的下采样降级,条件概率 p(x|y) 在训练集和测试集中是相同的。

从概率的角度来看,SR 网络的预测 yˆ 被认为是噪声预测分布的均值,该分布可以建模为高斯分布。

其中 σnoise2            表示独立分布的误差项的方差。预测值 yˆ 可以被视为噪声预测分布的均值。等式 2 可以解释为等式 1 的分布形式,对应于预测分布回归中最大化的负对数似然 (NLL) 损失。因此,由 L1 训练的预测模型实际上捕获了整个解空间的均值,即训练集的分布。

定理 1(分布变换). 考虑到ptrain(y|x)pbal(y|x)之间由于分布偏移导致的不一致。鉴于训练集和测试集具有相同的条件概率 p(x|y),利用贝叶斯规则 p(y|x) ∝ p(x|y) · p(y) 通过变量替换建立如下关系:

该定理表明,不平衡问题的存在源于ptrain(y|x)ptrain(y)之间的正比关系,其比例为   pptrainbal((xx))     当训练集中特定类型的补丁样本出现频率较低时,即ptrain(y)较低时,ptrain(y|x)的值也会下降,导致预测准确率下降。因此,训练后的超分辨率模型在预测时往往会低估稀有补丁的出现。同时,考虑到 ptrain(y|x) 的积分等于 1,可以得到

其中 Y 表示整个训练样本空间,将公式 3 代入公式 4,通过显式分布变换来建模两个分布之间的关系。

其中 y 表示积分变量。与之前专注于建模 ptrain(y|x) 的工作不同,本文的目标是估计 pbal(y|x) 以实现测试集上的平衡预测。上述理论证明了由不平衡数据分布和损失函数引起的不平衡模型优化是合理的。因此本文的方法旨在纠正这种不平衡,而无需引入额外的数据集或计算成本。

4 方法

4.1 权重平衡训练框架
基于观察到的现象和分析,图像超分辨率的不平衡模型优化无疑限制了模型的重建性能,尤其是在罕见的困难纹理块上。从数据采样和优化函数两个方面考虑获得具有平衡权重的鲁棒模型表示。图 2 (a) 说明了所提框架(称为 WBSR)的训练过程,该框架包含两个主要组件:分层均衡采样 (HES) 和均衡多样性损失 (BDLoss)。给定来自训练集的输入 LR 补丁,使用 HES 采样一批近似均衡的补丁,使用 BDLoss Lbd 优化每个子网模型。总体的优化目标是
其中 Smθ 表示具有参数 θm 的超网络中的第 m 个子网络。采用分治优化策略来学习近似平衡的权重,通过确保超网络中的每个子网络都得到良好优化来最小化整体目标。每个具有不同计算成本的子网络共享超网络的权重,旨在处理不同复杂度的图像块,这不会引入阻碍推理速度的额外复杂性。
4.1.1 分层均衡抽样
在没有先验数据分类的情况下,提出了一种简单而有效的层次均衡采样 (HES) 策略,该策略利用了图像块的内在梯度信息,对困难类和容易类进行样本级采样和类级采样,以实现丰富简单样本和稀有困难样本之间的均衡。

样本级采样是指从训练数据集中均匀采样补丁。在训练阶段,每个样本以相等的概率被采样,其概率为 Pi = N1 。 i 表示第 i 个样本。 N 表示训练补丁样本的总数。它确保模型在训练初期学习到稳定的初始权重,从而捕获不同样本类型中的通用特征。

类级别采样旨在为稀有困难样本分配更高的采样概率。与类别数量确定的图像分类任务不同,图像超分辨率中的样本未分类且数量未知。为了解决这个问题,在线计算梯度向量,该向量包含输入样本在水平和垂直方向上的梯度幅度的均值和标准差,从而评估样本的重建难度,然后使用向量阈值t对样本进行分类,以获得采样概率。第 k 类别的阈值定义如下:

其中 K 表示类别数。t1 和 tK 分别表示最简单和最难类别的梯度阈值。第 k 个类别的样本数对应于梯度向量落在 tk1 到 tk 范围内的 Nk 个样本。采样可能性 Pk 可以通过以下公式计算:

其中 δ ∈ (0, 1) 表示指数因子,用于通过减少样本数量来避免对简单数据的过度拟合。它使采样的批次训练数据包含来自困难类别的样本,从而实现均衡的数据采样。

所提出的分层均衡采样策略的核心概念是解决由固有失衡引起的数据偏差,即困难样本在视觉上比平滑样本更重要。在训练和测试期间,可以使用现有的梯度算子快速导出图像块的梯度向量。因此HES方法不会增加任何额外的计算负担,并有效地利用数据集信息来增强模型对难样本的特征表示能力。

4.1.2 平衡多样性损失

先前方法中常用的 L1 和 L2 损失函数平等地对待所有补丁,并对每个权重参数进行梯度更新,这忽略了参数冗余,导致对简单补丁过拟合,对稀有困难补丁欠拟合。为了实现对多样性补丁的合理模型优化,提出了一种新颖的平衡多样性损失函数 (BDLoss),以学习近似平衡的模型权重,该损失函数通过利用训练分布进行分布转换,无需额外数据即可实现平衡预测。根据定理 1,首先通过最小化 NLL 损失来估计所需的 pbal(y|x)
定义 1. 为了平衡模型多样性预测的不确定性和避免过度优化,BDLoss 被定义为似然函数
其中 log ptrain(y|x; θ) 表示为了获得平衡模型权重而转换的条件概率 θ|| · ||2 表示 L2 正则化函数,用于防止模型过拟合。λ 代表正则化系数,根据公式 9 推导出 Lbd 的实现

其中 log ptrain(y) 是可以省略的常数项。第一个剩余项是 L1 损失的概率形式,如公式 2 所示。log RY N (y; yˆ, σnoise2 I) · ptrain(y)dy 的最后一项表示服从高斯分布的关键多样性平衡项,它涉及积分运算,需要找到一个封闭形式的表达式。

基于先前分类任务的设计,利用高斯混合模型 (GMM) 技术来表示常数项。

其中 L 表示高斯分量的数量。ϕµσ 分别表示多维 GMM 的权重、均值和协方差。由于两个高斯函数的乘积会得到另一个非归一化的高斯函数,因此多样性平衡项可以表示为

其中 si、μ̃ 和 Σ˜ 分别是所得未归一化高斯的范数、均值和协方差。现在,平衡多样性项的积分服从高斯分布,可以直接求解,因此可以如下推导出 Eq. 10 中的 BDLoss:
4.2 梯度投影动态推理
图 2 (b) 说明了WBSR 框架的测试过程,提出了一种梯度投影动态推理策略,以实现效率和性能的动态平衡。它通过根据输入内容计算梯度投影图,自适应地分配子网模型,而不会增加任何额外的参数。
梯度投影,具有复杂(简单)结构的图像块表现出高(低)图像梯度幅度,并且在 SR 尺度变化时不会遭受更多(更少)的得分下降,计算梯度向量以衡量图像块内容的复杂性,并在线构建梯度投影图,将图像块的梯度向量投影到每个子网模型的选择上。在推理时,每个图像块可以根据其梯度向量选择合适的子网。当图像块中存在低分辨率噪声时,边缘检测方法会忽略图像块的局部复杂性,导致漏检,从而错误地将图像块归类为简单样本。通过直接计算标准差来统计梯度强度的变化,当图像块局部区域存在大量噪声或不同强度的纹理变化时,它仍然可以被正确地归类为困难样本。图 3 所示,黄色方框表示局部纹理变化区域,可以直观地看出,梯度投影方法可以准确地区分局部平滑区域或纹理区域,并将它们分配到相应的较小或较大子网络。
动态推理。为了便于模型在任何硬件资源上的部署,动态超网络包含多个子网络,通过结构化的迭代逐步缩减模型计算,以动态适应各种计算和性能需求。在推理过程中,采用动态超网络将K类的图像块分别分配到M个子网络,以获得更好的计算性能折衷。给定一个新的 LR patch,首先计算其梯度向量并根据阈值 t 推导出其类别 kˆ。然后,通过将梯度向量区间平均分成 M 个子区间,可以轻松获得用于推理的选定子网,可以表示为
其中 m ∈ [1, M ] 表示用于重建该 LR 补丁的选定子网的索引。⌈·⌉ 表示向上取整函数,倾向于选择较大的子网。然而,较大的子网选择会导致更高的性能,但计算量也更大,进一步考虑在有限的计算资源下选择推理子网 Ct
其中,mˆ 表示所选的最佳
在资源受限的情况下,子网分配问题。Cm 表示第 m 个子网的计算成本。α 是一个超参数,用于在计算成本和性能之间取得平衡,其中较高的值优先考虑提高性能,而较低的值则偏向于减少计算开销。因此 WBSR 框架可以根据实际性能和硬件资源需求灵活调整,以适应不同的应用场景。
5实验
1)和其他SOTA方法在GoPro和H2D数据集上的定量比较结果
2)与其他方法在四个测试数据集上对×4 SR的定性比较结果
3)WBSR在×4 SR两个基准上的消融研究
4)与其他采样策略的定量比较结果

击呗!

人工智能前沿讲习
领先的人工智能知识平台
 最新文章