TPAMI 2024 | 走向理解AdamW的收敛与泛化

文摘   2024-10-14 19:01   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:Towards Understanding Convergence and Generalization of AdamW

走向理解AdamW的收敛与泛化

作者:Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan


摘要

AdamW 通过在每次训练迭代中添加一个分离的权重衰减来修改 Adam,以衰减网络权重。对于自适应算法而言,这种分离的权重衰减不会影响特定的优化步骤,并且与广泛使用的 -正则化不同,后者通过改变一阶和二阶梯度矩来改变优化步骤。尽管在实践中取得了巨大的成功,但对于 AdamW 来说,其收敛行为和泛化改进与 Adam 和 -正则化的 Adam(-Adam)相比仍然缺失。为了解决这个问题,我们证明了 AdamW 的收敛性,并证明了其泛化优势优于 Adam 和 -Adam。具体来说,AdamW 可以证明是收敛的,但最小化了一个动态正则化损失,该损失结合了原始损失和由分离的权重衰减引起的动态正则化,从而产生了与 Adam 和 -Adam 不同的行为。此外,在一般非凸问题和 PŁ 条件下的问题上,我们建立了 AdamW 找到稳定点的随机梯度复杂性。这种复杂性也适用于 Adam 和 -Adam,并改进了它们之前已知的复杂性,特别是对于过度参数化的网络。此外,我们从贝叶斯后验的角度证明了 AdamW 比 Adam 和 -Adam 具有更小的泛化误差。这个结果首次明确揭示了 AdamW 中分离权重衰减的好处。实验结果验证了我们的理论。

关键词

  • 自适应梯度算法,AdamW 分析
  • AdamW 的收敛性,AdamW 的泛化

I. INTRODUCTION

自适应梯度算法,例如 Adam [1],因其比 SGD [2] 具有更快的收敛速度而成为训练深度网络最受欢迎的优化器,并在计算机视觉 [3]、[4] 和自然语言处理 [5] 等领域取得了许多成功的应用。类似于二阶算法中的前提条件 [6],自适应算法对损失目标的景观曲率进行预处理,以调整每个梯度坐标的学习率。这种预处理通常帮助这些自适应算法比非自适应对应算法(例如,SGD 使用单一学习率对所有梯度坐标进行优化)更快地收敛。不幸的是,这种预处理也带来了负面影响。也就是说,自适应算法通常比 SGD 具有更差的泛化性能 [7]、[8]、[9]、[10]。
作为领先的自适应梯度方法,AdamW [11] 在视觉变换器(ViTs)[12] 和 CNN [13]、[14] 上显著提高了自适应算法的泛化性能。AdamW 的核心是分离的权重衰减。具体来说,AdamW 使用指数移动平均值来估计一阶矩 和二阶矩 ,类似于 Adam,然后使用学习率 、权重衰减参数 和一个小常数 更新网络权重 。可以观察到,AdamW 将权重衰减从损失函数的优化步骤中分离出来,因为无论损失和优化步骤如何,权重衰减始终是 。这种分离的权重衰减在 SGD 中成为 -正则化,但与自适应算法的 -正则化不同。由于其有效性,AdamW 已在网络训练中得到广泛应用。但是,关于 AdamW 仍然有许多未解之谜。首先,尚不清楚 AdamW 是否能够理论上收敛,如果能够,它能够达到什么样的收敛速率。此外,对于 AdamW 相对于广泛使用的 Adam 和 -正则化的 Adam(-Adam)的泛化优势,理论上的原因很少被研究,尽管非常需要。
贡献:为了解决这些问题,我们提供了一个新的视角来理解 AdamW 的收敛和泛化行为。特别是,我们从理论上证明了 AdamW 的收敛性,并证明了其泛化优于()-Adam。我们的主要贡献如下。
首先,我们证明了 AdamW 可以收敛,但最小化了一个动态正则化损失,该损失结合了原始损失和由分离的权重衰减引起的动态正则化。有趣的是,这种动态正则化与常用的 -正则化不同,因此产生了 AdamW 与 -Adam 之间的不同行为。就收敛速度而言,在一般非凸问题上,当使用恒定学习率时,AdamW 在随机梯度复杂性 内找到了一个 -精确的一阶稳定点,当使用衰减学习率时,复杂性为 ,其中 是随机梯度的 -范数上界。当忽略对数项时,这两种复杂性都与 [15] 中的下界复杂性 相匹配。这些复杂性适用于 Adam 和 -Adam,并改进了它们之前已知的复杂性 ,分别使用恒定和衰减学习率 [16]、[17]、[18],因为 通常比网络参数维度 d 小得多。在 PŁ 条件下的非凸问题上,我们建立的 AdamW 的复杂性也具有类似的优势。
接下来,我们从贝叶斯后验的角度理论上展示了 AdamW 中分离的权重衰减对泛化性能的好处。具体来说,我们展示了适当的分离权重衰减 有助于 AdamW 实现比 Adam 更小的泛化误差,这表明了 AdamW 优于对应于 的原始 Adam。我们进一步分析了 -正则化 Adam,观察到 AdamW 通常比 -正则化 Adam 具有更小的泛化误差界限。据我们所知,这项工作是第一个明确展示了 AdamW 优于 Adam 及其 -正则化版本。

III. NOTATION AND PRELIMINARILY

在本节中,我们首先简要回顾 AdamW、Adam 和 -Adam 的步骤,以解决随机非凸问题:
其中损失函数 是可微分的且非凸的,样本 从分布 中抽取。为了解决问题(1),在第 次迭代中,AdamW 估计当前梯度 为小批量梯度 ,并使用三个常数 更新变量
其中 ,并且所有操作(例如,乘法、除法)涉及的向量是逐元素的。这里我们允许 随着迭代次数 演变,因为在实践中,一个不断演变的 通常比固定的一个表现得更好 [4]、[31]、[32]、[33]。有关详细的 AdamW,请参见在线附录 B 中的算法 1。AdamW 与原始 Adam 在(2)的第三步不同。具体来说,AdamW 将权重衰减从优化步骤中分离出来,因为无论损失和优化步骤如何,权重衰减始终是 。但 -Adam 将常规权重衰减 添加到梯度估计 中,然后更新(2)中的 ,并且 。AdamW 中的分离权重衰减通常在许多网络上比 -Adam 获得更好的泛化,例如 [12]、[14]。
分析假设:这里我们介绍分析中使用的必要假设,这些假设通常在 [1]、[8]、[19]、[34]、[35]、[36] 中使用。
假设 1(L-平滑性):如果存在 ,使得对于所有 ,我们有
则函数 关于参数是 -平滑的。
假设 2(梯度假设):梯度估计 是无偏的,其幅度和方差有界:
当非凸问题满足假设 1 和假设 2 时,在 [15] 中找到 -精确一阶稳定点的随机梯度复杂性(即 IFO 复杂性)的下界是 。接下来,我们引入 Polyak-Łojasiewicz (PŁ) 条件,它在深度网络分析中广泛使用,因为在 [37]、[38]、[39]、[40] 中观察或证明了深度神经网络至少在局部最小值附近满足 PŁ 条件。
假设 3(PŁ 条件):假设 。如果函数 满足 -PŁ 条件,则满足 (对于所有 ),其中 是一个常数。

IV. CONVERGENCE ANALYSIS

在本节中,我们首先使用一个特定的最小二乘问题来比较 AdamW 和 -Adam 的收敛行为。接下来,我们研究了 AdamW 在一般非凸问题上的收敛性,并展示了其在 PŁ 条件下问题的改进性能。

A. Results on Specific Least Square Problems

我们首先使用一个特定的最小二乘问题(公式 3)来分析 AdamW 和 -Adam 的不同收敛性能:
其中 是一个常数。然后我们陈述我们的主要结果在定理 1 中,其证明可以在在线附录 G.1 中找到。
定理 1: 假设随机梯度 是无偏的,,并且 。那么使用学习率 ,由 AdamW 生成的序列 服从:
其中 。使用学习率 ,由 -Adam 生成的序列 服从:
定理 1 表明 AdamW 在最小二乘问题(公式 3)上比 -Adam 具有更快的收敛速度。具体来说,AdamW 中的第一个收敛项 -Adam 中的相应项 收敛得快得多。对于 AdamW 中的第二项 ,它通过一个因子 )改进了 -Adam 中的相应项。这一比较显示了 AdamW 相对于 -Adam 的优越性,并部分解释了它们不同的收敛行为。

B. Results on Nonconvex Problems

现在我们继续研究一般以及 PŁ 条件下的非凸问题。我们首先定义在第 次迭代中的一个动态替代函数 ,它实际上是原始损失 在公式(1)中的组合和由分离的权重衰减引起的动态正则化
其中 并且 与逐元素乘法 。为了最小化(公式 4),一个人可以通过泰勒展开近似原始损失 ,并计算
然后考虑到 在实践中是非常小的,一个人可以近似 ,并且因子 对于项 是太小的,可以忽略不计,与 相比。最后,在随机设置中,一个人可以使用梯度估计 来估计全梯度 ,因此实现 这与 AdamW 的更新(公式 2)一致。从这个过程,一个人也可以观察到动态正则化器 是由 AdamW 中的分离权重衰减 引起的。在下面,我们将展示 AdamW 确实最小化了动态函数 而不是原始损失

C. Results on General Nonconvex Problems

按照许多分析自适应梯度算法的工作 [16]、[18]、[21]、[41]、[42],我们首先提供 AdamW 使用恒定学习率 的收敛结果。
定理 2: 假设假设 1 和假设 2 成立。让 ,并且 对于所有迭代,并且 与一个常数 。在 次迭代后,AdamW 在(公式 2)中的序列 服从
此外,实现(公式 5)的总随机梯度复杂性是
定理 2 展示了 AdamW 在非凸问题上的收敛性。在 次迭代内,平均梯度 小于 ,表明了 AdamW 的收敛性。现在我们在在线附录 G.3 中证明的推论 1 中展示小 保证小
推论 1: 假设 与一个常数 ,并且 。我们有
推论 1 中的假设是温和的。由于 是全梯度 的移动平均,一个人可以假设 ,特别是在训练后期,其中 更新得非常慢。实际上,这种假设在 Adam 分析工作中得到了验证,例如 [9]。具体来说,由于 中的 是非常小的,一个人可以找到一个常数 使得 。对于假设 ,它是温和的,因为 a) 在实践中通常是非常小的,例如 ,并且 b) 网络参数的大小 不是大的,因为如 [43] 中观察和证明的,由于不同层之间的参数大小的自动权衡。此外,我们发现在不同训练周期数中训练良好的 ViT-small 中 。实际上,对于 ,Zhou 等人 [9] 在 CNN 中经验性地发现它大约是 1.0(见他们的图 2)。
公式(5)中的第二个不等式保证了相邻解 之间的小距离,也显示了 AdamW 良好的收敛行为。公式(5)中的最后一个不等式揭示了所有历史随机梯度的指数移动平均值(EMA) 接近全梯度 并解释了 EMA 梯度估计的成功。
此外,在定理 2 中,为了找到 -精确的一阶稳定点(-ASP),AdamW 的随机梯度复杂性是 并且与 [15] 中的下界 匹配(除了常数因子)。此外,AdamW 享有比 Adabelief [21] 的 和 LAMB [44] 的 更低的复杂性,特别是在过度参数化的网络上,其中 上界了随机梯度的 -范数。这是因为对于 -维梯度,其 -范数 通常比其 -范数 小得多,并且可以是 更小的最佳情况。在线附录 D 中讨论了我们和上述工作的证明技术差异。一个人可以将定理 2 中的结果扩展到 -Adam。参见在线附录 G.4 中推论 2 的证明。
推论 2: 使用定理 2 中相同的参数设置,为了实现(公式 5),Adam 和 -Adam 的总随机梯度复杂性是
推论 2 表明 Adam 和 -Adam 的复杂性是 ,并且优于 [16]、[17]、[18] 中分析的 Adam 类优化器之前已知的复杂性 ,例如,(-)Adam、AdaGrad [34]、AdaBound [8]。尽管与 Adam 和 -Adam 共享相同的复杂性,AdamW 通过其分离的权重衰减将 -正则化器与损失目标分离,其泛化好处已经在许多工作中得到了验证,例如 [12],并且在我们第 V 节中得到了理论证实。
现在我们研究使用衰减学习率 时 AdamW 的收敛性能。与恒定学习率相比,这种衰减策略在实践中更常用,但在其他优化分析中很少被研究(例如 [16]、[21]、[44]),除了 [18]。定理 2 陈述了我们的主要结果。
定理 3: 假设假设 1 和假设 2 成立。让 与一个常数 对于第 次训练迭代。为了实现(公式 5)中的结果与 替换,AdamW 在(公式 2)中的随机梯度复杂性是
定理 3 表明,使用衰减学习率 时,AdamW 收敛,并且在使用恒定学习率的定理 2 中几乎拥有相同的结果。为了实现 -ASP,AdamW 带有衰减学习率的复杂性是 并且与使用恒定学习率的 AdamW 的复杂性 略有不同。通过比较每个复杂性项,衰减学习率分别通过因子 改进了恒定学习率。考虑到 通常大于 ,因为随机梯度的 -范数 通常不是小的,并且 是非常小的,例如,默认情况下为 ,衰减学习率优于恒定学习率,这与实践观察相符。当 1) 或 2)损失 是一个 -正则化损失时,定理 3 仍然成立。所以定理 3 中的随机复杂性适用于 -Adam。Guo 等人 [18] 证明了 Adam 类算法,例如 Adam 和 -Adam,带有衰减学习率的复杂性 ,但这比我们工作中的复杂性要差,因为如上所述, 通常是非常小的。

D. Results on PŁ-Conditioned Nonconvex Problems

在这项工作中,我们也特别关注 PŁ 条件下的非凸问题,因为如在 [37]、[38] 中观察或证明了,深度学习模型至少在局部最小值附近满足 PŁ 条件。对于这种特殊的非凸问题,我们遵循 [18],并将整个优化分成 个阶段。具体来说,对于恒定学习率设置,AdamW 在整个第 阶段使用学习率 ;而对于衰减学习率设置,它在第 阶段使用一个衰减的 满足 如果 ,其中 表示第 阶段第 次迭代的学习率。此外,对于两种学习率设置,在第 阶段,AdamW 被允许运行 次迭代以实现 ,其中 是第 阶段的输出,并且 表示优化精度。参见在线附录 B 中的详细算法 2。在下面,我们提供 AdamW 在恒定或衰减学习率设置下的收敛结果在定理 4 中,证明在在线附录 G.6 中。
定理 4: 假设假设 1 和假设 2 成立,并且 。假设公式(4)中的损失 满足假设 3 中的 PŁ 条件。
  1. 对于恒定学习率设置,假设恒定学习率 ,恒定 并且 在第 阶段。我们有:
1.1) 对于第 阶段,AdamW 最多运行 次迭代以实现 ,其中输出 是从第 阶段的序列 中均匀随机选择的。
1.2) 对于 个阶段,总随机复杂性是 以实现
  1. 对于衰减学习率设置,让 在第 阶段的第 次迭代中与
2.1) 对于第 阶段,AdamW 最多运行 次迭代以实现 ,其中输出 是从第 阶段的序列 中随机选择的,根据分布
2.2) 总复杂性是 以实现(公式 6)。
定理 4 表明 AdamW 可以在恒定和衰减学习率设置下收敛。此外,通过比较,为了实现(公式 6)中的 -ASP,衰减学习率的总复杂性是 ,并且可能比恒定学习率更好,其复杂性是 。还应该指出的是,AdamW 在这种特殊非凸问题上(即具有 PŁ 条件)的复杂性比在一般非凸问题上的复杂性要低,因为 PŁ 条件确保了损失目标的类似凸性景观,因此可以更快地优化。

V. 泛化分析

A. 泛化结果

假设后验分析:正如经典的PAC-Bayesian框架 [30]、[45] 所示,泛化误差界限与算法学习的假设后验之间存在密切关系。因此,我们首先分析 AdamW 学习的假设后验,然后研究 AdamW 的泛化误差。具体来说,我们遵循 [9]、[22]、[23]、[24]、[46] 的做法,通过研究算法的相应随机微分方程(SDEs)来研究其后验和泛化行为,因为算法和其 SDE 的收敛行为相似。首先,AdamW 的更新规则可以表述为
其中    是梯度噪声,  是一个对角矩阵。在公式(7)中,为了方便起见,我们忽略了公式(2)中的小   ,这不会影响我们之后的结果。然后,我们假设梯度噪声    服从高斯分布   ,这是基于中心极限定理。相应地,我们可以写出 AdamW 的 SDE 为
其中    并且   。这里    定义为
其中    是训练样本数量,  是小批量大小。为了方便分析,我们做一些必要的假设。
假设 4: a) 假设    可以近似 Fisher 矩阵   ,即, 。b) 假设    可以近似最小值附近的 Hessian 矩阵,即, 。c) 假设   (虚拟序列)与    是对    的一个好估计,即,
假设 4 是广泛使用的。具体来说,我们遵循 [23]、[47]、[48] 的做法,并且近似   ,因为我们在最优附近分析局部收敛,导致 1)    并且 2) 梯度噪声的方差占主导。假设 4 b) 在 [24]、[49] 中用于分析,并且在    在最小值附近时成立。由于大多数工作在局部最小值附近分析算法的泛化性能,例如 [9]、[23]、[24]、[46]、[47]、[48],假设 4 b) 在他们的设置中成立,因此是温和的。对于假设 4 c),Staib 等人 [51] 证明了基于矩阵的二阶矩    在运行一定迭代次数后是 Fisher 矩阵    的一个好估计。有关假设 4 的理论细节,请参见在线附录 E。
然后我们可以推导出 AdamW 学习的假设后验。
引理 5: 假设损失可以近似为二阶 Taylor 近似,即, ,其中    是系统性的。有了假设 4,AdamW 的解    服从高斯分布    其中协方差矩阵    定义为
其中    是对角矩阵。
引理 5 告诉我们 AdamW 可以收敛到一个围绕最小值    集中的解。这也保证了 AdamW 良好的收敛行为,但是从 SDE 的角度来看。从协方差矩阵    来看,当增加并且足够大以确保    时,所有奇异值    都变得更小。这表明适当的权重衰减在 AdamW 中可以稳定算法,并有助于其收敛到最小值  
泛化分析:基于上述后验分析,我们采用 PAC-Bayesian 框架 [30] 明确分析 AdamW 的泛化性能。给定一个算法    和一个训练数据集   ,其样本    从未知分布    中抽取,通常训练一个模型以获得一个从假设分布    中抽取的后验假设   。然后我们表示关于假设分布    的预期风险为   ,并且关于分布    的经验风险为   。在实践中,通常假设先验假设满足高斯分布    [13]、[50]、[52],因为我们对后验假设一无所知。基于引理 5,我们可以推导出 AdamW 的泛化误差界限。
定理 6: 假设    满足   。那么至少以概率   ),对于在训练数据集    上学习 AdamW 的后验假设    的预期风险满足
其中    与   。这里    和    分别表示矩阵    的行列式和迹。
定理 6 显示了 AdamW 的泛化误差被上界 (除了其他因子)限制,这与 [53]、[54]、[55]、[56] 从 PAC 理论或稳定性方面导出的误差界限相匹配。当 较大时, 中的第一项 变得更大,因为 的奇异值变小,导致 也变小;而第二项 较小。但对于较小的 ,第一项 较小,而第二项则变大。尽管很难精确决定最佳的 ,但至少我们知道调整 可以获得更小的泛化误差,部分解释了 AdamW 相对于原始 Adam()的更好性能。

B. 与 -正则化 Adam 的比较

现在我们比较 AdamW 与 -正则化 Adam。为了减少历史梯度对当前优化的影响,以及分析当前梯度对自适应算法行为的影响,许多工作,例如 [57]、[58],设置 来关注自适应算法的并发优化过程。这里我们遵循这一设置来研究 -正则化 Adam,其更新规则为:
其中 具有与公式 (7) 中相同的意义。然后一个人可以写出 -正则化 Adam 的 SDE 为:
其中 并且 如上所述。
定理 7: 假设 满足 。那么至少以概率 ,对于在训练数据集 上学习 -正则化 Adam 的后验假设 的预期风险可以被上界限制:
其中
定理 7 显示了 -正则化 Adam 的泛化误差界限 。此外,当 时,AdamW 和 -正则化 Adam 完全相同,它们的误差界限也相同,如定理 6 和定理 7 所示。
接下来,我们比较 AdamW 和 -正则化 Adam 的泛化误差界限。为此,我们遵循 [9] 中的类似思路,并近似 来简化 ,在推论 3 中,其证明可以在在线附录 H.4 中找到。
推论 3: 假设 。那么我们有
其中 。这里
然后我们只需要比较不同的项,即 。对于 ,由于 ,当 时, 会增加。同时,通常我们有 对于大多数 由于三个原因。1) 大多数深度网络的 Hessian 矩阵的奇异值 远小于一,这在许多工作中得到了观察,例如,全连接网络、AlexNet、VGG 和 ResNet [49]、[59]、[60]、[61] 以及我们在 ResNet50 和 ViT-small 上的实验结果。2) 实际中达到最小值时的学习率被设置得非常小。3) 通常使用的小批量大小 是为了训练现代网络,并且初始化分布 的方差 通常是 的量级 [62],其中 是输入维度。这些因素表明 。因此,泛化误差项 小于 ,这一结果通过我们在 ResNet50 和 ViT-small 上的实验结果得到了验证。因此,AdamW 通常比 -正则化 Adam 具有更好的泛化性能,这也在第 VI 节中得到了验证。在线附录 C 直观地讨论了 AdamW 中坐标自适应正则化的泛化好处。

VI. 实验

Investigation on Singular Values of Hessian

我们分别使用 AdamW 和 -Adam 在 ImageNet [63] 上训练两个流行的网络,即 ResNet50 [13] 和视觉变换器小型 (ViT-small) [3] 各100个周期。然后我们采用 [64] 中的方法来估计这两个训练网络的 Hessian 的奇异值。AdamW/-Adam 使用恒定权重衰减 ,而 AdamW-D/-Adam-D 采用指数衰减权重衰减 ,其中两个常数 。图1绘制了这些奇异值在 ImageNet 训练/测试数据上的谱密度,显示超过99%的奇异值在[0, 1]范围内,并且远小于1。这与在 [49]、[59]、[60]、[61] 中对 AlexNet、VGG 和 ResNet 的观察一致。所有这些观察结果都支持第V-B节中的结果。

Investigation on Generalization

为了计算关键泛化误差项,即定理6和7中的 ,需要计算全 Hessian 矩阵乘法,这在计算上是难以处理的。所以我们计算它们在推论3中的近似 errAdamW 和 errℓ2−Adam。为了理解,我们还计算了 AdamW-D 和 ℓ2-Adam-D 的 errAdamW-D 和 errℓ2−Adam-D,它们分别与 errAdamW 和 errℓ2−Adam 有相同的公式,但是在由 AdamW-D 和 ℓ2-Adam-D 分别训练的模型上进行计算,使用上述指数衰减权重衰减
然后我们分别使用 AdamW、AdamW-D、ℓ2-Adam 和 ℓ2-Adam-D 在 ImageNet 上训练三个模型,即 ResNet18、ResNet50 和 ViT-small,并良好地调整它们的超参数,例如学习率和权重衰减参数 。注意,ℓ2-Adam 包括 Adam,将 。接下来,我们在 ImageNet 的测试数据集上计算 errAdamW、errAdamW-D、errℓ2−Adam 和 errℓ2−Adam-D,因为测试数据可以更好地揭示算法的泛化能力。表I显示,在所有测试案例中,errAdamW 和 errAdamW-D 比 errℓ2−Adam 和 errℓ2−Adam-D 小得多。errAdamW-D 和 errℓ2−Adam-D 分别享有与它们对应的 errAdamW 和 errℓ2−Adam 相似的值。这些结果在实验上支持了 AdamW 相对于 -Adam 的优越泛化误差。此外,表I还揭示了1) AdamW 和 AdamW-D 的测试准确度高于 ℓ2-Adam 和 ℓ2- Adam-D;2) AdamW-D(ℓ2- Adam-D)与 AdamW(ℓ2- Adam)享有非常相似的性能。所有这些结果与我们在第 V-B 节中的理论结果一致。

Investigation on Convergence

我们在图2中绘制了 AdamW、AdamW-D、ℓ2-Adam 和 ℓ2-Adam-D 在 ImageNet 上的训练/测试曲线。对于 AdamW-D 和 ℓ2-Adam-D,我们固定 并调整 c1 来计算其权重衰减 。可以发现,在 ResNet50 和 ViT-small 上,1) 当它们的权重衰减参数良好调整时,例如 AdamW 和 ℓ2-Adam 的 ,AdamW-D 在 ViT-small 上的 c1 = ,AdamW 和 AdamW-D 显示出比 ℓ2-Adam(包括 Adam 通过 )和 ℓ2-Adam-D 更快的收敛速度;2) AdamW 和 AdamW-D 共享相似的收敛行为;3) 权重衰减参数极大地影响了这三个优化器的收敛速度。因此,在相同的训练成本下,AdamW 的更快收敛速度也可以部分解释其相对于 -Adam 的更好泛化性能。

VII. 结论

在本项工作中,我们首先证明了 AdamW 在一般非凸问题和 PŁ 条件下问题上使用恒定和衰减学习率的收敛性。此外,我们发现 AdamW 可以证明最小化了一个动态正则化损失,该损失结合了原始损失和由分离的权重衰减引起的动态正则化,因此其行为与 Adam 和 -Adam 不同。此外,我们首次定量证明了 AdamW 相对于 Adam 和 -Adam 的泛化优势。最后,实验结果验证了我们理论的含义。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章