TPAMI 2024 | 走向理解AdamW的收敛与泛化

文摘 2024-10-14 19:01 辽宁

点击下方“PaperEveryday”，每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：Towards Understanding Convergence and Generalization of AdamW

走向理解AdamW的收敛与泛化

作者：Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan

摘要

AdamW 通过在每次训练迭代中添加一个分离的权重衰减来修改 Adam，以衰减网络权重。对于自适应算法而言，这种分离的权重衰减不会影响特定的优化步骤，并且与广泛使用的 -正则化不同，后者通过改变一阶和二阶梯度矩来改变优化步骤。尽管在实践中取得了巨大的成功，但对于 AdamW 来说，其收敛行为和泛化改进与 Adam 和 -正则化的 Adam（-Adam）相比仍然缺失。为了解决这个问题，我们证明了 AdamW 的收敛性，并证明了其泛化优势优于 Adam 和 -Adam。具体来说，AdamW 可以证明是收敛的，但最小化了一个动态正则化损失，该损失结合了原始损失和由分离的权重衰减引起的动态正则化，从而产生了与 Adam 和 -Adam 不同的行为。此外，在一般非凸问题和 PŁ 条件下的问题上，我们建立了 AdamW 找到稳定点的随机梯度复杂性。这种复杂性也适用于 Adam 和 -Adam，并改进了它们之前已知的复杂性，特别是对于过度参数化的网络。此外，我们从贝叶斯后验的角度证明了 AdamW 比 Adam 和 -Adam 具有更小的泛化误差。这个结果首次明确揭示了 AdamW 中分离权重衰减的好处。实验结果验证了我们的理论。

关键词

自适应梯度算法，AdamW 分析
AdamW 的收敛性，AdamW 的泛化

I. INTRODUCTION

自适应梯度算法，例如 Adam [1]，因其比 SGD [2] 具有更快的收敛速度而成为训练深度网络最受欢迎的优化器，并在计算机视觉 [3]、[4] 和自然语言处理 [5] 等领域取得了许多成功的应用。类似于二阶算法中的前提条件 [6]，自适应算法对损失目标的景观曲率进行预处理，以调整每个梯度坐标的学习率。这种预处理通常帮助这些自适应算法比非自适应对应算法（例如，SGD 使用单一学习率对所有梯度坐标进行优化）更快地收敛。不幸的是，这种预处理也带来了负面影响。也就是说，自适应算法通常比 SGD 具有更差的泛化性能 [7]、[8]、[9]、[10]。

作为领先的自适应梯度方法，AdamW [11] 在视觉变换器（ViTs）[12] 和 CNN [13]、[14] 上显著提高了自适应算法的泛化性能。AdamW 的核心是分离的权重衰减。具体来说，AdamW 使用指数移动平均值来估计一阶矩和二阶矩，类似于 Adam，然后使用学习率、权重衰减参数和一个小常数更新网络权重

。可以观察到，AdamW 将权重衰减从损失函数的优化步骤中分离出来，因为无论损失和优化步骤如何，权重衰减始终是。这种分离的权重衰减在 SGD 中成为 -正则化，但与自适应算法的 -正则化不同。由于其有效性，AdamW 已在网络训练中得到广泛应用。但是，关于 AdamW 仍然有许多未解之谜。首先，尚不清楚 AdamW 是否能够理论上收敛，如果能够，它能够达到什么样的收敛速率。此外，对于 AdamW 相对于广泛使用的 Adam 和 -正则化的 Adam（-Adam）的泛化优势，理论上的原因很少被研究，尽管非常需要。

贡献：为了解决这些问题，我们提供了一个新的视角来理解 AdamW 的收敛和泛化行为。特别是，我们从理论上证明了 AdamW 的收敛性，并证明了其泛化优于（）-Adam。我们的主要贡献如下。

首先，我们证明了 AdamW 可以收敛，但最小化了一个动态正则化损失，该损失结合了原始损失和由分离的权重衰减引起的动态正则化。有趣的是，这种动态正则化与常用的 -正则化不同，因此产生了 AdamW 与 -Adam 之间的不同行为。就收敛速度而言，在一般非凸问题上，当使用恒定学习率时，AdamW 在随机梯度复杂性内找到了一个 -精确的一阶稳定点，当使用衰减学习率时，复杂性为，其中是随机梯度的 -范数上界。当忽略对数项时，这两种复杂性都与 [15] 中的下界复杂性相匹配。这些复杂性适用于 Adam 和 -Adam，并改进了它们之前已知的复杂性和，分别使用恒定和衰减学习率 [16]、[17]、[18]，因为通常比网络参数维度 d 小得多。在 PŁ 条件下的非凸问题上，我们建立的 AdamW 的复杂性也具有类似的优势。

接下来，我们从贝叶斯后验的角度理论上展示了 AdamW 中分离的权重衰减对泛化性能的好处。具体来说，我们展示了适当的分离权重衰减有助于 AdamW 实现比 Adam 更小的泛化误差，这表明了 AdamW 优于对应于的原始 Adam。我们进一步分析了 -正则化 Adam，观察到 AdamW 通常比 -正则化 Adam 具有更小的泛化误差界限。据我们所知，这项工作是第一个明确展示了 AdamW 优于 Adam 及其 -正则化版本。

III. NOTATION AND PRELIMINARILY

在本节中，我们首先简要回顾 AdamW、Adam 和 -Adam 的步骤，以解决随机非凸问题：

其中损失函数是可微分的且非凸的，样本从分布中抽取。为了解决问题（1），在第次迭代中，AdamW 估计当前梯度为小批量梯度，并使用三个常数、和更新变量：

其中，，并且所有操作（例如，乘法、除法）涉及的向量是逐元素的。这里我们允许随着迭代次数演变，因为在实践中，一个不断演变的通常比固定的一个表现得更好 [4]、[31]、[32]、[33]。有关详细的 AdamW，请参见在线附录 B 中的算法 1。AdamW 与原始 Adam 在（2）的第三步不同。具体来说，AdamW 将权重衰减从优化步骤中分离出来，因为无论损失和优化步骤如何，权重衰减始终是。但 -Adam 将常规权重衰减添加到梯度估计

中，然后更新（2）中的和，并且。AdamW 中的分离权重衰减通常在许多网络上比 -Adam 获得更好的泛化，例如 [12]、[14]。

分析假设：这里我们介绍分析中使用的必要假设，这些假设通常在 [1]、[8]、[19]、[34]、[35]、[36] 中使用。

假设 1（L-平滑性）：如果存在，使得对于所有和，我们有

则函数关于参数是 -平滑的。

假设 2（梯度假设）：梯度估计是无偏的，其幅度和方差有界：

当非凸问题满足假设 1 和假设 2 时，在 [15] 中找到 -精确一阶稳定点的随机梯度复杂性（即 IFO 复杂性）的下界是。接下来，我们引入 Polyak-Łojasiewicz (PŁ) 条件，它在深度网络分析中广泛使用，因为在 [37]、[38]、[39]、[40] 中观察或证明了深度神经网络至少在局部最小值附近满足 PŁ 条件。

假设 3（PŁ 条件）：假设。如果函数满足 -PŁ 条件，则满足

（对于所有），其中是一个常数。

IV. CONVERGENCE ANALYSIS

在本节中，我们首先使用一个特定的最小二乘问题来比较 AdamW 和 -Adam 的收敛行为。接下来，我们研究了 AdamW 在一般非凸问题上的收敛性，并展示了其在 PŁ 条件下问题的改进性能。

A. Results on Specific Least Square Problems

我们首先使用一个特定的最小二乘问题（公式 3）来分析 AdamW 和 -Adam 的不同收敛性能：

其中是一个常数。然后我们陈述我们的主要结果在定理 1 中，其证明可以在在线附录 G.1 中找到。

定理 1： 假设随机梯度是无偏的，，并且。那么使用学习率和，由 AdamW 生成的序列服从：

其中，。使用学习率和，由 -Adam 生成的序列服从：

定理 1 表明 AdamW 在最小二乘问题（公式 3）上比 -Adam 具有更快的收敛速度。具体来说，AdamW 中的第一个收敛项比 -Adam 中的相应项收敛得快得多。对于 AdamW 中的第二项，它通过一个因子（）改进了 -Adam 中的相应项。这一比较显示了 AdamW 相对于 -Adam 的优越性，并部分解释了它们不同的收敛行为。

B. Results on Nonconvex Problems

现在我们继续研究一般以及 PŁ 条件下的非凸问题。我们首先定义在第次迭代中的一个动态替代函数，它实际上是原始损失在公式（1）中的组合和由分离的权重衰减引起的动态正则化：

其中并且与逐元素乘法。为了最小化（公式 4），一个人可以通过泰勒展开近似原始损失，并计算：

然后考虑到在实践中是非常小的，一个人可以近似，并且因子对于项是太小的，可以忽略不计，与相比。最后，在随机设置中，一个人可以使用梯度估计来估计全梯度，因此实现

这与 AdamW 的更新（公式 2）一致。从这个过程，一个人也可以观察到动态正则化器是由 AdamW 中的分离权重衰减引起的。在下面，我们将展示 AdamW 确实最小化了动态函数而不是原始损失。

C. Results on General Nonconvex Problems

按照许多分析自适应梯度算法的工作 [16]、[18]、[21]、[41]、[42]，我们首先提供 AdamW 使用恒定学习率的收敛结果。

定理 2： 假设假设 1 和假设 2 成立。让，，

，

，并且对于所有迭代，并且与一个常数。在

次迭代后，AdamW 在（公式 2）中的序列服从

此外，实现（公式 5）的总随机梯度复杂性是

。

定理 2 展示了 AdamW 在非凸问题上的收敛性。在

次迭代内，平均梯度

小于，表明了 AdamW 的收敛性。现在我们在在线附录 G.3 中证明的推论 1 中展示小保证小。

推论 1： 假设与一个常数，并且。我们有

。

推论 1 中的假设是温和的。由于是全梯度的移动平均，一个人可以假设，特别是在训练后期，其中更新得非常慢。实际上，这种假设在 Adam 分析工作中得到了验证，例如 [9]。具体来说，由于中的是非常小的，一个人可以找到一个常数使得。对于假设，它是温和的，因为 a) 在实践中通常是非常小的，例如，并且 b) 网络参数的大小不是大的，因为如 [43] 中观察和证明的，由于不同层之间的参数大小的自动权衡。此外，我们发现在不同训练周期数中训练良好的 ViT-small 中。实际上，对于，Zhou 等人 [9] 在 CNN 中经验性地发现它大约是 1.0（见他们的图 2）。

公式（5）中的第二个不等式保证了相邻解和之间的小距离，也显示了 AdamW 良好的收敛行为。公式（5）中的最后一个不等式揭示了所有历史随机梯度的指数移动平均值（EMA）接近全梯度并解释了 EMA 梯度估计的成功。

此外，在定理 2 中，为了找到 -精确的一阶稳定点（-ASP），AdamW 的随机梯度复杂性是

并且与 [15] 中的下界匹配（除了常数因子）。此外，AdamW 享有比 Adabelief [21] 的和 LAMB [44] 的更低的复杂性，特别是在过度参数化的网络上，其中上界了随机梯度的 -范数。这是因为对于 -维梯度，其 -范数通常比其 -范数小得多，并且可以是更小的最佳情况。在线附录 D 中讨论了我们和上述工作的证明技术差异。一个人可以将定理 2 中的结果扩展到 -Adam。参见在线附录 G.4 中推论 2 的证明。

推论 2： 使用定理 2 中相同的参数设置，为了实现（公式 5），Adam 和 -Adam 的总随机梯度复杂性是

。

推论 2 表明 Adam 和 -Adam 的复杂性是，并且优于 [16]、[17]、[18] 中分析的 Adam 类优化器之前已知的复杂性，例如，(-)Adam、AdaGrad [34]、AdaBound [8]。尽管与 Adam 和 -Adam 共享相同的复杂性，AdamW 通过其分离的权重衰减将 -正则化器与损失目标分离，其泛化好处已经在许多工作中得到了验证，例如 [12]，并且在我们第 V 节中得到了理论证实。

现在我们研究使用衰减学习率时 AdamW 的收敛性能。与恒定学习率相比，这种衰减策略在实践中更常用，但在其他优化分析中很少被研究（例如 [16]、[21]、[44]），除了 [18]。定理 2 陈述了我们的主要结果。

定理 3： 假设假设 1 和假设 2 成立。让

，，与与一个常数对于第次训练迭代。为了实现（公式 5）中的结果与被替换，AdamW 在（公式 2）中的随机梯度复杂性是

。

定理 3 表明，使用衰减学习率时，AdamW 收敛，并且在使用恒定学习率的定理 2 中几乎拥有相同的结果。为了实现 -ASP，AdamW 带有衰减学习率的复杂性是

并且与使用恒定学习率的 AdamW 的复杂性

略有不同。通过比较每个复杂性项，衰减学习率分别通过因子

和改进了恒定学习率。考虑到和通常大于，因为随机梯度的 -范数通常不是小的，并且是非常小的，例如，默认情况下为，衰减学习率优于恒定学习率，这与实践观察相符。当 1）或 2）损失是一个 -正则化损失时，定理 3 仍然成立。所以定理 3 中的随机复杂性适用于 -Adam。Guo 等人 [18] 证明了 Adam 类算法，例如 Adam 和 -Adam，带有衰减学习率的复杂性

，但这比我们工作中的复杂性要差，因为如上所述，通常是非常小的。

D. Results on PŁ-Conditioned Nonconvex Problems

在这项工作中，我们也特别关注 PŁ 条件下的非凸问题，因为如在 [37]、[38] 中观察或证明了，深度学习模型至少在局部最小值附近满足 PŁ 条件。对于这种特殊的非凸问题，我们遵循 [18]，并将整个优化分成个阶段。具体来说，对于恒定学习率设置，AdamW 在整个第阶段使用学习率；而对于衰减学习率设置，它在第阶段使用一个衰减的满足如果，其中表示第阶段第次迭代的学习率。此外，对于两种学习率设置，在第阶段，AdamW 被允许运行次迭代以实现

，其中，是第阶段的输出，并且表示优化精度。参见在线附录 B 中的详细算法 2。在下面，我们提供 AdamW 在恒定或衰减学习率设置下的收敛结果在定理 4 中，证明在在线附录 G.6 中。

定理 4： 假设假设 1 和假设 2 成立，并且。假设公式（4）中的损失和满足假设 3 中的 PŁ 条件。

对于恒定学习率设置，假设恒定学习率，恒定，并且在第阶段。我们有：

1.1) 对于第阶段，AdamW 最多运行

次迭代以实现

，其中输出是从第阶段的序列中均匀随机选择的。

1.2) 对于个阶段，总随机复杂性是

以实现

。

对于衰减学习率设置，让，，，在第阶段的第次迭代中与。

2.1) 对于第阶段，AdamW 最多运行

次迭代以实现

，其中输出是从第阶段的序列中随机选择的，根据分布

。

2.2) 总复杂性是以实现（公式 6）。

定理 4 表明 AdamW 可以在恒定和衰减学习率设置下收敛。此外，通过比较，为了实现（公式 6）中的 -ASP，衰减学习率的总复杂性是，并且可能比恒定学习率更好，其复杂性是

。还应该指出的是，AdamW 在这种特殊非凸问题上（即具有 PŁ 条件）的复杂性比在一般非凸问题上的复杂性要低，因为 PŁ 条件确保了损失目标的类似凸性景观，因此可以更快地优化。

V. 泛化分析

A. 泛化结果

假设后验分析：正如经典的PAC-Bayesian框架 [30]、[45] 所示，泛化误差界限与算法学习的假设后验之间存在密切关系。因此，我们首先分析 AdamW 学习的假设后验，然后研究 AdamW 的泛化误差。具体来说，我们遵循 [9]、[22]、[23]、[24]、[46] 的做法，通过研究算法的相应随机微分方程（SDEs）来研究其后验和泛化行为，因为算法和其 SDE 的收敛行为相似。首先，AdamW 的更新规则可以表述为

其中是梯度噪声，是一个对角矩阵。在公式（7）中，为了方便起见，我们忽略了公式（2）中的小，这不会影响我们之后的结果。然后，我们假设梯度噪声服从高斯分布，这是基于中心极限定理。相应地，我们可以写出 AdamW 的 SDE 为

其中并且。这里定义为

其中是训练样本数量，是小批量大小。为了方便分析，我们做一些必要的假设。

假设 4： a) 假设可以近似 Fisher 矩阵

，即，。b) 假设可以近似最小值附近的 Hessian 矩阵，即，。c) 假设（虚拟序列）与是对的一个好估计，即，。

假设 4 是广泛使用的。具体来说，我们遵循 [23]、[47]、[48] 的做法，并且近似，因为我们在最优附近分析局部收敛，导致 1) 并且 2) 梯度噪声的方差占主导。假设 4 b) 在 [24]、[49] 中用于分析，并且在在最小值附近时成立。由于大多数工作在局部最小值附近分析算法的泛化性能，例如 [9]、[23]、[24]、[46]、[47]、[48]，假设 4 b) 在他们的设置中成立，因此是温和的。对于假设 4 c)，Staib 等人 [51] 证明了基于矩阵的二阶矩在运行一定迭代次数后是 Fisher 矩阵的一个好估计。有关假设 4 的理论细节，请参见在线附录 E。

然后我们可以推导出 AdamW 学习的假设后验。

引理 5： 假设损失可以近似为二阶 Taylor 近似，即，

，其中是系统性的。有了假设 4，AdamW 的解服从高斯分布其中协方差矩阵定义为

其中

是对角矩阵。

引理 5 告诉我们 AdamW 可以收敛到一个围绕最小值集中的解。这也保证了 AdamW 良好的收敛行为，但是从 SDE 的角度来看。从协方差矩阵来看，当增加并且足够大以确保时，所有奇异值都变得更小。这表明适当的权重衰减在 AdamW 中可以稳定算法，并有助于其收敛到最小值。

泛化分析：基于上述后验分析，我们采用 PAC-Bayesian 框架 [30] 明确分析 AdamW 的泛化性能。给定一个算法和一个训练数据集，其样本从未知分布中抽取，通常训练一个模型以获得一个从假设分布中抽取的后验假设。然后我们表示关于假设分布的预期风险为，并且关于分布的经验风险为。在实践中，通常假设先验假设满足高斯分布 [13]、[50]、[52]，因为我们对后验假设一无所知。基于引理 5，我们可以推导出 AdamW 的泛化误差界限。

定理 6： 假设满足。那么至少以概率（），对于在训练数据集上学习 AdamW 的后验假设的预期风险满足

其中

与

。这里和分别表示矩阵的行列式和迹。

定理 6 显示了 AdamW 的泛化误差被上界（除了其他因子）限制，这与 [53]、[54]、[55]、[56] 从 PAC 理论或稳定性方面导出的误差界限相匹配。当较大时，中的第一项变得更大，因为的奇异值变小，导致也变小；而第二项较小。但对于较小的，第一项较小，而第二项则变大。尽管很难精确决定最佳的，但至少我们知道调整可以获得更小的泛化误差，部分解释了 AdamW 相对于原始 Adam（）的更好性能。

B. 与 -正则化 Adam 的比较

现在我们比较 AdamW 与 -正则化 Adam。为了减少历史梯度对当前优化的影响，以及分析当前梯度对自适应算法行为的影响，许多工作，例如 [57]、[58]，设置来关注自适应算法的并发优化过程。这里我们遵循这一设置来研究 -正则化 Adam，其更新规则为：

其中与具有与公式 (7) 中相同的意义。然后一个人可以写出 -正则化 Adam 的 SDE 为：

其中，并且如上所述。

定理 7： 假设满足。那么至少以概率，对于在训练数据集上学习 -正则化 Adam 的后验假设的预期风险可以被上界限制：

其中

与

。

定理 7 显示了 -正则化 Adam 的泛化误差界限。此外，当时，AdamW 和 -正则化 Adam 完全相同，它们的误差界限也相同，如定理 6 和定理 7 所示。

接下来，我们比较 AdamW 和 -正则化 Adam 的泛化误差界限。为此，我们遵循 [9] 中的类似思路，并近似来简化和，在推论 3 中，其证明可以在在线附录 H.4 中找到。

推论 3： 假设。那么我们有

其中

与

，

与

。这里。

然后我们只需要比较不同的项，即和。对于，由于，当时，会增加。同时，通常我们有

对于大多数由于三个原因。1) 大多数深度网络的 Hessian 矩阵的奇异值远小于一，这在许多工作中得到了观察，例如，全连接网络、AlexNet、VGG 和 ResNet [49]、[59]、[60]、[61] 以及我们在 ResNet50 和 ViT-small 上的实验结果。2) 实际中达到最小值时的学习率被设置得非常小。3) 通常使用的小批量大小是为了训练现代网络，并且初始化分布的方差通常是的量级 [62]，其中是输入维度。这些因素表明

。因此，泛化误差项小于，这一结果通过我们在 ResNet50 和 ViT-small 上的实验结果得到了验证。因此，AdamW 通常比 -正则化 Adam 具有更好的泛化性能，这也在第 VI 节中得到了验证。在线附录 C 直观地讨论了 AdamW 中坐标自适应正则化的泛化好处。

VI. 实验

Investigation on Singular Values of Hessian

我们分别使用 AdamW 和 -Adam 在 ImageNet [63] 上训练两个流行的网络，即 ResNet50 [13] 和视觉变换器小型 (ViT-small) [3] 各100个周期。然后我们采用 [64] 中的方法来估计这两个训练网络的 Hessian 的奇异值。AdamW/-Adam 使用恒定权重衰减，而 AdamW-D/-Adam-D 采用指数衰减权重衰减，其中两个常数和。图1绘制了这些奇异值在 ImageNet 训练/测试数据上的谱密度，显示超过99%的奇异值在[0, 1]范围内，并且远小于1。这与在 [49]、[59]、[60]、[61] 中对 AlexNet、VGG 和 ResNet 的观察一致。所有这些观察结果都支持第V-B节中的结果。

Investigation on Generalization

为了计算关键泛化误差项，即定理6和7中的和，需要计算全 Hessian 矩阵乘法，这在计算上是难以处理的。所以我们计算它们在推论3中的近似 errAdamW 和 errℓ2−Adam。为了理解，我们还计算了 AdamW-D 和 ℓ2-Adam-D 的 errAdamW-D 和 errℓ2−Adam-D，它们分别与 errAdamW 和 errℓ2−Adam 有相同的公式，但是在由 AdamW-D 和 ℓ2-Adam-D 分别训练的模型上进行计算，使用上述指数衰减权重衰减。

然后我们分别使用 AdamW、AdamW-D、ℓ2-Adam 和 ℓ2-Adam-D 在 ImageNet 上训练三个模型，即 ResNet18、ResNet50 和 ViT-small，并良好地调整它们的超参数，例如学习率和权重衰减参数。注意，ℓ2-Adam 包括 Adam，将。接下来，我们在 ImageNet 的测试数据集上计算 errAdamW、errAdamW-D、errℓ2−Adam 和 errℓ2−Adam-D，因为测试数据可以更好地揭示算法的泛化能力。表I显示，在所有测试案例中，errAdamW 和 errAdamW-D 比 errℓ2−Adam 和 errℓ2−Adam-D 小得多。errAdamW-D 和 errℓ2−Adam-D 分别享有与它们对应的 errAdamW 和 errℓ2−Adam 相似的值。这些结果在实验上支持了 AdamW 相对于 -Adam 的优越泛化误差。此外，表I还揭示了1) AdamW 和 AdamW-D 的测试准确度高于 ℓ2-Adam 和 ℓ2- Adam-D；2) AdamW-D（ℓ2- Adam-D）与 AdamW（ℓ2- Adam）享有非常相似的性能。所有这些结果与我们在第 V-B 节中的理论结果一致。

Investigation on Convergence

我们在图2中绘制了 AdamW、AdamW-D、ℓ2-Adam 和 ℓ2-Adam-D 在 ImageNet 上的训练/测试曲线。对于 AdamW-D 和 ℓ2-Adam-D，我们固定并调整 c1 来计算其权重衰减。可以发现，在 ResNet50 和 ViT-small 上，1) 当它们的权重衰减参数良好调整时，例如 AdamW 和 ℓ2-Adam 的，AdamW-D 在 ViT-small 上的 c1 = ，AdamW 和 AdamW-D 显示出比 ℓ2-Adam（包括 Adam 通过）和 ℓ2-Adam-D 更快的收敛速度；2) AdamW 和 AdamW-D 共享相似的收敛行为；3) 权重衰减参数极大地影响了这三个优化器的收敛速度。因此，在相同的训练成本下，AdamW 的更快收敛速度也可以部分解释其相对于 -Adam 的更好泛化性能。

VII. 结论

在本项工作中，我们首先证明了 AdamW 在一般非凸问题和 PŁ 条件下问题上使用恒定和衰减学习率的收敛性。此外，我们发现 AdamW 可以证明最小化了一个动态正则化损失，该损失结合了原始损失和由分离的权重衰减引起的动态正则化，因此其行为与 Adam 和 -Adam 不同。此外，我们首次定量证明了 AdamW 相对于 Adam 和 -Adam 的泛化优势。最后，实验结果验证了我们理论的含义。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247501328&idx=2&sn=52b836bd16e1deac68476409fdf439b9

PaperEveryday

为大家分享计算机和机器人领域顶级期刊